Om Oslo-Bergen-taggeren
Taggeren består i dag av følgende moduler:
- Preprosessor med sammensetningsanalysator og multitagger for bokmål og nynorsk: Modulen finner blant annet setningsgrenser og identifiserer og analyserer nye sammensetninger som ikke finnes i leksikon. Hvert enkelt ord blir utstyrt med alle de grammatiske taggene som er mulige for ordet i henhold til Norsk ordbank (se nedenfor). Modulen er programmert i Clozure Common Lisp ved Uni Computing.
- Grammatikk-moduler for morfologisk og syntaktisk disambiguering for bokmål og nynorsk:
- Morfologisk disambiguering: Modulen fjerner overflødige morfologiske tagger ved hjelp av føringsbaserte regler (Constraint Grammar)
- Syntaktisk mapping: Gjenstående morfologiske tagger blir utstyrt med syntaktiske tagger, inkludert spesielle tagger for navn.
- Syntaktisk disambiguering: Modulen fjerner overflødige syntaktiske tagger ved hjelp av føringsbaserte regler
Constraint grammar-reglene er skrevet i CG3 ved Tekstlaboratoriet, Universitetet i Oslo. Kompilatoren for CG3 er utviklet ved Syddansk universitet i Odense.
- Statistisk tilleggsmodul for morfologidelen, bokmål: modulen bruker en HunPos-tagger til å fjerne de siste øverflødige taggene som fortsatt står igjen etter constraint grammar-modulen er kjørt. Det dreier seg delvis om flertydighet som burde ha vært fjernet av Constraint Grammar-modulen, men også om flertydighet som bevisst har blitt etterlatt, for eksempel i tilfelle med ubestemte entallssubstantiv der det er umulig å avgjøre om substantivet er hannkjønn eller hunkjønn eller semantisk flertydighet. HunPos-taggeren ble trent på en fullstendig entydiggjort versjon av treningskorpuset til Oslo-Bergen-taggeren. Dette arbeidet er gjort ved Tekstlaboratoriet, Universitetet i Oslo.
Leksikon
Oslo-Bergen-taggeren benytter Norsk ordbank for multitagging i preprosessoren. Norsk ordbank er en elektronisk database av fullformer - det vil si leksikalske enheter i grunnform tilkoblet alle bøyningsformer til hver enhet. Norsk ordbank er laget på grunnlag av:
- oppslagsord og bøyingsopplysninger fra Bokmålsordboka og Nynorskordboka laget ved ILN, UiO
- ordlister og bøyningsmønstre for bokmål og nynorsk laget ved IBM Norge.
- argumentstrukturkoder laget av NorKompLeks-prosjektet ved NTNU