Om Oslo-Bergen-taggeren

Taggeren består i dag av følgende moduler:

Preprosessor med sammensetningsanalysator og multitagger for bokmål og nynorsk: Modulen finner blant annet setningsgrenser og identifiserer og analyserer nye sammensetninger som ikke finnes i leksikon. Hvert enkelt ord blir utstyrt med alle de grammatiske taggene som er mulige for ordet i henhold til Norsk ordbank (se nedenfor). Modulen er programmert i Python ved Tekstlaboratoriet, Universitetet i Oslo.
Grammatikk-modul for morfologisk disambiguering for bokmål og nynorsk:
Modulen fjerner overflødige morfologiske tagger ved hjelp av føringsbaserte regler (Constraint Grammar). Constraint Grammar-reglene er skrevet i CG3 ved Tekstlaboratoriet.
Kompilatoren for CG3 er utviklet ved Syddansk universitet i Odense.
Statistisk tilleggsmodul for morfologidelen, bokmål: modulen bruker en HunPos-tagger til å fjerne de siste øverflødige taggene som fortsatt står igjen etter at Constraint Grammar-modulen er kjørt. Det dreier seg delvis om flertydighet som burde ha vært fjernet av Constraint Grammar-modulen, men også om flertydighet som bevisst har blitt etterlatt, for eksempel i tilfelle med ubestemte entallssubstantiv der det er umulig å avgjøre om substantivet er hankjønn eller hunkjønn eller semantisk flertydighet. HunPos-taggeren ble trent på en fullstendig entydiggjort versjon av treningskorpuset til Oslo-Bergen-taggeren. Dette arbeidet er gjort ved Tekstlaboratoriet, Universitetet i Oslo.

Leksikon

Oslo-Bergen-taggeren benytter Norsk ordbank for multitagging i preprosessoren. Norsk ordbank er en elektronisk database av fullformer - det vil si leksikalske enheter i grunnform tilkoblet alle bøyningsformer til hver enhet. Norsk ordbank er laget på grunnlag av:

oppslagsord og bøyingsopplysninger fra Bokmålsordboka og Nynorskordboka (versjon fra ILN, UiO)
ordlister og bøyningsmønstre for bokmål og nynorsk laget ved IBM Norge.
argumentstrukturkoder laget av NorKompLeks-prosjektet ved NTNU (ikke i bruk i den nåværende versjonen av taggeren).