Oslo-Bergen-taggeren
Universitetet i Oslo
UniDigital
Syddansk universitet

English

 • Les om taggeren

 • Historie

 • Evaluering

 • Taggsett

 • Taggeren i bruk

 • Publikasjoner

 • Last ned

 • Kontakt

 

 Tekstlaboratoriet

Om Oslo-Bergen-taggeren

Taggeren består i dag av følgende moduler:

  • Preprosessor med sammensetningsanalysator og multitagger for bokmål og nynorsk: Modulen finner blant annet setningsgrenser og identifiserer og analyserer nye sammensetninger som ikke finnes i leksikon. Hvert enkelt ord blir utstyrt med alle de grammatiske taggene som er mulige for ordet i henhold til Norsk ordbank (se nedenfor). Modulen er programmert i Python ved Tekstlaboratoriet, Universitetet i Oslo.

  • Grammatikk-modul for morfologisk disambiguering for bokmål og nynorsk:
    Modulen fjerner overflødige morfologiske tagger ved hjelp av føringsbaserte regler (Constraint Grammar). Constraint Grammar-reglene er skrevet i CG3 ved Tekstlaboratoriet.
    Kompilatoren for CG3
    er utviklet ved Syddansk universitet i Odense.

  • Statistisk tilleggsmodul for morfologidelen, bokmål: modulen bruker en HunPos-tagger til å fjerne de siste øverflødige taggene som fortsatt står igjen etter at Constraint Grammar-modulen er kjørt. Det dreier seg delvis om flertydighet som burde ha vært fjernet av Constraint Grammar-modulen, men også om flertydighet som bevisst har blitt etterlatt, for eksempel i tilfelle med ubestemte entallssubstantiv der det er umulig å avgjøre om substantivet er hankjønn eller hunkjønn eller semantisk flertydighet. HunPos-taggeren ble trent på en fullstendig entydiggjort versjon av treningskorpuset til Oslo-Bergen-taggeren. Dette arbeidet er gjort ved Tekstlaboratoriet, Universitetet i Oslo.


Leksikon

Oslo-Bergen-taggeren benytter Norsk ordbank for multitagging i preprosessoren. Norsk ordbank er en elektronisk database av fullformer - det vil si leksikalske enheter i grunnform tilkoblet alle bøyningsformer til hver enhet. Norsk ordbank er laget på grunnlag av:

  • oppslagsord og bøyingsopplysninger fra Bokmålsordboka og Nynorskordboka (versjon fra ILN, UiO)
  • ordlister og bøyningsmønstre for bokmål og nynorsk laget ved IBM Norge.
  • argumentstrukturkoder laget av NorKompLeks-prosjektet ved NTNU (ikke i bruk i den nåværende versjonen av taggeren).