Oslo-Bergen-taggeren
Universitetet i Oslo
UniDigital
Syddansk universitet

English

 • Les om taggeren

 • Historie

 • Evaluering

 • Taggsett

 • Taggeren i bruk

 • Publikasjoner

 • Last ned

 • Kontakt

 

 Tekstlaboratoriet

Om Oslo-Bergen-taggeren

Taggeren består i dag av følgende moduler:

  • Preprosessor med sammensetningsanalysator og multitagger for bokmål og nynorsk: Modulen finner blant annet setningsgrenser og identifiserer og analyserer nye sammensetninger som ikke finnes i leksikon. Hvert enkelt ord blir utstyrt med alle de grammatiske taggene som er mulige for ordet i henhold til Norsk ordbank (se nedenfor). Modulen er programmert i Clozure Common Lisp ved Uni Computing.

  • Grammatikk-moduler for morfologisk og syntaktisk disambiguering for bokmål og nynorsk:
    • Morfologisk disambiguering: Modulen fjerner overflødige morfologiske tagger ved hjelp av føringsbaserte regler (Constraint Grammar)
    • Syntaktisk mapping: Gjenstående morfologiske tagger blir utstyrt med syntaktiske tagger, inkludert spesielle tagger for navn.
    • Syntaktisk disambiguering: Modulen fjerner overflødige syntaktiske tagger ved hjelp av føringsbaserte regler

    Constraint grammar-reglene er skrevet i CG3 ved Tekstlaboratoriet, Universitetet i Oslo. Kompilatoren for CG3 er utviklet ved Syddansk universitet i Odense.

  • Statistisk tilleggsmodul for morfologidelen, bokmål: modulen bruker en HunPos-tagger til å fjerne de siste øverflødige taggene som fortsatt står igjen etter constraint grammar-modulen er kjørt. Det dreier seg delvis om flertydighet som burde ha vært fjernet av Constraint Grammar-modulen, men også om flertydighet som bevisst har blitt etterlatt, for eksempel i tilfelle med ubestemte entallssubstantiv der det er umulig å avgjøre om substantivet er hannkjønn eller hunkjønn eller semantisk flertydighet. HunPos-taggeren ble trent på en fullstendig entydiggjort versjon av treningskorpuset til Oslo-Bergen-taggeren. Dette arbeidet er gjort ved Tekstlaboratoriet, Universitetet i Oslo.


Leksikon

Oslo-Bergen-taggeren benytter Norsk ordbank for multitagging i preprosessoren. Norsk ordbank er en elektronisk database av fullformer - det vil si leksikalske enheter i grunnform tilkoblet alle bøyningsformer til hver enhet. Norsk ordbank er laget på grunnlag av:

  • oppslagsord og bøyingsopplysninger fra Bokmålsordboka og Nynorskordboka laget ved ILN, UiO
  • ordlister og bøyningsmønstre for bokmål og nynorsk laget ved IBM Norge.
  • argumentstrukturkoder laget av NorKompLeks-prosjektet ved NTNU