Oslo-Bergen-taggeren
- en grammatisk tagger for bokmål og nynorsk
Oslo-Bergen-taggeren er en robust morfologisk tagger som er utviklet ved Universitetet i Oslo og Uni Computing i Bergen gjennom flere år. Taggeren består i dag av tre hovedmoduler: en preprosessor med sammensetningsanalysator og multitagger, en grammatikk-modul for morfologisk disambiguering (Constraint Grammar) og en statistisk modul som fjerner siste rest av gjenstående morfologisk flertydighet (bare for bokmål). Grammatikk-modulen bruker en kompilator utviklet ved Syddansk universitet i Odense. Multitaggeren benytter fullformsleksikonet Norsk ordbank.
Les mer om Oslo-Bergen-taggeren, taggerens historie, evaluering og taggsett i menyen til venstre.
Taggeren kan lastes ned på GPL-lisens, eller NYHET: kjøres online på nett her.
Oslo-Bergen-taggeren er videreutviklet og modernisert gjennom infrastrukturprosjektet Clarino+.
Referer til taggeren slik:
Johannessen, Janne Bondi; Hagen, Kristin; Lynum André and Nøklestad, Anders. 2012. OBT+stat. A combined rule-based and statistical tagger. In Andersen, Gisle (ed.): Exploring Newspaper Language. Corpus compilation and research based on the Norwegian Newspaper Corpus. John Benjamins Publishing Company, 51-65.