Oslo-Bergen-taggeren
Universitetet i Oslo
UniDigital
Syddansk universitet

English

 • Les om taggeren

 • Historie

 • Evaluering

 • Taggsett

 • Taggeren i bruk

 • Publikasjoner

 • Last ned

 • Kontakt

 

 Tekstlaboratoriet

Historie

  • Taggeren ble opprinnelig utviklet av Taggerprosjektet (1996 - 1998) med en Constraint Grammar-regeltolker for CG1 fra Lingsoft. Taggerprosjektet ble finansiert av Forskningsrådet sammen med egeninnsats fra Dokumentasjonsprosjektet og Tekstlaboratoriet. (Les mer om Taggerprosjektet og den første bokmålsversjonen av taggeren.)
    Det ble utviklet en preprosessor (Dokumentasjonsprosjektet og Tekstlaboratoriet), en sammensetningsanalysator (Tekstlaboratoriet), en multitagger (Dokumentasjonsprosjektet) og CG1-regler for bokmål og nynorsk (Tekstlaboratoriet). Også en første versjon av leksikonet Norsk ordbank ble laget i forbindelse med prosjektet.
  • Taggeren ble senere videreutviklet og reimplementert gjennom et samarbeid mellom Paul Meurer ved Uni Computing (da Aksis, UiB), Tekstlaboratoriet og Dokumentasjonsprosjektet, UiO. Denne versjonen ble skrevet i Allegro Lisp mens Constraint Grammar-reglene ble beholdt i CG1-format. Taggeren fikk navnet Oslo-Bergen-taggeren.
  • Navnedelen av Oslo-Bergen-taggeren ble utviklet av Nomen Nescio-prosjektet (2001 – 2004) ved Uni Computing (da Aksis) og Tekstlaboratoriet. Denne delen av taggeren er ikke med i den nåværende versjonen av taggeren.
  • En nedlastbare versjon av Oslo-Bergen-taggeren ble finansiert av LOGON-prosjektet (2006).
  • Med midler fra det NFR-støttede prosjektet Norsk aviskorpus (2007-2009) konverterte Tekstlaboratoriet de morfologiske og syntaktiske CG1-reglene til CG3-regler samt skrev noen flere regler. Uni Computing laget en frittstående versjon av preprosessoren og multitaggeren i Clozure Common Lisp som kunne fungere sammen med en CG3-kompilator (VISL-CG3) fra Syddansk Universitet i Odense. Ved Tekstlaboratoriet ble det til slutt trent en HunPos-tagger for å fjerne siste rest av flertydigheten etter den morfologiske CG3-taggingen.

 


TAGGERPROSJEKTET

 

Dokumentasjonsprosjektet

 

Tekstlaboratoriet

 

Lingsoft

 

Aksis

 

Nomen Nescio

 

LOGON

 

Norsk aviskorpus

 

VISL-CG3

 

hunpos hunpos