Litt historie
- Taggeren ble opprinnelig utviklet av Taggerprosjektet (1996 - 1998) med en Constraint Grammar-regeltolker for CG1 fra Lingsoft. Taggerprosjektet ble finansiert av Forskningsrådet sammen med egeninnsats fra Dokumentasjonsprosjektet og Tekstlaboratoriet. (Les mer om Taggerprosjektet og den første bokmålsversjonen av taggeren.)
Det ble utviklet en preprosessor (Dokumentasjonsprosjektet og Tekstlaboratoriet), en sammensetningsanalysator (Tekstlaboratoriet), en multitagger (Dokumentasjonsprosjektet) og CG1-regler for morfologi og syntaks for bokmål og nynorsk (Tekstlaboratoriet). Også en første versjon av leksikonet Norsk ordbank ble laget i forbindelse med prosjektet.
Den syntaktiske delen er ikke med i den nåværende versjonen av taggeren. - Taggeren ble senere videreutviklet og reimplementert gjennom et samarbeid mellom Paul Meurer ved Uni Computing (da Aksis, UiB), Tekstlaboratoriet og Dokumentasjonsprosjektet, UiO. Denne versjonen ble skrevet i Allegro Lisp mens Constraint Grammar-reglene ble beholdt i CG1-format. Taggeren fikk navnet Oslo-Bergen-taggeren.
- En navnedel av Oslo-Bergen-taggeren ble utviklet av Nomen Nescio-prosjektet (2001 – 2004) ved Uni Computing (da Aksis) og Tekstlaboratoriet. Denne er ikke med i den nåværende versjonen av taggeren.
- En nedlastbar versjon av Oslo-Bergen-taggeren ble finansiert av LOGON-prosjektet (2006).
- Med midler fra det NFR-støttede prosjektet Norsk aviskorpus (2007-2009) konverterte Tekstlaboratoriet de morfologiske og syntaktiske CG1-reglene til CG3-regler samt skrev noen flere regler. Uni Computing laget en frittstående versjon av preprosessoren og multitaggeren i Clozure Common Lisp som kunne fungere sammen med en CG3-kompilator (VISL-CG3) fra Syddansk Universitet i Odense. Ved Tekstlaboratoriet ble det til slutt trent en HunPos-tagger for å fjerne siste rest av flertydigheten etter den morfologiske CG3-taggingen.
- Med midler fra Utenriksdepartementet og infrastrukturprosjektet Clarino+ ble det laget en ny versjon av multitaggeren i Python (2018-2022). Her er blant annet flerordsuttrykkene fra den opprinnelige multitaggeren borte slik at hvert ord får sin egen lesning.
- Både leksikon, multitagger og CG3-regler er gjennomgått og modernisert med finansiering fra Clarino+-prosjektet (2020-2023).