Giellatekno ved Universitetet i Tromsø har stått for morfologisk tagging og parsing av samisk.
LIA-prosjektet har brukt både nyutvikla og gamle verktøy i arbeidet med dei norske transkripsjonane.
- Transkripsjon: ELAN (Multimedia Annotator)
- Omsetjing frå talemålsnær transkripsjon til nynorsk: Oslo-translitteratoren
- Søkegrensesnitt: Nye Glossa
- Morfologisk tagging: LIA-taggaren.
Den nyutvikla taggaren er målt til ein ordklasseaccuracy på 97,25 % ved ei 10-fold kryssvalidering. Lemmatiseraren er målt til ein accuracy på 96,88 %.
LIA-taggaren er ein MarMoT-taggar som er trent på transkripsjonar frå LIA-prosjektet. I denne prosessen blei transkripsjonane først tagga med skriftspråkstaggaren Oslo-Bergen-taggaren for nynorsk. Deretter blei alle taggane korrekturlesne manuelt ved hjelp av eit verktøy utvikla ved Tekstlaboratoriet.
Du kan lese meir om MarMoT her
- Parsing: Transkripsjonane i LIA skal også annoterast syntaktisk. Annotasjonen skal gjerast med ein nyutvikla dependensparser trent på LIA-trebanken.
Les meir om LIA-parseren