LIA-trebanken inneheld 7536 talemålssegment med 77 701 ord/token. Trebanken er manuelt korrigert og har morfologisk og syntaktisk annotasjon. Trebanken finst i tre versjonar:
- Ein nedlastbar versjon i conllx-format.
Last ned trebanken frå Github
Lisens
- Ein søkbar versjon i søkegrensesnittet Glossa.
Søk i trebanken
- Ein nedlastbar versjon i conllu-format. Denne versjonen er automatisk konvertert til Universal Dependencies av Lilja Øvrelid, Universitetet i Oslo. Conllu-versjonen inneheld 5250 talemålssegment og 55 410 ord/token.
Last ned conllu-versjonen
Lisens for LIA-trebanken
Segmenta i trebanken er henta frå 19 transkriberte LIA-opptak frå 17 ulike stader i Noreg: Aaustevoll, Bardu, Brandbu, Eidsberg, Fana, Lista, Flakstad, Førde, Giske, Gol, Hemsedal, Herad, Hjartdal, Høyanger, Nordli, Vardø og Ål.
Så langt det er mogleg følgjer annotasjonen retningslinjene til Norsk dependenstrebank og «Retningslinjer for morfologisk og syntaktisk annotasjon i Norsk dependenstrebank» (Kari Kinn, Per Erik Solberg og Pål Kristian Eriksen, 2013).
LIA-prosjektet har utarbeida eigne retningslinjer for enkelte talemålstrekk som ikkje er nemnt i NDT-retningslinjene. Les retningslinjene her.
Annoteringa er gjort maskinelt, men er kvalitetssjekka og manuelt korrigert av minst ein person ved hjelp av annoteringsverktøyet TreD.
Les om dependenstrebanken i:
Lilja Øvrelid, Andre Kåsen, Kristin Hagen, Anders Nøklestad, Per Erik Solberg and Janne Bondi Johannessen. 2018. The LIA Treebank of Spoken Norwegian Dialects. In Nicoletta Calzolari et al.: Proceedings of the Eleventh International Conference on Language Resources and Evaluation.
LIA-trebanken er brukt til å trene ein talemålsparser for norske dialekter (nynorsk). Les meir om LIA-parseren.
NDC-trebanken inneheld 4637 talemålssegment med 66 042 ord/token frå bokmålstranskripsjonane i den norske delen av Nordisk dialektkorpus. Trebanken er bygd opp på same måte som LIA-trebanken og har transkripsjonar frå omlag dei same dialektområda. NDC-trebanken finst i to versjonar: ein søkbar versjon i Glossa og ein nedlastbar i conllx-format.
Les meir om NDC-trebanken
NDC-trebanken er brukt til å trene ein talemålsparser for norske dialekter (bokmål). Les meir om NDC-parseren
Kontakt
Andre Kåsen har arbeidd med morfologisk tagging og parsing på både LIA-trebanken og NDC-trebanken. Han har også skrive masteroppgåve om dette. Ta gjerne kontakt med andre.kasen ved Nasjonalbiblioteket, nb.no.