LIA-trebanken

LIA-trebanken består av 5250 talemålssegment med 55 410 ord/token. Trebanken er manuelt korrigert og finst i to versjonar:

- Ein versjon i conllx-format med morfologisk og syntaktisk annotasjon. Så langt det er mogleg følgjer annotasjonen retningslinjene til Norsk dependenstrebank. Annoteringa er gjort maskinelt, men er kvalitetssjekka og manuelt korrigert av minst ein person. Les meir om dette arbeidet her.

- Ein versjon i conllu-format. Denne versjonen er automatisk konvertert til Universal Dependencies av Lilja Øvrelid, Universitetet i Oslo.

Segmenta i trebanken er henta frå 19 transkriberte LIA-opptak frå 17 ulike stader i Noreg: Aaustevoll, Bardu, Brandbu, Eidsberg, Fana, Farsund, Flakstad, Førde, Giske, Gol, Hemsedal, Herad, Hjartdal, Høyanger, Lierne, Vardø og Ål.

Lisens for LIA-trebanken

Last ned LIA-trebanken i conllx-format

LIA-trebanken i conllu-format

 

 

 

 

 



Kontakt:

tekstlab-post ved iln.uio.no