LIA norsk har 1382 informantar frå 227 kommunar og inneheld omlag 3,5 millionar ord. Korpuset er transkribert både talemålsnært og ortografisk (nynorsk) og er morfologisk tagga med ein nyutvikla talemålstaggar for nynorsk: LIA-taggaren.
LIA norsk er søkbart gjennom korpusgrensesnittet Glossa.
LIA norsk inneheld opptak og transkripsjonar frå fire universitet: NTNU, UiB, UiO og UiT. Korpuset inneheld også materiale frå Målførearkivet ved UiO som tidlegare var å finne i Nordisk dialektkorpus.
Søk i korpuset
Les brukarrettleiinga for LIA norsk
Referer til korpuset slik:
Hagen, Kristin & Vangsnes, Øystein A. (2023). LIA-korpusa – eldre talemålsopptak for norsk og samisk gjort tilgjengelege.
Nordlyd, 47(2), 119-130. https://doi.org/10.7557/12.7157
Ta også med PID-en til korpuset:
LIA norsk - korpus av eldre dialektopptak:
http://hdl.handle.net/11538/0000-000C-368B-B
Lydfiler, transkripsjonar og metadata frå korpuset er tilgjengelege i eit fildepot saman med dei filene som ikkje vart transkriberte i prosjektet. Transkripsjonane kan lastas ned i ELAN-format frå fildepotet, lydfilene kan ein berre lytte til.
Søk i fildepotet for LIA
Les om fildepotet
553 transkripsjonar i tekstformat frå LIA norsk er saman med tilhøyrande lydfiler samla i ei mappe for nedlasting. Dette er opptak som ikkje inneheld sensitiv informasjon og kan brukast fritt til både lingvistiske og språkteknologiske formål. (Mange opptak i LIA norsk har noko innhald som kan karakteriserast som sensitiv informasjon. Denne informasjonen er ikkje transkribert, derfor kan opptaka brukast i korpuset. Men sidan informasjonen framleis finst i lydfilene, kan lydfilene ikkje frigis for nedlasting.)
Lisens for nedlasting av transkripsjonar og lydfiler
Last ned utvalde lydfiler og transkripsjonar frå LIA norsk
Last ned alle transkripsjonane frå LIA i tekstformat
LIA-trebanken inneheld 7536 talemålssegment og 77 701 ord/token frå LIA. Trebanken er annotert morfologisk og syntaktisk og manuelt korrigert.
Trebanken finst i to versjonar: ein nedlastbar og ein søkbar versjon i Glossa.
LIA-parseren er ein dependensparser som er trent på LIA-trebanken. Parseren er ein såkalla transition-based dependensparser, UUparser, utvikla ved Uppsala Universitet.