LIA-korpuset

LIA norsk - korpus av eldre dialektopptak

LIA norsk har 1382 informantar frå 227 kommunar og inneheld omlag 3,5 millionar ord. Korpuset er transkribert både talemålsnært og ortografisk (nynorsk) og er morfologisk tagga med ein nyutvikla talemålstaggar for nynorsk: LIA-taggaren.

LIA norsk er søkbart gjennom korpusgrensesnittet Glossa.

LIA norsk inneheld opptak og transkripsjonar frå fire universitet: NTNU, UiB, UiO og UiT. Korpuset inneheld også materiale frå Målførearkivet ved UiO som tidlegare var å finne i Nordisk dialektkorpus.

Søk i korpuset
Les brukarrettleiinga for LIA norsk

Referer til korpuset slik:
Hagen, Kristin & Vangsnes, Øystein A. (2023). LIA-korpusa – eldre talemålsopptak for norsk og samisk gjort tilgjengelege.
Nordlyd, 47(2), 119-130. https://doi.org/10.7557/12.7157

Ta også med denne referansen til korpuset:
LIA norsk - korpus av eldre dialektopptak:
http://hdl.handle.net/11538/0000-000C-368B-B

Fildepot

Lydfiler, transkripsjonar og metadata frå korpuset er tilgjengelege i eit fildepot saman med dei filene som ikkje vart transkriberte i prosjektet. Transkripsjonane kan lastas ned i ELAN-format frå fildepotet, lydfilene kan ein berre lytte til.

Søk i fildepotet for LIA
Les om fildepotet

Nedlastbare transkripsjonar og lydfiler

553 transkripsjonar i tekstformat frå LIA norsk er saman med tilhøyrande lydfiler samla i ei mappe for nedlasting. Dette er opptak som ikkje inneheld sensitiv informasjon og kan brukast fritt til både lingvistiske og språkteknologiske formål. (Mange opptak i LIA norsk har noko innhald som kan karakteriserast som sensitiv informasjon. Denne informasjonen er ikkje transkribert, derfor kan opptaka brukast i korpuset. Men sidan informasjonen framleis finst i lydfilene, kan lydfilene ikkje frigis for nedlasting.)

Lisens for nedlasting av transkripsjonar og lydfiler

Last ned utvalde lydfiler og transkripsjonar frå LIA norsk

Last ned alle transkripsjonane frå LIA i tekstformat frå Github

LIA-trebanken

LIA-trebanken inneheld 7536 talemålssegment og 77 701 ord/token frå LIA. Trebanken er annotert morfologisk og syntaktisk og manuelt korrigert.
Trebanken finst i to versjonar: ein nedlastbar og ein søkbar versjon i Glossa.

Les meir

LIA-parseren

LIA-parseren er ein dependensparser som er trent på LIA-trebanken. Parseren er ein såkalla transition-based dependensparser, UUparser, utvikla ved Uppsala Universitet.

Les meir

Kontakt:

tekstlab-post ved iln.uio.no

Les meir om LIA-prosjektet