LIA

LIA gjer gamle data tilgjengelege

Last ned alle transkripsjonar og utvalde lydfiler frå LIA norsk

Søk i fildepotet til LIA med over 3000 filer

Søk i LIA norsk - korpus av eldre dialektopptak med ca 3,5 millionar ord

Søk i LIA Sápmi - Sámegiela hállangiellakorpus med nesten 190 000 ord

Søk i CANS - amerikanordisk talespråkskorpus med nesten 775 000 ord

Søk i TAUS v.3 - Talemålsundersøkelsen i Oslo med nesten 388 000 ord

LIA-trebanken: søk eller last ned

Last ned LIA-parseren

Bok frå prosjektet:
Språk i arkiva: Ny forsking om eldre talemål frå LIA-prosjektet

LIA (Language Infrastructure made Accessible) var eit femårig nasjonalt samarbeidsprosjekt (2014 - 2019) mellom fire universitet (UiO, UiB, UiT og NTNU), Norsk Ordbok 2014 og Nasjonalbiblioteket. Hovudmålet for prosjektet var å redde gamle talemålsopptak med norsk og samisk språk, transkribere og annotere dei og leggje dei inn i databasar slik at dei kan revitaliserast som verdifullt forskingsmateriale.

I løpet av dei siste 60 åra har det vore samla inn mange talemålsopptak for ulike formål rundt omkring i Noreg. Nokre av dei har vore digitaliserte og katalogiserte på systematisk vis, andre har lege i arkivskåp og skuffar. Mange av dei har stått i fare for å bli øydelagde.

LIA-prosjektet har samla inn flest mogleg opptak frå dei fire universiteta: Universitetet i Oslo, Universitetet i Bergen, Universitetet i Tromsø - Noregs arktiske universitet og Noregs teknisk-naturvitskaplege universitet. Opptaka er digitaliserte ved Nasjonalbiblioteket i Mo i Rana og kopiar er langtidslagra der. Prosjekttilsette på LIA har høyrt igjennom opptaka, katalogisert dei og utstyrt dei med mest mogleg metadata. Dei mest interessante opptaka med god kvalitet er transkriberte.

Opptaka i LIA er av to typar:

Diakrone data: dialektopptak frå heile Noreg, inkludert opptak med samisk språk
Norsk i Amerika: Opptak frå feltarbeid i Amerika frå 1931 og fram til i dag

Norsk i Amerika har eigne heimesider med oversyn over mellom anna forskingsmål, opptak, feltarbeid og korpuset CANS - amerikanordisk talespråkskorpus.

Sjå heimesida til Norsk i Amerika.

Dei norske opptaka er transkriberte på to måtar: ein talemålsnær variant og ein med nynorsk ortografi. Transkripsjonane er kopla til kvarandre og til dei originale lydfilene. Dei transkriberte opptaka er samla i korpuset LIA norsk - korpus av eldre dialektopptak.

Alle lydband og transkripsjonar er også tilgjengelege via eit fildepot.

Samisk har sitt eige korpus, LIA Sápmi - Sámegiela hállangiellakorpus, der opptaka er transkriberte ortografisk.

Eit mål i LIA har også vore å annotere dei transkriberte opptaka automatisk, og det er utvikla ein statistisk taggar og ein parser for nynorsk i prosjektet. LIA-korpuset er tagga med LIA-taggaren, og deler av korpuset har fått syntaktisk annotasjon som er søkbar i LIA-trebanken.

LIA-prosjektet var leia av professor Janne Bondi Johannessen ved ILN og Tekstlaboratoriet. Store delar av arbeidet er gjort ved Tekstlaboratoriet, men dei tre andre universiteta har også hatt eigne tilsette transkribørar.

Giellatekno ved Universitetet i Tromsø har stått for morfologisk tagging og parsing av samisk.

LIA-prosjektet var finansiert gjennom forskingsinfrastrukturprogrammet til Forskingsrådet.

Kontakt:

tekstlab-post ved iln.uio.no