LIA-korpus

LIA-prosjektet utviklar tre ulike talespråkskorpus:

NYTT 15. september 2019:
LIA norsk - korpus av eldre dialektopptak
Korpuset har 1374 informantar frå 226 kommunar og inneheld ca 3,5 millionar ord. Korpuset er morfologisk tagga med ein nyutvikla talemålstaggar for nynorsk: LIA-taggaren.

LIA norsk inneheld opptak og transkripsjonar frå fire universitet: NTNU, UiB, UiO og UiT. Korpuset inneheld også materiale frå Målførearkivet ved UiO som tidlegare var å finne i Nordisk dialektkorpus.

Søk i korpuset
Les brukarrettleiinga for LIA norsk

 

Ordlister på dialekt
Søk i ordlister frå meir enn 200 norske dialekter. Ordlistene er eit bonusprodukt frå Oslo-translitteratoren som translittererer frå ein talemålsnær transkripsjon til standard nynorsk.

Søk i ordlistene



LIA Sápmi - Sámegiela hállangiellakorpus
Den første versjonen av korpuset har 56 informantar og ca 60 000 ord. Korpuset er ordklassetagga av Giellatekno.

Søk i korpuset
Les brukarrettleiinga for LIA Sápmi

 

CANS - amerikanordisk talespråkskorpus
Korpuset inneheld 185 informantar frå USA og Canada, 22 som snakkar svensk og 163 som snakkar norsk, i alt over 700 000 ord.

Søk i korpuset her
Les brukarrettleiinga for CANS

 

Korpusa er fritt tilgjengelege for forsking gjennom innlogging med Feide, eduGAIN eller Clarin. (Kontakt oss dersom du treng eit anna innloggingsalternativ.)

Dei komplette LIA-korpusa skal innehalde så mange lydfiler og transkripsjonar som mogleg frå LIA-prosjektet. Vi bruker nye Glossa som søkegrensesnitt slik at du på ein enkel måte kan søke på ord, frasar og ordklasser, avgrense utvalet med metadatavariablar og få transkripsjonar (både lydnære og ortografiske) kopla til lyd som resultat.

 

 

 



Kontakt:
Prosjektleiar professor Janne Bondi Johannessen j.b.johannessen ved iln.uio.no

eller

tekstlab-post ved iln.uio.no