LIA-korpus

LIA-prosjektet utviklar tre ulike talespråkskorpus:

LIA-korpuset for norske dialekter
Den første versjonen av korpuset har 620 informantar frå 132 kommunar. Korpuset inneheld over 1,5 millionar ord. Korpuset er morfologisk tagga med ein nyutvikla talemålstaggar for nynorsk: LIA-taggaren.

Søk i korpuset

 

Ordlister på dialekt
Søk i ordlister frå meir enn 200 norske dialekter. Ordlistene er eit bonusprodukt frå Oslo-translitteratoren som translittererer frå ein talemålsnær transkripsjon til standard nynorsk.

Søk i ordlistene



LIA sápmi - Sámegiela hállangiellakorpus
LIA-korpuset for samiske dialekter
Den første versjonen av korpuset har 56 informantar og ca 60 000 ord. Korpuset er ordklassetagga av Giellatekno.

Søk i korpuset

 

Amerikanordisk talespråkskorpus (CANS)
Korpuset inneheld førebels 69 informantar frå USA og Canada, 19 som snakkar svensk og 50 som snakkar norsk, i alt nesten 244 000 ord.

Søk i ein demoversjon av korpuset her

 

Korpusa er fritt tilgjengelege for forsking gjennom innlogging med Feide, eduGAIN eller Clarin. (Kontakt oss dersom du treng eit anna innloggingsalternativ.)

Dei komplette LIA-korpusa skal innehalde så mange lydfiler og transkripsjonar som mogleg frå LIA-prosjektet. Vi bruker nye Glossa som søkegrensesnitt slik at du på ein enkel måte kan søke på ord, frasar og ordklasser, avgrense utvalet med metadatavariablar og få transkripsjonar (både lydnære og ortografiske) kopla til lyd som resultat.

 

 

 



Kontakt:
Prosjektleiar professor Janne Bondi Johannessen j.b.johannessen ved iln.uio.no

eller

tekstlab-post ved iln.uio.no