LIA-korpus

LIA-prosjektet utviklar tre ulike talespråkskorpus:

LIA-korpuset for norske dialektar
Demoversjonen av korpuset har 83 informantar frå 49 kommunar. Korpuset inneheld nesten 227 000 ord. Førebels er ikkje korpuset ordklassetagga.

Søk i ein demoversjon av korpuset her

 

Ordlister på dialekt
Søk i ordlister frå meir enn 200 norske dialekter. Ordlistene er eit bonusprodukt frå Oslo-translitteratoren som translittererer frå ein talemålsnær transkripsjon til standard nynorsk.

Søk i ordlistene


LIA-korpuset for samiske dialektar - Sámegiela hállangiellakorpus
Demoversjonen av korpuset har 37 informantar og over 55 000 ord. Korpuset er førebels ikkje ordklassetagga, men vil bli det gjennom eit samarbeid med Giellatekno.

Søk i ein demoversjon av korpuset her

 

Amerikanordisk talespråkskorpus (CANS)
Korpuset inneheld førebels 69 informantar frå USA og Canada, 19 som snakkar svensk og 50 som snakkar norsk, i alt nesten 244 000 ord.

Søk i ein demoversjon av korpuset her

 

Korpusa er fritt tilgjengelege for forsking gjennom innlogging med Feide, eduGAIN eller Clarin. (Kontakt oss dersom du treng eit anna innloggingsalternativ.)

Dei komplette LIA-korpusa skal innehalde så mange lydfiler og transkripsjonar som mogleg frå LIA-prosjektet. Vi bruker nye Glossa som søkegrensesnitt slik at du på ein enkel måte kan søke på ord, frasar og ordklasser, avgrense utvalet med metadatavariablar og få transkripsjonar (både lydnære og ortografiske) kopla til lyd som resultat.

 

 

 Kontakt:
Prosjektleiar professor Janne Bondi Johannessen j.b.johannessen ved iln.uio.no

eller

tekstlab-post ved iln.uio.no