LIA-korpus

LIA-prosjektet har utvikla tre ulike talespråkskorpus. I tillegg er TAUS-korpuset utvida gjennom LIA:

Ny versjon 1.1 januar 2022:
LIA norsk - korpus av eldre dialektopptak
Korpuset har 1382 informantar frå 227 kommunar og inneheld omlag 3,5 millionar ord. Korpuset er transkribert både talemålsnært og ortografisk (nynorsk) og er morfologisk tagga med ein nyutvikla talemålstaggar for nynorsk: LIA-taggaren.

LIA norsk inneheld opptak og transkripsjonar frå fire universitet: NTNU, UiB, UiO og UiT. Korpuset inneheld også materiale frå Målførearkivet ved UiO som tidlegare var å finne i Nordisk dialektkorpus.

Søk i korpuset
Les brukarrettleiinga for LIA norsk
Last ned transkripsjonane i tekstformat
Heimeside

NYTT 1. oktober 2020:
Fildepot for LIA
Lydfiler, transkripsjonar og metadata frå korpuset er tilgjengelege i eit fildepot saman med dei filene som ikkje vart transkriberte i prosjektet. Transkripsjonane kan lastast ned i ELAN-format frå fildepotet.

Søk i fildepotet for LIA
Les om fildepotet

NYTT 1. mars 2021:
Last ned alle transkripsjonar og utvalde lydfiler frå LIA norsk
Alle transkripsjonar i LIA norsk kan lastast ned i tekstformat.
For 553 transkripsjonar kan også lydfilene lastast ned. Dette er opptak som ikkje inneheld sensitiv informasjon.

Les meir og last ned

NYTT november 2022:
Last ned eller søk i ny versjon av LIA-trebanken
LIA-trebanken inneheld 7536 talemålssegment og 77 701 ord/token frå LIA. Trebanken er annotert morfologisk og syntaktisk og manuelt korrigert.

Les meir

NYTT november 2019:
LIA Sápmi - Sámegiela hállangiellakorpus
LIA Sápmi er eit talespråkskorpus med samiske dialekter. Opptaka inneheld nesten 190 000 ord fordelt på 122 informantar frå 19 stader. Opptaka er frå tidsrommet 1960 – 1987, og det er opptak frå store delar av det nordsamiske området. Mange opptak stammar frå samlinga til Nils Jernsletten.

Arbeidet med korpuset er gjort i fellesskap av Universitetet i Oslo og UiT Noregs arktiske universitet. Opptaka er ortografisk transkriberte, og korpuset har fått automatisk lingvistisk analyse av Giellatekno ved UiT. Det er dermed mogleg å søke på ordklasse og lemma, i tillegg til ordform.

Søk i korpuset
Les brukarrettleiinga for LIA Sápmi


NY versjon januar 2021:
CANS - amerikanordisk talespråkskorpus v.3.1
Korpuset inneheld 268 informantar frå USA og Canada, 22 som snakkar svensk og 246 som snakkar norsk, i alt nesten 775 000 ord. Dei eldste opptaka i korpuset er frå 1931 og dei nyaste er frå 2016. Opptaka er både talemålsnært og ortografisk transkriberte. Både dei svenske transkripsjonane og bokmålstranskripsjonane er ordklassetagga.

Søk i korpuset her
Les brukarrettleiinga for CANS


NYTT januar 2020:
TAUS v.3 - Talemålsundersøkelsen i Oslo
Korpuset er utvida med opptak og informantar frå B-serien, det vil si at korpuset er utvida med meir enn 117 000 ord og 27 informantar gjennom LIA-prosjektet. Alt i alt inneheld korpuset nesten 388 000 ord og har 86 informantar frå aust og vest i Oslo. Opptaka er gjort i 1971-1973.

Søk i korpuset her
Les brukarrettleiinga for TAUS
Les meir om TAUS-korpuset


Ordlister på dialekt
Søk i ordlister frå meir enn 200 norske dialekter. Ordlistene er eit bonusprodukt frå Oslo-translitteratoren som translittererer frå ein talemålsnær transkripsjon til standard nynorsk.

Søk i ordlistene

Korpusa er fritt tilgjengelege for forsking gjennom innlogging med Feide, eduGAIN eller CLARIN. (Kontakt oss dersom du treng eit anna innloggingsalternativ.)

Dei komplette LIA-korpusa skal innehalde så mange lydfiler og transkripsjonar som mogleg frå LIA-prosjektet. Vi bruker Glossa som søkegrensesnitt slik at du på ein enkel måte kan søke på ord, frasar og ordklasser, avgrense utvalet med metadatavariablar og få transkripsjonar (både lydnære og ortografiske) kopla til lyd som resultat.

 

 

 



Kontakt:

tekstlab-post ved iln.uio.no