Amerikanorsk talespråkskorpus (CANS)


Amerikanorsk talespråkskorpus (The Corpus of American Norwegian Speech CANS) består foreløpig av intervjuer og samtaler med 50 informanter fra 22 steder i USA og Canada, nesten 200 000 ord. Korpuset vil utvides etter hvert som flere transkripsjoner blir ferdig.

Korpuset er fritt tilgjengelig for forskning gjennom innlogging med Feide eller eduGAIN. (Kontakt oss dersom du trenger et annet innloggingsalternativ.)

Intervjuene og samtalene i korpuset er transkribert på to måter: En lydnær transkripsjon og en ortografisk transkripsjon. Transkripsjonene er koblet til hverandre og til de originale lyd- og videofilene.


Referer til korpuset slik:
Johannessen, Janne Bondi. 2015. The Corpus of American Norwegian Speech (CANS). In Béata Megyesi (ed.): Proceedings of the 20th Nordic Conference of Computational Linguistics, NODALIDA 2015, May 11-13, 2015, Vilnius, Lithuania. NEALT Proceedings Series 23.
Last ned artikkelen.

Ta også med URL-en til korpuset:
Amerikanorsk talespråkskorpus (CANS): http://tekstlab.uio.no/norskiamerika/korpus.html


Verktøy

Transkripsjon: De første opptakene ble transkribert med Transcriber. Nå transkriberes opptakene i ELAN.

Ortografisk transkripsjon: Oslo-translitteratoren - en halvautomatisk translitterator utviklet ved Tekstlaboratoriet - blir brukt for å lage ortografiske transkripsjoner av de lydnære originaltranskripsjonene. De ortografiske transkripsjonene blir korrekturlest mot lydfilene til slutt.

Morfologisk tagging: Taggingen av Amerikanorsk talespråkskorpus er gjort med en Treetagger trent på korrekturlest output fra Oslo-Bergen-taggeren. Taggeren ble først utviklet for NoTa-korpuset. Taggeren har oppnådd 96,9 % (performance ved 10-fold cross validation).

De tekniske løsningene er opprinnelig laget for Nordisk dialektkorpus, og er finansiert av NorDiaSyn og NordForsk.

Søkeverktøy: Amerikanorsk talespråkskorpus er lagt inn i nye Glossa, et nytt søkeverktøy utviklet ved Tekstlaboratoriet. Nye Glossa kan tilby et moderne, enkelt og funksjonelt grensenitt. Nye Glossa er finansiert av CLARINO-prosjektet.

Amerikanorsk talespråkskorpus er fremdeles tilgjengelig i den gamle versjonen av Glossa:


Mer om transkripsjonene

Lydnær transkripsjon: I en lydnær transkripsjon (fonetisk) kommer dialekttrekkene tydelig fram i den skriflige representasjonen av talen, enten det dreier seg om fonologiske, morfologiske, syntaktiske eller leksikalske særdrag. En skriftlig gjengivelse av talen er en stor hjelp for språkforskere når det gjelder å få rask oversikt over materialet.

Den lydnære transkripsjonsmetoden er mer eller mindre den samme som den brukt for de norske opptakene i Nordisk dialektkorpus, som igjen er basert på Papazian og Hellelands Norsk talemål: Lokal og sosial variasjon (2005). Ingen spesialtegn er brukt i våre transkripsjoner, bare det norske alfabetet.

Ortografisk transkripsjon: Den ortografiske transkripsjonen er viktig fordi den gir en generalisering over variasjonen. Slik kan man gjøre generelle søk, og man kan bruke automatiske metoder, slik som tagging. Arbeidet med den ortografiske transkripsjonen går mye hurtigere enn med den lydnære, fordi vi benytter den halvuatomatiske dialekttranslitteratoren som oversetter fra den lydnære transkripsjonen til bokmål og for amerikanorsk engelsk der det trengs. Vi oversetter ord for ord slik at vi beholder syntaksen fra den lydnære transkripsjonen.


Eksempel på de to transkripsjonene

Fonetisk: d e haRd tu finn
Ortografisk: det er hard to finne

 

 

Fonetisk: vi sellt ri å rennta ut resst'n
Ortogr.: vi solgte noe av det og renta ut resten

 

 

(Se rekkefølgen transkripsjonene i korpuset er lagt inn i.)

 



Søt velkomst for de norske forskerne på opptakstur i Blair. Foto: K. M. Eide


Søk i korpuset



Janne og Signe med informanter i Sunburg.



Kontakt:
tekstlab-post@uio.no