identificationInfo [ComponentId=‘clarin.eu:cr1:c_1396012485125’]:
resourceName [xml:lang=‘nb’]: NORINT-korpuset
resourceName [xml:lang=‘en’]: The NORINT Corpus
description [xml:lang=‘en’]:
The NORINT Corpus consists of speech from 51 and written texts from 116
adult learners of Norwegian as second language, all of whom were taking
advanced Norwegian courses (≈the CEFR level B2) at the University of
Oslo during the summers of 2014 and 2015.
The NORINT Corpus is divided into three sub-parts:
-
NORINT Speech: The speech part of the corpus consists of interviews and
conversations, 111,000 words all together. In the interviews, a teacher
asks L2 learners general questions about their background, studies,
work, and future plans. In addition, the same L2 learners converse in
pairs about optional themes such as culture, leisure, travel, or life in
Norway. There are both audio and video recordings of the interviews and
conversations.
The recordings are transcribed orthographically with the transcription tool Elan.
-
NORINT Recited: 57 L2 learners, 51 of whom contributed to the NORINT
Speech sub-part, recite a short story, as well as 60 non-contextualized
sentences. This part of the corpus has been audio-recorded.
- NORINT
Text: The text part of the corpus consists of 53,247 words from 116 exam
papers written by adult L2 learners taking their Norwegian exams. The
informants are partially the same as in NORINT Speech and NORINT Recited
but the identification of participants is not possible in the corpus
because of privacy protection.
The texts are available in three
formats: one original hand written version in pdf format, one written
digital copy of the original version and one version where all the
orthographic errors are corrected. The original text version and the
corrected version are linked together.
The corpus is searchable in the search interface Glossa, and the transcriptions are linked to audio and video files.
description [xml:lang=‘nb’]:
NORINT-korpuset inneholder muntlig materiale fra 51 og skriftlig
materiale fra 116 voksne internasjonale studenter som gikk på norskkurs
på høyere nivå (≈CEFR-nivå B2) ved Universitetet i Oslo sommeren 2014 og
2015.
NORINT-korpuset består av tre deler:
- NORINT tale:
Taledelen av korpuset består av intervjuer og samtaler, i alt 111 000
ord. Studentene ble intervjuet om bakgrunn, studier, arbeid og
fremtidsplaner. I tillegg er det gjort video- og lydopptak der
informantene samtaler to og to om emner som kultur, fritid, reiser eller
livet i Norge. Det er 30 – 40 minutters opptak av hver student.
Opptakene er transkribert ortografisk med transkripsjonsprogrammet Elan.
-
NORINT opplest: 57 informanter, 51 av dem de samme som bidro til NORINT
tale, leser opp 60 utvalgte setninger og en liten historie. Det finnes
bare lydopptak av opplesningene.
- NORINT tekst: Tekstdelen av
korpuset består av 53 247 ord fra 116 eksamensoppgaver. Informantene er
delvis de samme som i den muntlige delen av materialet. Av hensyn til
personvern er det imidlertid ikke synlige koplinger i korpuset.
Tekstene
i NORINT tekst foreligger i tre ulike formater: en håndskrevet
originalversjon i pdf-format, en innskrevet nøyaktig kopi av
originalversjonen og en versjon der alle ortografiske feil er rettet.
Tekstversjonene og de korrigerte versjonene er lenket sammen.
Korpuset er søkbart i søkeverktøyet Glossa der transkripsjonene dessuten er koplet til lyd- og videofiler.
resourceShortName: NORINT
url: https://www.hf.uio.no/iln/english/about/organization/text-laboratory/projects/norint/index.html
url: https://www.hf.uio.no/iln/om/organisasjon/tekstlab/prosjekter/norint/index.html
PID: http://hdl.handle.net/11538/0000-000B-C01E-B