Brukerveiledning for SKRIV-korpuset

Gå tilbake til hovedsiden

1. SKRIV

SKRIV-korpuset består av autentiske elevtekster fra tentamener, skolearbeid og praksisuker skrevet innenfor norskfaget og innenfor elevenes ulike programfag fra Bygg- og anleggsteknikk, Service og samferdsel, Elektrofag og Helse- og oppvekstfag.

Korpuset rommer rundt 225 tekster av ulik lengde og i ulike sjangere og teksttyper, ca 112 000 ord.

Tekstene er samlet inn ved tre ulike skoler - en storbyskole, en skole i en mindre by og en skole på et tettsted. Skriverne er både elever med norsk som førstespråk og minoritetsspråklige elever med norsk som sitt andrespråk, eller flerspråklige elever. Til tekstene er det knyttet opplysninger om elevenes morsmål og antall år i norsk skole.

De fleste tekstene finnes i tre utgaver: elevens skannete originaltekst med bilder, tabeller og annen formatering, samt to transkriberte varianter, der den ene er slik eleven har skrevet den, den andre i en korrigert bokmålsversjon, som er ordklassetagget. De to transkriberte versjonene er koblet sammen.

 

På denne siden:

1.1 Tekstene i SKRIV

1.2 Hovedsøkesiden til SKRIV

1.2.1 Enkelt søk (simple) og eksempel på resultatvisninger

1.2.2 Utvidet søk (Extended)

1.2.2.1 Søk på flere ord
1.2.2.2 Søk på Lemma, Start, End, Original, Sentence initial eller Sentence final
1.2.2.3 Søk på ordklasse eller morfologiske trekk
1.2.2.4 Søk på andre tagger (særskriving m.fl)
1.2.2.5 Spesifiser eller ekskluder lemma og ordform

1.2.3 CQP-søkeuttrykk (CQP query)

1.2.4 Eller-søk (Or)

1.3 Metadatasøk og Show texts

1.4 Tilfeldig utvalg av søkeresultatenet

1.5 Statistikk

1.6 Last ned data

1.7 Sorter søkeresultatene

 

1.1 Tekstene i SKRIV
Tekstene i SKRIV foreligger i tre ulike formater: en håndskrevet originalversjon i pdf-format, en innskrevet nøyaktig kopi av originalversjonen og en versjon der alle ortografiske feil er rettet. Tekstversjonene og de korrigerte versjonene er lenket sammen slik at man kan søke i de korrigerte versjonene og se alle eksempler på feilstavede ord i besvarelsene. Et søk på "kanskje" viser for eksempel at "kanskje" også er skrevet som "kansje".

Vi har ikke rettet ordstillingsfeil eller leksikalske feil, men i enkelte tilfeller har vi lagt til ord i den korrigerte versjonen for å lette den automatiske ordklassetaggingen. Dette gjelder utelatt infinitivsmerke, kopulaverb og hjelpeverb. Vi har også rettet samskrivings- og særskrivingsfeil. Fordi de to versjonene skulle lenkes sammen, satte vi inn tagger i originalversjonen på de plassene der vi satte inn utelatt infinitivsmerke eller delte opp en feilaktig samskriving. I den korrigerte versjonen satte vi også inn en tagg der vi hadde rettet en særskriving. Disse taggene er det mulig å søke på, og en kan for eksempel se at "butikkledelse" og "klasserommene" er skrevet som "butikk ledelse" og "klasse rommene" i materialet. Les mer om dette i 1.2.2.4.

Du kan lese veiledningen for innskrivingen av tekstene i SKRIV her.

 

1.2 Hovedsøkesiden til SKRIV
Figur 1 viser hovedsøkesiden til SKRIV.



 

Figur 1: Hovedsøkesiden til SKRIV-korpuset.

 

Til venstre er alle metadatakategoriene det går an å søke i. I SKRIV er dette elevnummer, morsmål, skolekode, linjekode, oppgavesett og oppgavedel. Du ser hvor mange tekster som er valgt over metadatakategoriene.
Knappen Show texts gir deg en oversikt over alle tekstene eller det utvalget tekster du har valgt. Les mer under 1.3.

Øverst er to knapper. Med Hide filters kan du skjule metadatakategoriene til venstre.
Reset form gir deg en blank søkeside.

Resten av søkesiden handler om søkeordet eller egenskaper ved det. Les mer nedenfor.

1.2.1 Enkelt søk (simple) og eksempel på resultatvisninger
I enkelt søk (Simple) kan man søke på enkeltord og fraser. Søkeresultatene vises som en konkordans med korrigert versjon først og original versjon under, se figur 2. Du kan se antall treff over søkeresultatene til høyre. Det presenteres 50 søkeresultater per side. Er det flere, presenteres de over flere sider som man kan klikke seg inn på. I det lille vinduet under antall treff, kan du spesifisere hvor stor kontekst du vil ha. 15 ord er forhåndsvalgt.

Over søkeresultatene finner du en knapper for nedlasting og sortering, se 1.6 og 1.7. Du kan også få ulike statistiske visninger av søkeresultatet, se 1.5.

Dersom du holder musa over ordet, får du opp et lite vindu med informasjon om lemma, ordklasse, annen morfologisk informasjon og tagger, se figur 2a. Les mer om ordklasser og tagger i 1.2.2.3 og 1.2.2.4.

Til venstre for søkeresultatene er det to dokumentsymbol. Klikker du på dem, får du enten se oppgaveteksten eller originalbesvarelsen som pdf i en ny fane i nettleseren, se figur 3. Vær oppmerksom på at vi ikke har alle oppgavetekstene. Mangler en oppgavetekst, kommer du til en NOT FOUND-side. Noen originalbesvarelser er håndskrevne og noen er skrevet med tekstbehandlingsprogram. Klikker du på elevnummeret, får du opp metadata om eleven som har skrevet teksten, se figur 4.

 


Figur 2: Søkeresultater, enkelt søk

 

 

Figur 2a: Dersom du holder musa over et ord i søkeresultatet, får du opp et lite vindu med informasjon om ordklasse, annen morfologisk informasjon og tagger.

 

 

Figur 3: Elevbesvarelse som pdf.

 


 

Figur 4: Metadata om eleven som har skrevet teksten.


1.2.2 Utvidet søk (Extended)
Utvidet søk gir flere søkemuligheter, se figur 5. Du kan søke både på både enkeltord og fraser, på lemma, starten eller slutten på ord eller på begynnelsen eller slutten av en setning. Du kan også søke på ordklasser, morfologiske trekk eller andre tagger.

 


Figur 5: Utvidet søk.

 

1.2.2.1 Søk på flere ord
Dersom du fyller inn noe i den første søkeboksen og klikker på det blå plusstegnet til høyre, får du opp en søkeboks til. Du kan lage så mange søkebokser du vil. Mellom søkeboksene kan du definere hvor mange ord det minimum eller maksimum skal være mellom søkeordene. Du fjerner en søkeboks ved å klikke på minustegnet til høyre i boksen.
I figur 6 er det gjort et søk på frasen
i dag.

 

Figur 6: søk på flere ord.

 

1.2.2.2 Søk på Lemma, Start, End, Original, Sentence initial eller Sentence final
Under søkevinduet er det seks bokser der man kan krysse av for Lemma, Start, End, Original, Sentence initial eller Sentence final. Dersom du krysser av for Lemma, får du alle bøyingsformer av et ord som resultat, for søkeordet arbeid får du både arbeid, arbeidet, arbeidene osv som resultat dersom ordene finnes i korpuset.
Krysser du av for Start eller End, får du alle ordene som enten begynner eller starter med ordet eller bokstavene som står i søkeboksen. Et søk på arbeid der Start er krysset av, kan gi resultater som arbeidesmuligheter eller arbeidsledighet. Er End krysset av, kan resultatene være ord som fredsarbeid, samarbeid eller husarbeid.

Et kryss i Original gjør at du søker i den originale versjonen av korpuset. Søker du på kansje og krysser av for Original, får du ett treff i SKRIV. Du kan søke i original og korrigert versjon samtidig. Les om dette i 1.2.2.5.

Krysser du av for Sentence initial, søker du bare på ord på førsteplass i setningene. Et kryss i Sentence final betyr søk på det siste ordet. Figur 7 viser et søk på ordet jeg i Sentence initial.

 

Figur 7: Søk på ord i posisjon Sentence initial.

 

1.2.2.3 Søk på ordklasse eller morfologiske trekk
I utvidet søk kan du søke på ordklasse ved å bruke nedtrekksmenyen som skjuler seg bak pilen til venstre i søkeboksen, se figur 8. Klikker du på knappen til venstre for pilen, får du opp boksen i figur 9. Velger du en ordklasse under Parts-of-speech, får du også tilgang til valgene under Morphosyntactic features for den ordklassen du har valgt. Valgene dine kommer opp i små blå bokser under søkefeltet. I figur 8 er det søkt på Substantiv flertalll.
De andre avkryssingsmulighetene i boksen på figur 9 blir forklart i kapitlene under.

 

Figur 8: Knappene for ordklassesøk og søk etter andre morfologiske trekk.

 

 

Figur 9: Søk på ordklasse og annen morfologisk informasjon.

Hvis du klikker på flere ordklasser samtidig, for eksempel både substantiv og pronomen, vil du få treff på alle ordene som er enten substantiv eller pronomen.Tilsvarende kan du klikke på flere verdier innafor en kategori,for eksempel både hunkjønn og hankjønn i kjønn-kategorien under substantiv for å få treff på substantiv som er enten hunnkjønn, hannkjønn eller begge deler.

 

1.2.2.4 Søk på andre tagger (særskriving m.fl)
Dersom infinitivsmerke, kopulaverb, hjelpeverb og ubestemt artikkel mangler i den originale versjonen, har vi satt dem inn i den korrigerte. Vi har også rettet samskrivings- og særskrivingsfeil. Fordi originalversjon og korrigert versjon skulle lenkes sammen, ble vi nødt til å sette inn tagger i originalversjonen på de plassene der vi satte inn utelatt infinitivsmerke eller delte opp en feilaktig samskriving i den korrigerte versjonen. I den korrigerte versjonen satte vi også inn en tagg der vi hadde rettet en særskriving. Disse taggene er det mulig å søke på slik figur 9 viser. Søker du på særskriving, kan du for eksempel se at hyttetur og hudfarge er skrevet som hytte tur og hud farge i materialet, se figur 10.

Legg merke til at det er funnet 570 resultater som presenteres over 12 sider. Klikk på pilene for å navigere i søkeresultatene.

 

 

Figur 10: Søk på særskrivinger.

 

1.2.2.5 Spesifiser eller ekskluder lemma og ordform
Nederst i den morfologiske søkeboksen i figur 9 er det et felt der du ytterligere kan spesifisere et søk. Velger du for eksempel verb i den morfologiske søkeboksen, men bare er ute etter hjelpeverbene, kan du velge Specify lemma og legge til hjelpeverbene ett for ett i boksen til høyre og trykke OK mellom hver gang.

Dersom du har valgt verb, men ikke vil ha med hjelpeverbene, gjør du det på samme måte, men velger Exclude word form eller lemma.

Har du valgt å søke etter Original som beskrevet i 1.2.2.2, kan du spesifisere hvilke korrigert ordform eller lemma ordet skal ha i Specify word form eller lemma. Søk for eksempel på Original å og Specify word form og, og du får alle tilfeller av denne typen og/å-feil.

NB! Husk å klikke på OK når du har skrevet inn et ord i boksen! Ord som er ekskludert, vil da komme opp på høyre side i rødt med et utropstegn foran, se figur 11 og figur 13. Ord som er spesifisert, kommer opp i blått.

 

Figur 11: Spesifiser eller ekskluder lemma og ordform.

 

1.2.3 CQP-søkeuttrykk (CQP query)
CQP-søkeuttrykk kan brukes til avanserte søk som ikke er mulige i enkelt eller utvidet søk. For å bruke denne muligheten må du kunne CQP-søkespråket. Om du trenger hjelp til et avansert søk, kan du ta kontakt med Tekstlaboratoriet. Figur 12 viser et eksempel på hvordan søk etter ordene i dag etterfulgt av substantiv eller pronomen ser ut i enten utvidet søk (Extended) eller CQP query. Dersom du har brukt mulighetene i Extended search og lurer på hvordan dette søket ser ut på CQP-søkespråket, klikker du på CQP query så får du opp søkeuttrykket som i figur 12.

 


Figur 12: Eksempel på samme søk i Extended og CQP query.

TIps: Dersom du er ute etter å finne alle ord som har ulik original og korrigert form, det vil si alle korrigerte skrivefeil i korpuset, skriver du:

a:[] :: a.word != a.orig

i CQP query-boksen uten []-klammene rundt.

 

1.2.4 Eller-søk (Or)
Ved å klikke på
Or-boksen får du opp et nytt søkevindu under det andre. Søk i denne boksen gir et eller-søk. Det vil si at du søker på ordet i hovedsøkeboksen eller ordet i Or-boksen. Du kan lage så mange Or-bokser du vil, og du sletter dem ved å klikke på det røde krysset til venstre for boksen.

Figur 13 viser et komplisert søk etter verb i preteritum som ender på enten -a eller -et. Verbene sa, ba, la, ga og het er ekskludert.

 

 

Figur 13: Or-søk.

 

1.3 Metadatasøk og Show texts
Til venstre i søkeskjemaet er alle metadatakategoriene ramset opp. For SKRIV er kategoriene elevnummer, morsmål, skolekode, linjekode, oppgavesett og oppgavedel. Klikker du på en av lenkene, kommer de ulike verdiene i hver kategori opp. Du kan klikke på og velge én eller flere, og valget du gjør blir synlig i en boks under kategorien. Klikker du på det røde krysset, blir valget nullstilt. Figur 14 viser hvordan metadatamenyen ser ut når man har klikket på kategorien Morsmål.


Figur 14: Metadatamenyen der det er klikket på Morsmål


Valget du gjør, begrenser de videre mulighetene du har for søk. Har du valgt for eksempel elektrofag i kategorien linjekode, vil du bare kunne velge verdier som er knyttet til tekster skrevet av elever på elektrofag. For eksempel vil du ikke få valget albansk under morsmål fordi det ikke er elever med albansk som morsmål som går på elektrofag i dette utvalget. I figur 15 er det krysset av for polsk under morsmål.

Figur 15: Polsk er valgt under morsmål.

 

Over metadatakategorimenyen er det en teller som til enhver tid viser deg hvor mange tekster du har valgt og hvor mange tokens utvalget da består av. I denne versjonen inneholder SKRIV 225 tekster og 111998 tokens (ord og skilletegn) slik figurene ovenfor viser. Når det er valgt bare tekster skrevet av studenter med polsk som morsmål, begrenser utvalget seg til 3 tekster og 2756 tokens slik figur 15 viser.

Dersom du ønsker å se en samlet oversikt over tekstene du har valgt, klikker du på Show texts-knappen nedenfor ordsøkeboksen ved siden av Or-knappen. Resultatet blir som i figur 16 for utvalget fra figur 15.

 

 

Figur 16: Show texts-vinduet.

 

Klikker du på den blå informasjonsknappen til venstre, får du samme informasjon om informanten som i figur 4. Det oransje dokumentsymbolet leder til en pdf med oppgaveteksten. Vær oppmerksom på at vi ikke har alle oppgavetekstene. (Mangler en oppgavetekst, kommer du til en NOT FOUND-side.) Klikker du på det grønne dokumentsymbolet, kommer du til en pdf med elevbesvarelsen, se figur 3.

De ulike metadatakategoriene i Show texts er kort beskrevet nedenfor:

Elevnummer: Hver elev har fått et nummer i stedet for sitt virkelige navn. Du kan søke på én eller flere elevnummer. Elevnummeret består av et tall, en kode for om norsk er første eller andrespråk og je/gu for jente eller gutt
Morsmål: Elevene har selv oppgitt hvilke(t) språk de anser som sitt morsmål.
Skolekode: Elevbesvarelsene kommer fra tre ulike skoler - en storbyskole, en skole i en mindre by og en skole på et tettsted. Skolene har fått hver sin kode.
Linjekode: Her er de ulike linjene listet opp: Bygg- og anleggsteknikk, Service og samferdsel, Elektrofag og Helse- og oppvekstfag
Oppgavesett: Oppgavene er enten en logg fra arbeidspraksis eller en oppgave i norskfaget.

 

1.4 Tilfeldig utvalg av søkeresultatene
Dersom man har ett søk som vil gi mange treff, kan man velge å få se bare ett visst antall tilfeldig utvalgte treff. Spesifiser antall treff i boksen ved siden av show texts.

Dersom du vil gjenskape akkurat dette resultatet senere, velger du et tall og setter det inn i boksen with seed. I figur 17 er er det søkt etter alle substantiv i korpuset, med en visning på 200 tilfeldig utvalgte treff. Tallet 5 er skrevet i with seed-boksen. Hver gang du gjør det samme søket og skriver det samme tallet i boksen, får du det samme tilfeldige utvalget av søkeresultatene. Skriver du et annet tall, får du et annet tilfeldig utvalg.

Det er mulig å velge tilfeldig utvalg av søkeresultatene for søk som er extended eller CQP query.

Figur 17: Avkrysningsboks for å få et tilfeldig utvalg av søkeresultatene, her med 200 tilfeldige resultater.



1.5 Statistikk
Søkeresultatvisningen Concordance er den som er forhåndsvalgt og som alle eksemplene ovenfor er hentet fra. Velger du Statistics som i figur 18 nedenfor, kan du be om ulike frekvenstellinger og statistikk. Foreløpig er det boksene over Update stats som kan velges. Klikk av for hva du vil se, og trykk Update stats. Eksempel 18 viser frekvenser fra et søk på alle ord som begynner med skole. Vi ser former som skolen, skolearbeid, skolesystemet, skolebyråkrater osv. I eksempel 18 er det valgt visning på både ordform og original form.

 

 

Figur 18: Statistikkvisning fra et søk på alle ord som begynner med skole.

 

1.6 Last ned data
Klikker du på Download-knappen over søkeresultatene (se figur 2), får du opp en dialogboks der du kan velge flere nedlastingsformater: Excel-fil, tabseparert tekstfil eller kommaseparert tekstfil. Du kan også velge hvilken informasjon som skal lastes ned, se figur 19.

Figur 19: Vinduet for nedlastingsalternativer.

 

1.7 Sorter søkeresultatene
Søkeresultatene kan sorteres på ulike måter slik figur 20 viser: Dersom du vil sortere etter søkeordet, velger du sort by match. Du kan også sortere etter ordet umiddelbart til venstre eller ordet umiddelbart til høyre. Legg merke til at skilletegn blir alfabetisert før a og b osv.

 

Figur 20: Søkeresultatene kan sorteres på ulike måter.

 

Gå tilbake til hovedsiden