Brukerveiledning for Leksikografisk bokmålskorpus (LBK)

Gå til LBKs hjemmeside

Brukerveiledningen er skrevet av Ingvild Røsok og Kristin Hagen, med god hjelp fra Ruth Vatvedt Fjeld og hjemmesiden til Leksikografisk bokmålskorpus.

1. Leksikografisk bokmålskorpus
Leksikografisk bokmålskorpus (LBK) består av bokmålstekster fra perioden 1985 til i 2013 og inneholder omlag 100 millioner ord.

Leksikografisk bokmålskorpus er utviklet ved tidligere Avdeling for bokmålsleksikografi ved Institutt for lingvistiske og nordiske studier med professor Ruth Vatvedt Fjeld som initiativtaker og prosjektleder.

Tekstene i LBK er tagget med Oslo-Bergen-taggeren, og dette gjør det mulig å søke på ord fra en bestemt ordklasse og med bestemte morfologiske trekk. Tekstene er forøvrig merket med informasjon om tekstprodusentenes kjønn, alder og geografiske tilhørighet, i tillegg til tekstenes sjanger, emne og andre vanlige kildeopplysninger.

Les mer om Leksikografisk bokmålskorpus her.

På denne siden:

1.1 Tekstene i Leksikografisk bokmålskorpus

1.2 Hovedsøkesiden til Leksikografisk bokmålskorpus

1.2.1 Enkelt søk (simple) og eksempel på resultatvisninger

1.2.2 Utvidet søk (Extended)

1.2.2.1 Søk på flere ord
1.2.2.2 Søk på Lemma, Start, End, Original, Sentence initial eller Sentence final
1.2.2.3 Søk på ordklasse eller morfologiske trekk
1.2.2.4 Spesifiser eller ekskluder lemma og ordform

1.2.3 CQP-søkeuttrykk (CQP query)

1.2.4 Eller-søk (Or)

1.3 Metadatasøk og Show texts

1.4 Tilfeldig utvalg av søkeresultatene

1.5 Statistikk

1.6 Last ned data

1.7 Sorter søkeresultatene

 

1.1 Tekstene i Leksikografisk bokmålskorpus (LBK)
Hver tekst i LBK er merket med en kode som viser hvilken av de fem hovedtypene tekster som teksten hører til: Sakprosa (SA), skjønnlitteratur (SK), aviser og periodika (AV), TV-teksting (TV) og upublisert materiale (UN).

I tillegg viser koden hva slags undertype teksten hører til. Sakprosatekstene er f.eks. kodet som avhandling, biografi, lærebok, eller lignende. Mange av korpustekstene er også merket med en eller flere emnekoder, for eksempel har alle sakprosatekster, aviser og tidsskrifter slik kode. En del tekster i kategoriene TV-teksting og Upublisert har også emnekoder. Se en oversikt over tekst- og emnekategorier i LBK her.

I korpusgrensesnittet Glossa kan man bruke menyene merket kategori, underkategori og emne for å definere subkorpus som består av tekster fra en eller flere tekst- og emnekategorier.

 

1.2 Hovedsøkesiden til Leksikografisk bokmålskorpus
Figur 1 viser hovedsøkesiden til Leksikografisk bokmålskorpus.


Figur 1: Hovedsøkesiden til Leksikografisk bokmålskorpus.

 

Til venstre er alle metadatakategoriene det går an å søke i. I Leksikografisk bokmålskorpus er dette forskjellige opplysninger om tekstene: Tekst-ID, Tittel, Publikasjon, Kategori, Underkategori, Utgiver, År, Sted, Oversatt, Emne, Emne (detaljer), Navn på forfatter/oversetter, Kjønn, Fødselsår. Du ser hvor mange tekster som er valgt over metadatakategoriene.
Knappen Show texts gir deg en oversikt over alle tekstene eller det utvalget tekster du har valgt. Les mer under 1.3.

Øverst er to knapper. Med Hide filters kan du skjule metadatakategoriene til venstre.
Reset form gir deg en blank søkeside.

Resten av søkesiden handler om søkeordet eller egenskaper ved det. Les mer nedenfor.

1.2.1 Enkelt søk (simple) og eksempel på resultatvisninger
I enkelt søk (Simple) kan man søke på enkeltord og fraser. Søkeresultatene vises som en konkordans, se figur 2. Du kan se antall treff over søkeresultatene til høyre. Det presenteres 50 søkeresultater per side. Er det flere, presenteres de over flere sider som man kan klikke seg inn på. I det lille vinduet under antall treff, kan du spesifisere hvor stor kontekst du vil ha. 15 ord er forhåndsvalgt, se figur 7.

Over søkeresultatene finner du en knapper for nedlasting og sortering, se 1.6 og 1.7. Du kan også få ulike statistiske visninger av søkeresultatet, se 1.5.

Dersom du holder musa over ordet, får du opp et lite vindu med informasjon om lemma, ordklasse, annen morfologisk informasjon og tagger, se figur 3. Les mer om ordklasser og tagger i 1.2.2.3.

Klikker du på tekst-IDen til venstre for søkeresultatet, får du opp metadata om teksten, som forfatter, publikasjon, tittel, osv., se figur 4.

 


Figur 2: Søkeresultater, enkelt søk

 

 

Figur 3: Dersom du holder musa over et ord i søkeresultatet, får du opp et lite vindu med informasjon om ordklasse, annen morfologisk informasjon og tagger.

 


Figur 4: Metadata om teksten.


1.2.2 Utvidet søk (Extended)
Utvidet søk gir flere søkemuligheter, se figur 5. Du kan søke både på enkeltord eller på fraser, på lemma, starten eller slutten på ord eller på begynnelsen eller slutten av en setning. Du kan også søke på ordklasser, morfologiske trekk eller andre tagger.

 


Figur 5: Utvidet søk.

 

1.2.2.1 Søk på flere ord
Dersom du fyller inn noe i den første søkeboksen og klikker på det blå plusstegnet til høyre, får du opp en søkeboks til. Du kan lage så mange søkebokser du vil. Mellom søkeboksene kan du definere hvor mange ord det minimum eller maksimum skal være mellom søkeordene. Du fjerner en søkeboks ved å klikke på minustegnet til høyre i boksen.
I figur 6 er det gjort et søk på frasen
i dag. Det er funnet 36 434 resultater som presenteres over 729 sider. Klikk på pilene for å navigere søkeresultatene.

 

Figur 6: Søk på flere ord.

Vær oppmerksom på at Oslo-Bergen-taggeren behandler en rekke sammensatte eller faste uttrykk som ett ord, og knytter dem til ett flerordslemma og én ordklasse. Slike uttrykk må skrives inn i samme søkeboks, ikke i to slik som i eksempel 6. En oversikt over hvilke uttrykk som har blitt tagget på denne måten i korpuset kan finnes her.

 

1.2.2.2 Søk på Lemma, Start, End, Sentence initial eller Sentence final
Under søkevinduet er det fem bokser der man kan krysse av for Lemma, Start, End, Sentence initial eller Sentence final. Dersom du krysser av for Lemma, får du alle bøyingsformer av et ord som resultat, for søkeordet arbeid får du både arbeid, arbeidet, arbeidene osv som resultat dersom ordene finnes i korpuset.
Krysser du av for Start eller End, får du alle ordene som enten begynner eller starter med ordet eller bokstavene som står i søkeboksen. Et søk på arbeid der Start er krysset av, kan gi resultater som arbeidesgruppen eller arbeider. Er End krysset av, kan resultatene være ord som helsesarbeid, samarbeid eller husarbeid.

Krysser du av for Sentence initial, søker du bare på ord på førsteplass i setningene. Et kryss i Sentence final betyr søk på det siste ordet. Figur 7 viser et søk på ordet ofte i Sentence initial.

 

Figur 7: Søk på ord i posisjon Sentence initial.

 

1.2.2.3 Søk på ordklasse eller morfologiske trekk
I utvidet søk kan du søke på ordklasse ved å bruke nedtrekksmenyen som skjuler seg bak pilen til venstre i søkeboksen, se figur 8. Klikker du på knappen til venstre for pilen, får du opp boksen i figur 9. Velger du en ordklasse under Parts-of-speech, får du også tilgang til valgene under Morphosyntactic features for den ordklassen du har valgt. Valgene dine kommer opp i små blå bokser under søkefeltet. I figur 8 er det søkt på Substantiv flertall.

Figur 8: Knappene for ordklassesøk og søk etter andre morfologiske trekk.

 

Figur 9: Søk på ordklasse og annen morfologisk informasjon.

Hvis du klikker på flere ordklasser samtidig, for eksempel både substantiv og pronomen, vil du få treff på alle ordene som enten er substantiv eller pronomen.Tilsvarende kan du klikke på flere verdier innafor en kategori, for eksempel både hunkjønn og hankjønn i kjønn-kategorien under substantiv for å få treff på substantiv som er enten hunnkjønn, hannkjønn eller begge deler.

Klikker du på Unknown, vil du få alle ord som av ulike grunner ikke har blitt gjenkjent av ordklassetaggeren. Dette kan være ord på nynorsk eller andre språk, eller ord som ikke finnes i ordboka, for eksempel sax eller 80talls. Men ofte gjelder dette ord som er koblet til et tegn, for eksempel bindestrek, som utdannings-.

1.2.2.4 Spesifiser eller ekskluder lemma og ordform
Nederst i den morfologiske søkeboksen i figur 9 er det et felt der du ytterligere kan spesifisere et søk. Velger du for eksempel verb i den morfologiske søkeboksen, men bare er ute etter hjelpeverbene, kan du velge Specify lemma og legge til hjelpeverbene ett for ett i boksen til høyre og trykke OK mellom hver gang.

Dersom du har valgt verb, men ikke vil ha med hjelpeverbene, gjør du det på samme måte, men velger Exclude word form eller lemma.

NB! Husk å klikke på OK når du har skrevet inn et ord i boksen! Ord som er ekskludert, vil da komme opp på høyre side i rødt med et utropstegn foran, se figur 11 og figur 13. Ord som er spesifisert, kommer opp i blått.

Figur 11: Spesifiser eller ekskluder lemma og ordform.

 

1.2.3 CQP-søkeuttrykk (CQP query)
CQP-søkeuttrykk kan brukes til avanserte søk som ikke er mulige i enkelt eller utvidet søk. For å bruke denne muligheten må du kunne CQP-søkespråket. Om du trenger hjelp til et avansert søk, kan du ta kontakt med Tekstlaboratoriet. Figur 12 viser et eksempel på hvordan søk etter ordene i dag etterfulgt av substantiv eller pronomen ser ut i enten utvidet søk (Extended) eller CQP query.

Dersom du har brukt mulighetene i Extended search og lurer på hvordan dette søket ser ut på CQP-søkespråket, klikker du på CQP query så får du opp søkeuttrykket som i figur 12.


Figur 12: Eksempel på samme søk i Extended og CQP query

 

1.2.4 Eller-søk (Or)
Ved å klikke på
Or-boksen får du opp et nytt søkevindu under det andre. Søk i denne boksen gir et eller-søk. Det vil si at du søker på ordet i hovedsøkeboksen eller ordet i Or-boksen. Du kan lage så mange Or-bokser du vil, og du sletter dem ved å klikke på det røde krysset til venstre for boksen.

Figur 13 viser et komplisert søk etter verb i preteritum som ender på enten -a eller -et. Verbet ga er ekskludert.

 

Figur 13: Or-søk.

 

1.3 Metadatasøk og Show texts
Til venstre i søkeskjemaet er alle metadatakategoriene ramset opp. For Leksikografisk bokmålskorpus er kategoriene: Tekst-ID, Tittel, Publikasjon, Kategori, Underkategori, Utgiver, År, Sted, Oversatt, Emne, Emne (detaljer), Navn på forfatter/oversetter, Kjønn og Fødselsår. Klikker du på en av lenkene, kommer de ulike verdiene i hver kategori opp. Du kan klikke på og velge én eller flere, og valget du gjør blir synlig i en boks under kategorien. Klikker du på det røde krysset, blir valget nullstilt. Figur 14 viser hvordan metadatamenyen ser ut når man har klikket på kategorien Sted.


Figur 14: Metadatamenyen der det er klikket på Sted


Valget du gjør, begrenser de videre mulighetene du har for søk. Har du valgt for eksempel F i kategorien Kjønn, vil du bare kunne velge verdier som er knyttet til tekster med kvinnelige forfattere. For eksempel vil du ikke få valget Tromsø under Sted fordi det ikke er noen kvinnelige forfattere som er registrert i tekstene fra Tromsø i korpuset. I figur 15 er det krysset av for Tromsø under Sted.

Figur 15: Tromsø er valgt under Sted.

 

Over metadatakategorimenyen er det en teller som til enhver tid viser deg hvor mange tekster du har valgt og hvor mange ord utvalget da består av. I denne versjonen inneholder Leksikografisk bokmålskorpus 27081 tekster og 99 959 468 tokens, slik figurene ovenfor viser. Når det er valgt bare tekster fra Tromsø, begrenser utvalget seg til 2 tekster og 1137 tokens, slik figur 15 viser.

Dersom du ønsker å se en samlet oversikt over tekstene du har valgt, klikker du på Show texts-knappen nedenfor ordsøkeboksen ved siden av Or-knappen, se figur 13. Resultatet blir som i figur 16 for utvalget fra figur 15.

Vær oppmerksom på at det kan ta litt tid å få opp visningen av metadataene, spesielt dersom du har valgt å se en samlet oversikt eller en kategori som har mange tekster.

Figur 16: Show texts-vinduet.


De ulike metadatakategoriene
er kort beskrevet nedenfor:

Tekst-ID: Hver tekst har fått en unik ID bestående av tekstkategorikoden pluss noen flere tegn.

Tittel: Tittel på teksten.

Publikasjon: Publikasjonen teksten er fra dersom teksten er hentet fra et større verk.

Kategori: Tekstsammensetningen i Leksikografisk bokmålskorpus er gjort i henhold til en bestemt modell for å oppnå en balansert fordeling av kategorier. Her kan du velge mellom følgende kategorier: Sakprosa (SA), Skjønnlitteratur (SK), Aviser og periodika (AV), TV-teksting (TV) og Upublisert materiale (UN).

Underkat.: Underkategori, det vil si en ytterligere fininndeling av kategorien ovenfor. Aviser og periodika er for eksempel delt inn i AV01: Riksaviser, AV02: Regionsaviser, AV03: Lokalaviser, AV04: Ukeblad, AV05: Tegneserie, AV06: Tidsskrifter og fagblader, AV00: Uspesifisert aviser og periodika.
Denne siden
viser en fullstendig oversikt.

Utgiver: Utgiver av publikasjonen teksten tilhører.

År: Utgivelsesår

Sted: Tekstens utgivelsessted.

Oversatt: Om teksten er oversatt eller er i sin originalform.

Emne: Emnet teksten omhandler. Her kan du velge mellom: Helse og behandling, Humaniora, Juss, Realfag, Samfunnsfag og Sport og fritid.

Emne (detaljert): Detaljert emne inneholder en ytterligere fininndeling av emnekategorien. Sport og fritid har for eksempel emnekategoriene SPO01: Sport, SPO02: Fritid (jakt og fiske, bil, friluftsliv, forming, håndarbeid, mat, reise mm.), SPO03: Mat og SPO00: Uspesifisert sport og fritid.
Denne siden
viser en fullstendig oversikt.

Navn på forfatter/oversetter: Forfatterens/oversetterens navn.

Kjønn: Forfatterens kjønn.

Fødselsår: Forfatterens fødselsår (ikke registrert for alle forfatterne)

 

1.4 Tilfeldig utvalg av søkeresultatene
Dersom man har et søk som vil gi mange treff, kan man velge å få se bare et visst antall tilfeldig utvalgte treff. Spesifiser antall treff i boksen ved siden av Show texts.

Dersom du vil gjenskape akkurat dette resultatet senere, velger du et tall og setter det inn i boksen with seed. I figur 17 er det søkt etter alle substantiv i korpuset, med en visning på 200 tilfeldig utvalgte treff. Tallet 5 er skrevet i with seed-boksen. Hver gang du gjør det samme søket og skriver det samme tallet i boksen, får du det samme tilfeldige utvalget av søkeresultatene. Skriver du et annet tall, får du et annet tilfeldig utvalg.

Det er mulig å velge tilfeldig utvalg av søkeresultatene for søk som er Extended eller CQP query.

Figur 17: Avkryssingsboks for å få et tilfeldig utvalg av søkeresultatene, her med 200 tilfeldige resultater.


1.5 Statistikk
Søkeresultatvisningen Concordance er den som er forhåndsvalgt og som alle eksemplene ovenfor er hentet fra. Velger du Statistics som i figur 18 nedenfor, kan du be om ulike frekvenstellinger og statistikk. Foreløpig er det bare boksene over Update stats som kan velges. Klikk av for hva du vil se, og trykk Update stats. Eksempel 18 viser frekvenser fra søket i figur 13, altså søk etter verb i preteritum som ender på enten -a eller -et. Verbet ga er ekskludert.

 

Figur 18: Statistikkvisning for søkeresultatet fra figur 13.

 

1.6 Last ned data
Klikker du på Download-knappen over søkeresultatene (se figur 2), får du opp en dialogboks der du kan velge flere nedlastingsformater: Excelfil, tabseparert tekstfil eller kommaseparert tekstfil. Du kan også velge hvilken informasjon som skal lastes ned, se figur 19.

Figur 19: Vinduet for nedlastingsalternativer.

 

1.7 Sorter søkeresultatene
Søkeresultatene kan sorteres på ulike måter, slik figur 20 viser: Dersom du vil sortere etter søkeordet, velger du Sort by match. Du kan også sortere etter ordet umiddelbart til venstre eller ordet umiddelbart til høyre. Legg merke til at skilletegn blir alfabetisert før a og b osv.

 

Figur 20: Søkeresultatene kan sorteres på ulike måter.

 

 

Gå tilbake til øverst på siden