Oslo-korpuset av tagga norske tekstar (nynorskdelen)
Nynorskdelen av Oslo-korpuset inneheld omtrent 3,8 millionar ord,
som er koda i forhold til standarden til IMS Corpus
Workbench, Institut für Maschinelle Sprachverarbeitung, ved
Universitetet i Stuttgart. Grensesnittet er utvikla ved
Tekstlaboratoriet.
[Søk i korpuset]
[Søk i korpuset ved hjelp
av regulære uttrykk]
[Heimesida til Tekstlaboratoriet]
[Bokmålskorpuset]
Korpuset er sett saman av dei tekstane som Tekstlaboratoriet har hatt
tilgjengelege pr januar 1999. Korpuset består av 3,7 millionar
ord, og omfattar tre genrar: skjønnlitteratur (2,1 mill. ord),
avis/ukeblad (1 mill. ord) og sakprosa (600 000 ord). Skjønnlitteraturen
er henta frå Dokumentasjonsprosjektet og frå Norsk
Tekstarkiv, Bergen (no: HIT-senteret).
Avis- og ukebladtekstane er samla inn av Tekstlaboratoriet med velvillig
løyve frå dei ulike redaksjonane. Sakprosatekstane består av
NOU-rapportar, norske lover og forskrifter og fire årgangar av Syn og
Segn.
Ei detaljert oversikt over dei ulike tekstane, inkludert
kjeldereferansekode og tekststorleik, finst
her.
Korpuset er ikkje meint å vere representativt i nokon forstand,
sjølv om det inneheld tekstar frå til dels ulike genrar.
Hovudformålet med det er å tilby ei stor tekstmengd som forskarane
kan bruke til søking. Men sidan søkjegrensesnittet gjer det
mogleg å søkje etter bestemte kjelder, kan korpuset i praksis
verke som eit meir skreddarsydd korpus - ein kan velje seg ut alle avistekstane
eller alle skjønnlitteraturtekstane eller alle sakprosatekstane, eller
einskildtekstar, eller ein kombinasjon av dei. (Sjå òg
ENPC.)
Korpusprosjektet, som inkluderer innsamling av tekstar, grammatisk tagging,
kjeldekoding, IMS-koding, og utvikling av web-grensesnitt, har vore leidd av
Janne Bondi Johannessen. Diana Santos utvikla det opphavlege web-grensesnittet
for regulære uttrykk (for The
Oslo Corpus of Bosnian Texts), medan Sigurd Schiøth og Anders Nøklestad
har videreutvikla web-grensesnittet slik at ein kan søkje vha klikking
i boksar. Tore Bjertnes Pedersen og Anders Nøklestad har utarbeidd kjeldereferansar
etter mønster av tilsvarande arbeid gjort ved Seksjon
for leksikografi og målføregransking. Den grammatiske tagginga
har hovudsakleg vore gjort av Kristin Hagen (morfologisk del) og Anders Nøklestad
(syntaktisk del) (men sjå her
for ei full oversikt over involverte personar). Delar av taggaren (nærare
bestemt multitaggingsdelen) har blitt utvikla i samarbeid med Dokumentasjonsprosjektet
(leidd av Christian-Emil Ore), og programmeringa har blitt utført av
Lars-Jørgen Tvedt, og delvis av Helge Hauglin.
[Søk i korpuset]
[Søk i korpuset ved hjelp av
regulære uttrykk]
[Toppen av sida]
Bak den grammatiske tagginga ligg det svært mykje arbeid. Til
saman seks årsverk, hovudsakleg finansiert av Noregs forskingsråd,
Dokumentasjonsprosjektet og Tekstlaboratoriet, har gått med til å
utvikle sjølve taggaren. Programvare
frå Lingsoft, Finland, har vore
brukt i arbeidet. Denne krev ein dependenstypegrammatikk (Constraint Grammar).
Dei grammatiske taggane er søkbare i web-grensesnittet.
Morfologiske taggar
Dei morfologiske taggane er eigentleg morfosyntaktiske taggar. Dei viser
til ordklasse og alle dei vanlegaste kategoriane med trekk, slik som genus
(maskulin, feminin, nøytrum), tal (eintal, fleirtal), bunden/ubunden
form, tempus (preteritum, presens), for å nemne nokre få. Ei full
oversikt finst
her. Det
er i størst mogleg grad gjort vinn på å følgje Norsk
Referansegrammatikk når det gjeld val av ordklasse og trekk. Det har
ført til t.d. at alle tidlegare stadadverb no er preposisjonar.
Syntaktiske taggar
Dei syntaktiske taggane viser til vanlege syntaktiske funksjonar som
subjekt og objekt. Alle syntaktiske taggar har ein krøllalfa (@)
føre seg. Sidan grammatikken er av dependenstypen, der ein for kvart ord
spesifiserer om det er kjerne eller utfylling, kjem det i tillegg mange meir
uortodokse taggar, t.d. : @<SBU (SUBJUNKSJON som modifiserer eitkvart til
venstre), @DET> (DETERMINATIV som modifiserer eitkvart til høgre),
@KON (KONJUNKSJON). Om det er ei pil på den syntaktiske taggen, tyder det
at dette ordet er ei utfylling som modifiserer ein kjerne som står i den
retninga pila viser. Ei full oversikt finst
her.
Oversikt over kjeldereferansar
Kjeldereferansane er utvikla etter mønster av arbeid gjort ved
Seksjon for leksikografi, UiO. Eit døme er:
Allbjart, Gunnar 'Flukten til livet' flukt.syn SK/AlGu/01
Kjeldereferansen er koden på slutten av linja. SK står for
skjønnlitteratur (AV=avis/ukeblad og SA=sakprosa finst òg), dei
fire bokstavane i midtfeltet viser til forfattar (eventuelt avis med
årstal), og det siste talet syner ganske enkelt kva for ei fil det er, om
vi har fleire verk av same forfattar eller fleire filer frå same avis. Vi
understrekar at ei fil ikkje tilsvarar noka naturleg mengd når det gjeld
avisene, slik at t.d. AV/Af94/01 består av 26 nummer av Aftenposten 1994.
Ei fullstendig oversikt finst
her.
[Søk i korpuset]
[Søk i korpuset ved hjelp av
regulære uttrykk]
[Toppen av sida]
Vi tilbyr to forskjellige søkjemåtar, ein enkel og ein meir
komplisert, som begge tillèt svært komplekse søk. Den enkle
søkjemåten har vi kalla Klikk og skriv, fordi ein kan spesifisere
all informasjon om søket vha klikking i boksar, eventuelt kan ein
søkje etter bestemte ord eller delar av ord - då må ein
sjølvsagt skrive dei. Den kompliserte måten er søking vha
regulære uttrykk. Her må ein gi all informasjon om søket vha
eit regulært uttrykksspråk. Det mest kompliserte ved denne
sistnemnde måten er kan hende at ein må vite namnet på dei
ulike taggane og teksttypane på førehand for å kunne nemne
dei i søkjeuttrykket. Grensesnittet med regulære uttrykk blei
først utvikla av Diana Santos for
bosniskkorpuset til
Tekstlaboratoriet. Klikk-og-skriv-grensesnittet blei videreutvikla
frå dette av Sigurd Schiøth og Anders Nøklestad.
Ein kan be om å søkje på ord, delar av ord,
grammatiske (morfologiske og syntaktiske) taggar og avgrensingar innanfor
teksttype, og kombinere slike søk på eit utal av måtar. Ein
kan be om ein KWIC-konkordans (KWIC, KeyWord In Context) eller be om
distribusjon av resultata etter former eller kjelde. Ein kan samstundes
få både konkordans og distribusjon. Ein kan òg be om at
konkordansen skal vise taggane på søkjeordet og eventuelt på
orda i konteksten.
Søking med regulære uttrykk
Denne typen søking er den mest fleksible, her er det knapt noka
grense for kva kombinasjonar ein kan søkje etter. Ved sjølv
å formulere regulære uttrykk kan ein oppnå nøyaktig
det ein ønskjer.
Døme:
- "jente" Alle førekomstar av ordet jente.
- "interess.*" Alle ord som byrjar med bokstavane
interess, t.d. interesserer, interessant.
- ".*dom" Alle ord som endar på bokstavane dom,
f.eks. fridom, fattigdom.
- ".*r" "av.*" Alle sekvensar av to ord som står rett ved
sida av kvarandre, der det første endar på -r og det andre
byrjar på -av, t.d. eller avtale, har avslutta.
- "eg" []{0,7} "og" Ordet eg følgt av ordet
og med opptil sju ord mellom, t.d. ...eg var ute i same ærendet
og blei glad...
Vidare kan ein nytte dei grammatiske taggane og kjeldereferansane som
korpuset inneheld i søkinga:
- [src="SK.*" & word="av.*"] Avgrensa til
skjønnlitteratur: Alle førekomstar av ord som byrjar på
av-, t.d. avgass, avtale.
- [src="SK.*" & tag=".*verb.*" & word="av.*"] Avgrensa
til skjønnlitteratur: Alle førekomstar av ord som byrjar på
av- og er verb, t.d. avtale, avlutta, men ikkje
avgass, aversjon.
- [(src="SK.*" | src="SA.*") & tag=".*verb.*" &
tag=".*pres.*" & word="av.*"] Avgrensa til skjønnlitteratur og
sakprosa: Alle førekomstar av ord som byrjar på av- og er
verb og presens, t.d. avtaler, avsluttar, men ikkje
avgass, aversjon, avslutta.
- [src="AV/Bb.*" & tag=".*verb.*" & tag=".*pres.*" &
word="av.*"] Avgrensa til Bondebladet: Alle førekomstar av ord som
byrjar på av- og er verb og presens, t.d. avtaler,
avsluttar, men ikkje avgass, aversjon, avslutta.
- [src="SK.*" & tag=".*verb.*"] Avgrensa til
skjønnlitteratur: Alle førekomstar av verb, t.d. pusta,
avtaler.
- [src="SK.*" & tag=".*verb.*"] [tag=".*prep.*"] Avgrensa
til skjønnlitteratur: Alle førekomster av verb, følgt av
preposisjon, t.d. pusta ut, avtaler for.
Søking med klikk og skriv
Klikk-og-skriv er atskilleg enklare å bruke enn systemet med
regulære uttrykk. Ein treng ikkje kjenne nokre av kodane til verken
grammatiske taggar eller tekstkjelder, og ein treng ikkje sjølv
konstruere dei regulære uttrykka. I staden klikkar ein seg gjennom eit
system med boksar og menyar.
Ein har høve til å søkje på eitt, to eller tre
ord - eller delar av ord (byrjing eller slutt) - rett etter kvarandre, eller
med eit sjølvvalt tal på ord som kan stå mellom. Ein kan
bestemme at eitt eller fleire av orda er spesifiserte m.o.t. grammatisk
kategori (meir eller mindre spesifisert) og/eller teksttype. Vidare kan ein
velje å la vere å spesifisere sjølve ordstrengen, og heller
berre velje grammatisk kategori.
Hugs! For kvart nytt søk: Tøm skjemaet.
Døme på hovudtypar av søk
- Einskildord. Finn alle førekomstar av jente:
Skriv jente i feltet Første ord. Klikk på
Søk i korpuset.
- Prefiks. Finn alle ord som byrjar med av-: Skriv
av i feltet Første ord. Klikk i boksen Byrjing av
ord. Klikk på Søk i korpuset (døme:
avgass, avtalt).
- Suffiks. Finn alle ord som sluttar med -dom: Skriv
dom i feltet Første ord. Klikk i boksen Ending av
ord. Klikk på Søk i korpuset (døme:
fridom, fattigdom).
- Sekvensar av ord. Finn alle sekvensar av ord som står
rett ved sida av kvarandre, der det første endar på -r og
det andre byrjar på av-: Skriv r i feltet Første
ord, og klikk i boksen Ending av ord, vel maks 0 ord
mellom, skriv av i feltet Andre ord, og klikk i boksen
Byrjing av ord. Klikk på Søk i korpuset
(døme: eller avtale, har avslutta).
- Broten sekvens - med andre ord mellom. Finn alle
førekomstar av ordet eg følgt av ordet og med
opptil sju ord i mellom: Skriv eg i Første ord, vel
maks 7 ord mellom, og skriv og i Andre ord. Klikk
på Søk i korpuset (døme: ...eg var ute i same
ærendet og blei glad...)
- Avgrens søket i forhold til teksttype. Finn alle
førekomstar av ord som byrjar på av- i
skjønnlitteratur: Skriv av i Første ord, klikk i
Byrjing av ord, klikk på Vel tekstar, vel Alle i
rullegardinmenyen for skjønnlitteratur og klikk på Ingen
under rullegardinmenyane for aviser og sakprosa. Klikk på OK og
så på Søk i korpuset (døme: avgass,
avtalt).
- Avgrens søket i forhold til grammatisk kategori. Finn
alle førekomstar av verb i presens som ikkje er samansetningar: Ikkje
skriv noko i felta for Første ord, Andre ord eller
Tredje ord. Vel Verb i rullegardinmenyen Grammatiske
kategoriar under Første ord, klikk på
Morfosyntaktiske trekk og deretter på den venstre radioknappen for
Presens i vindauget som opnar seg. Klikk på OK. Velg
Anna i rullegardinmenyen Utelukk kategori(ar) under
Første ord og klikk på Samansetning i vindauget som
opnar seg. Klikk på OK og på Søk i korpuset
(døme: pustar, avtaler, men ikkje pusta,
avtalt, massekopierer).
Døme på kombinasjonar av søkjekriteria over
- Finn alle førekomstar av ord som byrjar på av- og
er verb, i skjønnlitteratur: Skriv av i Første ord,
klikk i Byrjing av ord, vel Verb i rullegardinmenyen
Grammatiske kategoriar, klikk på Vel tekstar, vel
Alle i rullegardinmenyen for skjønnlitteratur og klikk på
Ingen under rullegardinmenyane for aviser og sakprosa. Klikk på
OK og på Søk i korpuset (døme: avtalt,
avsluttar, men ikkje avgass, aversjon).
- Finn alle førekomstar av ord som byrjar på av- og
er verb og presens, i skjønnlitteratur og sakprosa: Skriv av i
Første ord, klikk i Byrjing av ord, vel Verb i
rullegardinmenyen Grammatiske kategoriar, klikk på
Morfosyntaktiske trekk og deretter på den venstre radioknappen for
Presens i vindauget som opnar seg, klikk på Vel tekstar,
vel Alle i rullegardinmenyen for skjønnlitteratur og Alle
i menyen for sakprosa, og klikk på Ingen under rullegardinmenyen
for aviser. Klikk på OK og på Søk i korpuset
(døme: avtaler, avsluttar, men ikkje avgass,
aversjon, avtalt).
- Finn alle førekomstar av ord som byrjar på av- og
er verb og presens, i Bondebladet: Skriv av i Første ord,
klikk i Byrjing av ord, vel Verb i rullegardinmenyen
Grammatiske kategoriar, klikk på Morfosyntaktiske trekk og
deretter på den venstre radioknappen for Presens i vindauget som
opnar seg, klikk på Vel tekstar, vel Bondebladet i
rullegardinmenyen for aviser og klikk på Ingen under
rullegardinmenyane for skjønnlitteratur og sakprosa. Klikk på
OK og på Søk i korpuset (døme:
avtaler, avsluttar, men ikkje avgass, aversjon,
avtalt).
- Finn alle førekomstar av verb som ikkje står i
preteritum i Bondebladet: Ikkje skriv noko i felta for Første ord,
Andre ord eller Tredje ord. Vel Verb i
rullegardinmenyen Grammatiske kategoriar under Første ord,
klikk på Morfosyntaktiske trekk og på den høgre
radioknappen for Preteritum i vindauget som opnar seg. Klikk på
OK og på Vel tekstar, vel Bondebladet i rullegardinmenyen
for aviser og klikk på Ingen under rullegardinmenyane for
skjønnlitteratur og sakprosa. Klikk på OK og på
Søk i korpuset (døme: pusta, avtaler).
- Finn alle førekomstar av verb følgt av preposisjon, i
skjønnlitteratur: Ikkje skriv noko i felta for Første ord,
Andre ord eller Tredje ord. Vel Verb i rullegardinmenyen
Grammatiske kategoriar under Første ord og
Preposisjon frå den tilsvarande menyen under Andre ord,
klikk på Vel tekster, vel Alle i rullegardinmenyen for
skjønnlitteratur og klikk på Ingen under rullegardinmenyane
for aviser og sakprosa. Klikk på OK og på Søk i
korpuset (døme: pusta ut, avtaler for).
[Søk i korpuset]
[Søk i korpuset ved hjelp av
regulære uttrykk]
[Toppen av sida]
Korpuset er fritt tilgjengeleg for forsking gjennom innlogging med Feide eller eduGAIN. (Kontakt Tekstlaboratoriet dersom du treng eit anna innloggingsalternativ.)
Dette er eit grensesnitt mot CQP, Corpus Query Processor, som
høyrer til IMS Corpus Workbench, utvikla av Oliver Christ og Bruno
Maximilian Schulze ved Institut für Maschinelle Sprachverarbeitung,
Universitetet i Stuttgart. Prøv gjerne ut
lista
deira over hyppige spørsmål.
Vi er svært glade for å ha fått lov til å bruke
CQP-søkjeverktyet til forskingsføremål.
Dei som kjenner CQP-grensesnittet, kan bruke så godt som heile
grensesnittet her. Nokre restriksjonar vil bli omtala nedanfor.
[Søk i korpuset]
[Søk i korpuset ved hjelp av
regulære uttrykk]
[Toppen av sida]
Det er brukt tegnsett ISO-8859-1 i korpuset. Det er òg laga ein
rein ASCII-versjon.
Korpuset er sett saman av det elektroniske
materialet for norsk som Tekstlaboratoriet hadde tilgjengeleg pr. januar
1999. Mesteparten av dette materialet har vi overteke i elektronisk form, anten
direkte frå avis, forfattar eller forlag - eller via andre
tekstinnsamlarar som Humanistisk datasenter i Bergen (no:
HIT-senteret) og
Dokumentasjonsprosjektet. Vi har
òg lasta ned frå internett statlege informasjonsskriv
(NOU-rapportar). Vi er svært takksame over å ha fått
løyve frå aviser, forlag og forfattarar til å nytte tekstane
deira i dette første Oslo-korpuset. Vi har ikkje gjort endringar i
tekstane, bortsett frå at enkelte tall-tabellar som måtte finnast i
enkelte tekstar, er fjerna. Vi har halde på overskrifter, bilettekstar og
anna som i utgangspunktet kanskje kunne ha vore eit problem for taggaren. I
staden blei taggaren utvikla med tanke på òg å takle ein del
slike teksttypar - riktig nok i avgrensa grad.
Korpuset er tagga med UiOs multitaggar (utvikla av Tekstlaboratoriet
og Dokumentasjonsprosjektet i samarbeid),
og deretter med den disambiguerande
taggaren vår, utvikla ved Tekstlaboratoriet (med programvare frå
Lingsoft, Finland). Korpuset er blitt gjort
om til CQP-format automatisk, frå reine tekstfiler med meta-informasjon
i headeren, og frå ei innhaldsoversikt med riktig tekstidentifikator.
Korpuset er ikkje korrekturlese.
Til slutt gjer vi merksam på nokre punkter der korpuset vårt
skil seg frå Corpus Workbench:
- Korpuset er ikkje delt opp på ein måte som gjer det
mogleg å søkje med formelle einingar som avsnitt og setningar.
- Korpuset er annotert med kjelde for kvart ord. Vi har ordna det slik
at kjelda står først i kvar line i konkordansen.
- Store og små bokstavar er koda forskjellig.
- Punktueringsteikn er koda som eigne teikn, slik at ein kan
søkje på t.d. komma.
[Søk i korpuset]
[Søk i korpuset ved hjelp av
regulære uttrykk]
[Toppen av sida]
Det noverande søkjegrensesnittet gjer det mogleg
- å søkje med klikking og skriving
- å søkje på CQP-måten med regulære
uttrykk
- å velje mellom Latin 1 eller lågare ASCII for vising av
søkjeresultatet
- å velje kor mykje kontekst som skal bli vist i konkordansen
- å velje eit tilfeldig utplukka tal på søkjetreff
- å velje type søkjeresultat (konkordans, distribusjon av
former, av kjelder eller anna, eller ein kombinasjon av desse)
- å velje konkordans utan taggar, med taggar berre på
søkjeordet eller med taggar på både søkjeordet og
konteksten.
- å sortere konkordansen etter kjelde, søkjeord eller
ordet eller skiljeteiknet føre eller etter søkjeordet.
Søkjeresultatet blir vist saman med informasjon om kva slags
søk brukaren utførte, dato og talet på søkjetreff.
I nokre tilfelle blir det gitt åtvaringar eller hjelpemeldingar.
Til dømes:
- Ikkje spør om distribusjon av former når
søkjeuttrykket berre tilsvarar éin form.
- Ikkje bruk * i staden for .* (a* tyder ei rekkje
a'ar, ikkje a følgt av noko anna: då burde ein ha skrive
a.*)
- Ikkje bruk mellomrom inni eit søkjeuttrykk. Ønskjer ein
to ord, må ein bruke hermeteikn.
Viktige avgrensingar
For å hindre brukarane i å laste ned heile tekstar til
maskina si har vi lagt inn desse avgrensingane:
- Ein kan ikkje søkje med ein kontekst som er større enn
500 teikn. Ber ein om meir, blir det likevel kutta ned til 500 teikn.
- Ein kan ikkje søkje på sekvensar som er lengre enn 200
ord (frå byrjinga av søkjeuttrykket til slutten). Prøver
ein med lengre uttrykk, blir dei kutta ned til 200.
[Søk i korpuset]
[Søk i korpuset ved hjelp av
regulære uttrykk]
[Toppen av sida]
Vi har undersøkt prestasjonsnivået til den disambiguerande
taggaren på eit testkorpus, det vil seie eit ukjent korpus for
taggaren. Testkorpuset er manuelt tagga og inneheld ca 30 000 ord henta
frå aviser, ukeblad, tidsskrift og offentlege utredningar. Resultata
viser (juni 2002) at taggaren har ei leksikalsk funnrate på 98,7
%, dvs. at taggaren beheld 99 % av dei riktige taggane. Presisjonen er
på 93,6 %, noko som tyder at 93,6 % av dei taggane som blir ståande
igjen, er riktige.
[Søk i korpuset]
[Søk i korpuset ved hjelp av
regulære uttrykk
[Toppen av sida]
Nokre publikasjonar der korpuset er brukt
- Helle Asmussen. 2000. Korpus 2000 - En undersøgelse af brugergrupper
og korpusværktøjer. Prosjektoppgave, Institut for Datalingvistik,
Handelshøjskolen i København. (HTML, Postscript)
- Philipp Conzett. 2004. Frå einskap til ulikskap? Ei gransking av genustilhøvet
ved avleiingar på -skap i skandinavisk. Norsk lingvistisk tidsskrift,
22, 169-193.
- Hanne Ragnhild Eliassen. 2002. Frekvens og norske verb. Hvordan kan verb
klassifiseres, og hvordan påvirker frekvens verbene? Hovudoppgåve,
Universitetet i Oslo.
- Elisabet Engdahl. 1999. Valet av passivform i modern svenska. Føredrag
halde ved Svenskans beskrivning 24 i Linköping.
- Elisabet Engdahl. 1999. The choice between bli-passive and s-passive
in Danish, Norwegian and Swedish. NORDSEM-rapport
nr. 3. (Postscript)
- Martin Hilpert. 2002. Semantik und Syntax von Verben der Meinungsäusserung
im Dänischen, Norwegischen und Schwedischen. Eine kompararative, korpusbasierte
Fallstudie. Universität Hamburg.
- Janne Bondi Johannessen. 1998. Negasjonen ikke: Kategori og syntaktisk posisjon.
MONS 7. Utvalde artiklar frå det 7. Møtet om Norsk Språk
i Trondheim 1997. ISBN 82-7099-307-7
- Janne Bondi Johannessen. 2003. På språkjakt - problemer og
utfordringer i språkvitenskapelig datainnsamling. Oslo.
- Fredrik Andersen Kavli. 2001. Korpusargumenter. Hovudoppgåve, Universitetet
i Bergen. (HTML)
- Arild Lian, Paul J. Karlsen og Bendik Winswold. 2001. A re-evaluation of
the phonological similarity effect in adults' short-term-memory of words and
nonwords. Memory, 9 (4,5,6), 281-299.
- Arne Martinus Lindstad. 1999. Issues in the Syntax of Negation and Polarity
in Norwegian. A Minimalist Analysis. Hovudoppgåve, Universitetet i Oslo.
- Victoria Rosén, 2000. Er norsk et naturlig språk? I: Øivin
Andersen, Kjersti Fløttum og Torodd Kinn (red.), Menneske, språk
og fellesskap. Festskrift til Kirsti Koch Christensen på 60-årsdagen,
1. desember 2000, Oslo, Novus forlag.
- Grete Seland, 2001. The Norwegian Reflexive Caused Motion Construction.
A Construction Grammar Approach. Hovudoppgåve, Universitetet i Oslo.
- Henrik Stiansen, 2001. Indirekte objekt i norsk. Hovudoppgåve, Universitetet
i Oslo
- Martin Thiering, 2004. A Corpus-Based Semantic Analysis of Norwegian 'Se'.
Foredrag på CSDL 2004 (Conference on Conceptual Structure, Discourse,
and Language), University of Alberta, Canada.
- Ingebjørg Tonne, 2001. Progressives in Norwegian and the Theory of
Aspectuality. Dr.art-avhandling, Universitetet i Oslo, Acta Humaniora, Unipub/Gnist-Akademika.
(Postscript)
- Øystein Alexander Vangsnes. 2001. Distributiv possessiv - en binominal
konstruksjon. I Inger Moen (et al.), Mons 9: Utvalgte artikler fra Det niende
møtet om norsk språk i Oslo 2001, 230-243. Oslo: Novus.
Vi ser gjerne at forskarar som har brukt korpuset i føredrag
eller skriftlege arbeid, fortel oss om det. Vi vil gjerne utvide denne lista
over slike arbeid, til nytte og glede for oss alle.
Om tagging
Vitskaplege tidsskrift og antologiar:
- Kristin Hagen, Janne Bondi Johannessen og Anders Nøklestad.
2000. A Web-Based Advanced and User Friendly System: The Oslo Corpus of Tagged
Norwegian Texts. I Gavrilidou, M., G. Carayannis, S. Markantonatou, S.
Piperidis og G. Stainhaouer (red.): Proceedings of the Second International
Conference on Language Resources and Evaluation, Athens, Greece 31 May - 2 June
2000.
- Kristin Hagen, Janne Bondi Johannessen og Anders Nøklestad.
2000. A Constraint- Based Tagger for Norwegian. I Lindberg, C.-E. og S. Nordahl
Lund (red.): 17th Scandinavian Conference of Linguistics, vol. I.
Odense: Odense Working Papers in Language and Communication, No. 19, vol I.
- Kristin Hagen, Janne Bondi Johannessen og Anders Nøklestad.
2000. The shortcomings of a tagger. I Proceedings from the 12th "Nordiske
datalingvistikkdager", Trondheim 9-10 December, 1999. Trondheim:
Lingvistisk institutt, NTNU .
- Janne Bondi Johannessen. 1998. Tagging and the case of pronouns.
Computers and the Humanities. ISSN 0010-4817
- Janne Bondi Johannessen. 1998. Elektroniske hjelpemidler -
leksikografisk fornying. Norskrift. ISSN 0800.7764
- Kristin Hagen og Janne Bondi Johannessen. 1998. Disambiguering uten
syntaks. MONS 7. Utvalde artiklar frå det 7. Møtet om Norsk
Språk i Trondheim 1997. ISBN 82-7099-307-7
- Anders Nøklestad. 1998. Statistisk disambiguerende tagging av
norsk. MONS 7. Utvalde artiklar frå det 7. Møtet om Norsk
Språk i Trondheim 1997. ISBN 82- 7099-307-7
- Janne Bondi Johannessen og Helge Hauglin.1998. An Automatic Analysis
of Norwegian Compounds. Papers from the 16th Scandinavian Conference of
Linguistics, Turku/Åbo, Finland. ISBN 951-29-1327-5.
Upublisert:
- Kristin Hagen, Janne Bondi Johannessen og Kristian Emil
Kristoffersen. 1997. Problemer ved bruk av andres lister til
taggerformål. Føredrag presentert på Møte om norsk
språk 7, Universitetet i Trondheim.
[Søk i korpuset]
[Søk i korpuset ved hjelp av
regulære uttrykk]
[Toppen av sida]
Dette er versjon 2 av korpuset, tagga med versjon 2 av multitaggaren, og
versjon 2 av den disambiguerande taggaren.
[Søk i korpuset]
[Søk i korpuset ved hjelp av
regulære uttrykk]
[Toppen av sida]
Planlagte forbetringar
Vi har planlagt nokre forbetringar som vi vonar vil kome i løpet
av nokså kort tid. Nokre av dei vil vi gjennomføre etter kvart som
vi blir ferdige med dei, andre vil vi introdusere samstundes med
innføringa av neste versjon av Oslo-korpuset.
- Kollokasjon. Vi kjem til å tilby å få vist
kollokasjonane til søkjeordet.
- Frekvenslister. Vi vil utvide frekvenslistene til å
gjelde alle teksttypane.
- Tilfeldig utval med relativ tekstfrekvens. Vi vil tilby
høve til å søkje etter eit bestemt, tilfeldig utval
førekomstar av eit søkjeuttrykk, der like mange
førekomstar blir henta frå kvar av dei ulike teksttypane.
- Fjerne artiklar osb. på feil målform. Vi vil i
større grad enn no sørgje for å skilje ut lengre
nynorsktekstar som avisartiklar o.l. frå bokmålsmaterialet og
omvendt.
- Layout på klikk-og-skriv-sidene. Denne vil vi
kontinuerleg evaluere og forbetre.
Vi ønskjer alltid å kunne forbetre Oslo-korpuset. Difor
set vi pris på alle forslag til forbetringar, anten til
tekstlab-post@iln.uio.no, eller til
korpus-diskusjonslista, oktnt-list@iln.uio.no. Vi vil gjerne
takke Stig Johansson, Elisabet Engdahl, Johan Laurits Tønnesson og Carl
Vikner for deira konstruktive forslag.
[Søk i korpuset]
[Søk i korpuset ved hjelp av
regulære uttrykk]
[Toppen av sida]
Oppretta av Janne Bondi Johannessen.
Oppdatert 7. mai 2007
av AN.