En automatisk, disambiguerende tagger er et program som skal kunne ta en hvilken som helst tekst, analysere den, og forsyne hvert eneste ord i teksten med en tagg som angir grammatisk informasjon som ordklasse, undergruppe, morfosyntaktiske trekk o.a. Spesielt viktig er det at hvert ord bare får én tagg. Selv om det er mange ord i norsk som i utgangspunktet er flertydige (homonyme), bør altså taggeren klare å finne fram til den ene riktige analysen. Står den på ordet murer, som faktisk kan betegne fire forskjellige grammatiske ord (se nedenfor), skal den klare å velge ett.
"murer" | |
"substantiv M ubestemt plural, MUR" | |
"substantiv M ubestemt plural, MURE (bot.)" | |
"substantiv M ubestemt singular, MURER" | |
"svakt verb presens, MURE" |
Det er et systematisk forhold mellom mange svake verb og bestemt form av det avledede substantivet, som i hoppet, foret osv., så det er av stor viktighet at den morfologiske taggeren selv kan disambiguere en ordform, og dermed fjerne alle tolkninger bortsett fra én. Dette må selvsagt bare kreves dersom entydiggjøringen kan skje på et solid grunnlag.
Taggeren som omtales her, er en regelbasert tagger (i motsetning
til en statistisk basert tagger), mer spesielt er den en såkalt
føringsbasert (Constraint-Based) tagger. Denne typen har vært
utviklet ved Universitetet i Helsinki, Finland, under ledelse av Fred Karlsson.
En føringsbasert tagger er en hvor det er laget lingvistisk baserte
regler for hvert eneste disambigueringsvalg. Den bygger på
dependensgrammatikk, hvilket i praksis vil si at taggeren ikke bygger opp
fraser, men at alle valg gjøres på grunnlag av forholdet mellom
enkeltord. Denne typen tagging er beskrevet i Karlsson et al., 1995,
Constraint Grammar.
|opp|
Språkforskere er ofte interessert i ulike forekomster av en
kategori, slik som sterke verb eller adjektiver (situasjon A). Videre kan de
være interessert i én underkategori av et svært polysemt
leksem, eller ett leksem av flere frekvente, homonyme leksemer (situasjon B). I
alle slike tilfeller er det selvsagt svært lite effektivt å
søke i umerkede tekster. I situasjon A blir man i prinsippet nødt
til å sette seg ned med en vanlig ordbok, og manuelt lete fram alle
forekomster av kategorien man er interessert i, før man i det hele tatt
kan begynne søkingen. I situasjon B er det klart hvilke(n)
tegnstreng(er) man skal søke etter, men problemet her kan bli at man
finner altfor mange irrelevante eksempler. Søker man f.eks. etter det
kausative få, som i Kari fikk reparert bilen, får man i tillegg all
annen bruk, som tilfeller hvor få er hovedverb, som i Kari fikk en bil,
eller hvor få har en tillatelsesbetydning, som i Kari fikk være
oppe til midnatt, eller hvor få er et mengdeord: Kari hadde få
bekymringer. En enkel morfologisk tagger ville gjøre det mulig å
søke etter f.eks. alle ordformer merket med "sterkt verb" eller alle
ordformer av verbet få etterfulgt av en ordform merket "perfektum
partisipp".
|opp|
Taggeren er utviklet vha programvare fra det finske firmaet
Lingsoft. Dette firmaet vil ha de kommersielle rettighetene til taggeren. Men
Tekstlaboratoriet/Universitetet I Oslo har anledning til å la taggeren
brukes fritt til forskningsformål over hele landet.
|opp|
Her følger en kort oversikt over taggerens enkelte deler,
presentert i kronologisk rekkefølge, etter hvilke biter som
gjøres når i taggingsprosessen.
|opp|
Utgangspunktet for taggingen er en ren tekstfil. Det stilles ingen
spesielle krav til utseendet på fila - den kan godt ha overskrifter (av
forskjellig format), tabeller og andre ting som kan gjøre teksten
vanskelig å tolke for en datamaskin. (Men om en tekst er kodet med f.eks.
SGML-kode, må den kjøres gjennom et program som fjerner slik kode
først.) Beskrivelsen nedenfor deler preprosessering og multitagging i to
deler av pedagogiske grunner, men det dreier seg om ett program, som benytter
mange enkeltdeler, bl.a. den leksikalske databasen og
sammensetningsanalysatoren, samt mange spesialdeler for å kunne
gjenkjenne ulike typer ord og tekst.
|opp|
Et eksempel på en tekst før tagging:
Lang tradisjon I over hundre år har sportsfiskere og elveeiere
prøvd å hjelpe laksen til å |
Teksten over er svært enkel. Likevel er det mange ting som må ordnes før multitaggeren trer i aksjon. Teksten må først preprosesseres:
Skill ut overskrifter.
Det er viktig for taggingen
senere at teksten oppdeles på riktig måte, f.eks. at overskrifter
skilles ut. De kjennetegnes jo ofte, som over, ved at de ikke har noe sluttegn
som punktum. Fordi vi ikke vil at en overskrift skal tolkes som en del av neste
setning, må den derfor gjenkjennes. Her har vi valgt å bruke endel
form kriterier som store bokstaver, blanke linjer på begge sider, antall
ord på linja o.a. for at overskrifter skal skilles ut.
Gjenkjenn setninger.
At setninger deles opp
på riktig sted, er et beslektet mål. På dette stadiet i
prosessen, finnes det ikke tilgang til noen grammatisk analyse, så alle
regler må gjelde for enkeltord og bokstaver i umiddelbar nærhet av
skilletegn. Visse tegn er typiske helsetningsskilletegn (periodeskilletegn),
slik som utropstegn, spørsmålstegn, og ikke minst punktum.
Imidlertid utgjør punktum et stort problem, siden det finnes mange
tilfeller hvor punktum også finnes setningsinternt. Betrakt de
følgende setningene:
(1) Her ser vi bl.a. en fisk, en fugl og en slange.
(2) Her har man f.eks. Jørgensen og Christensen.
(3) Der er
dr. Hansen.
(4) Og der er Marte T. Henriksen.
(5) Dette
skjedde 05.04.97.
For at helsetningene og ingenting annet skal gjenkjennes, har vi samlet inn en god del forkortelser, og laget programvare som tolker et punktum i en forkortelse annerledes enn ellers. Er forkortelsen en stor bokstav, tolkes den som egennavn. Men det viser seg at forkortelser også kan forekomme ved setningsslutt, og da ønsker man selvsagt å nettopp kjenne igjen setningsslutt:
(6) Vi kjenner leger, advokater og lingvister osv. Alle er
velutdannet.
(7) Mens leger, advokater osv. ikke kjenner seg igjen,
er det lett for oss andre.
(8) Man kan få kjøpt sjokolade,
kaker, sukkertøy mm. Alt som er søtt får man tak i.
(9) Stedet ligger 2000 m.o.h. Det er oftest snø der.
For at en forkortelse skal kunne tolkes som setningsfinal, krever vi i tillegg at den etterfølgende bokstaven må være stor - uten at den er første del av et egennavn, (2) vs. (8). Dessuten er en del forkortelser av den typen at de sjelden eller aldri står setningsfinalt - som eksempel (1). Titler forekommer til gjengjeld nesten alltid foran egennavn, som (3). Vi har derfor delt forkortelser inn i forskjellige grupper, etter hvor og hvordan de forekommer. Tall som står for datoer, som (5), må også gjenkjennes.
Gjenkjenn datoer.
Preprosessoren må skille
datoer (se nedenfor) fra tall, som ganske enkelt regnes som kvantifiserte
uttrykk:
(10) Dette skjedde 01.01.60.
(11) Det skjedde
også noe 15/9-91.
(12) Og dessuten var det noe spesielt
08-04-94.
Gjenkjenn av "koordinerte sammensetninger"
Noen
tekstuelle sammenstillinger av flere ord må likevel betraktes som enkle
ord. Dette gjelder nærmere bestemt sammensetninger hvor ett av leddene er
koordinert av en konjunksjon:
(13) Vi snakker om barnehage- og dagmammabarn.
(14)
Det gjelder etter- og videreutdanning.
(15) Julegavene og
-maten er blitt overdådige.
Gjenkjenn faste uttrykk
Vi har foretatt innsamling
av mange faste uttrykk, som går over flere ord. Der vi ønsker at
de skal betraktes som ett og samme ord, ordnes det av preprosessoren:
(16) Vi tar en sjokolade i ny og ne.
(17) Dette
gjør vi ikke i utide.
|opp|
Multitaggeren tar for seg teksten ord for ord. (Faste uttrykk, koordinerte sammensetninger o.a. regnes nå som enkle ord.) Hvert ord slås opp i en fullformsordliste - altså en liste av oppslagsordene i den leksiksalske databasen samt alle deres fulle former når de er bøyd. Hvert ord gis alle muligheter som fullformsordlista gir uten at konteksten for ordet undersøkes. I tillegg kommer disse delene:
Egennavn (18) Ove Hokstad
(19) Peder Clausson Friis
Sammensetninger
Ord som ikke finnes i den
leksikalske databasen blir forsøkt analysert som sammensetninger gjennom
et eget sammensetningsprogram. Hvis det kan analyseres som en sammensetning,
vil sisteleddet bli slått opp I fullformsordlista, og ordet gis alle
tagger derfra. I teksten over vil f.eks. disse sammensetningene analyseres:
(20) laksestamme
(21) utsettingsforskrifter
(22)
sørlandspresten
Alle kan prøve multitaggeren selv ved å skrive inn en setning eller legge ved en liten fil. Den interaktive multitaggeren ligger her.
Eksempel på en multitagget tekst
Nedenfor
følger en kort del av teksten vi så ovenfor, men i multitagget
utgave. Det går også an å få se hele teksten multitagget.
"<lang>"
"lang" adj
pos mask fem ub ent
"lange" verb imp
<trans1>
"<tradisjon>"
"tradisjon" subst mask appell ent ub
"<$|>"
"$|" CLB
<OVERSKRIFT>
"<*i>"
"i"
prep
"<over>"
"over" prep
"<hundre>"
"hundre" det
kvant fl
"hundre" subst nøyt
appell ent ub
"hundre" subst
nøyt appell fl ub
"<år>"
"år" subst fem appell ent ub
"år" subst mask appell ent ub
"år" subst nøyt appell ent
ub
"år" subst nøyt appell
fl ub
"<har>"
"ha" verb pres
<trans6><auxp>
"<sportsfiskere>"
"sportsfisker" subst mask appell fl ub
"<og>"
"og" CLB konj
"og" adv
"og" konj
"<elveeiere>"
"elveeier" subst mask appell fl ub
"<prøvd>"
"prøve"
adj <perf-part>mask fem ub ent <trans1><trans3>
"prøve" adj
<perf-part>nøyt ub ent <trans1><trans3>
"prøve" verb perf-part
<trans1><trans3>
"<å>"
"å" inf-merke
"å" interj
"å" subst fem appell ent ub
"å" subst mask appell ent ub
"<hjelpe>"
"hjelpe" verb inf
<trans1>
"<laksen>"
"laks" subst mask appell ent be
"<til>"
"til" prep
"<å>"
"å" inf-merke
"å" interj
"å" subst fem appell ent ub
"å" subst mask appell ent ub
"<formere>"
"former" subst mask
appell fl ub
"formere" verb inf
<trans1><refl4>
"<seg>"
"seg" pron refl ent/fl akk
"sige" verb pret <intrans2>
"<I>"
"i" prep
"<norske>"
"norsk" adj pos mask
fem nøyt be ent
"norsk" adj pos
ub be fl
"norske" verb inf
<trans1>
"<elver>"
"elv" subst fem appell fl ub
"elv" subst mask appell fl ub
"<$.>"
"$." CLB <PUNKT>
|opp|
Vi har benyttet et taggsett som vi har utviklet selv. Imidlertid har vi forsøkt å holde oss til de kategorier som Norsk Referansegrammatikk (red.: Jan Terje Faarlund, Svein Lie og Kjell Ivar Vannebo) 1997 anbefaler. Dette innebærer f.eks. at alt som kan gradbøyes, regnes som adjektiver - selv om de tradisjonelt har vært regnet som adverber, slik som ordet ofte. Videre er alle tradisjonelt lokale adverber som der, bortenfor osv. nå å regne som preposisjoner. En fullstendig oversikt over tagger vil bli presentert senere.
Kort utdrag av disambiguert tekst
Versjon pr. 6/4-98
."<*lang>"
"lang"
adj pos mask fem ub ent
"<tradisjon>"
"tradisjon" subst mask appell ent ub
"<$|>"
"$|" CLB
<OVERSKRIFT>
"<*i>"
"i" prep
"<over>"
"over" prep
"<hundre>"
"hundre" det kvant fl
"<år>"
"år" subst
nøyt appell fl ub
"<har>"
"ha" verb pres <trans6> <auxp>
"<sportsfiskere>"
"sportsfisker" subst mask appell fl ub
"<og>"
"og" konj
"<elveeiere>"
"elveeier" subst
mask appell fl ub
"<prøvd>"
"prøve" verb perf-part
<trans1> <trans3>
"<å>"
"å" inf-merke
"<hjelpe>"
"hjelpe" verb inf
<trans1>
"<laksen>"
"laks" subst mask appell ent be
"<til>"
"til" prep
"<å>"
"å" inf-merke
"<formere>"
"formere" verb
inf <trans1> <refl4>
"<seg>"
"seg" pron refl ent/fl akk
"<i>"
"i" prep
"<norske>"
"norsk" adj pos ub be
fl
"<elver>"
"elv" subst fem
appell fl ub
"elv" subst mask appell
fl ub
"<$.>"
"$." CLB
<PUNKT>
|opp|
"<*lang>" ----------------@ADJ>
"<tradisjon>"
----------------@SUBJ @OBJ @LØS-NP
"<$|>"
"<*i>"
------------------------@ADV
"<over>" ----------------@ADV
"<hundre>" ----------------@DET>
"<år>"
------------------------@<P-UTFYLL
"<har>"
------------------------@FV
"<sportsfiskere>" --------@SUBJ
"<og>" ------------------------@KON
"<elveeiere>"
----------------@SUBJ @OBJ @I-OBJ
"<prøvd>"
----------------@IV
"<å>" ------------------------@OBJ
"<hjelpe>" ----------------@IV
"<laksen>"
----------------@OBJ
"<til>" ------------------------@ADV
"<å>" ------------------------@<P-UTFYLL
"<formere>"
----------------@IV
"<seg>" ------------------------@OBJ
"<i>" ------------------------@ADV
"<norske>"
----------------@ADJ>
"<elver>" ----------------@<P-UTFYLL
"<$.>"
"<*naturen>" ----------------@SUBJ
"<er>"
------------------------@FV
"<nemlig>" ----------------@ADV
"<knallhard>" ----------------@S-PRED
"<mot>"
------------------------@ADV
"<lakseavkommet>"
--------@<P-UTFYLL
"<$->"
"<bare>"
----------------@ADV
"<noen>" ----------------@DET>
"<få>" ------------------------@ADJ>
"<prosent>"
----------------@SUBJ @OBJ
"<av>" ------------------------@ADV
"<den>" ------------------------@DET>
"<yngelen>"
----------------@<P-UTFYLL
"<som>"
------------------------@<SBU-REL
"<klekkes>"
----------------@FV
"<naturlig>" ----------------@S-PRED @O-PRED @ADV
"<i>" ------------------------@ADV
"<elvene>"
----------------@<P-UTFYLL
"<overlever>" ----------------@FV
"<så>" ------------------------@ADV>
"<lenge>"
----------------@ADV
"<at>" ------------------------@SUBJ @OBJ
"<de>" ------------------------@SUBJ
"<begynner>"
----------------@FV
"<å>" ------------------------@OBJ
"<ta>" ------------------------@IV
"<til>"
------------------------@ADV
"<seg>"
------------------------@<P-UTFYLL
"<føde>"
----------------@OBJ @I-OBJ
"<$.>"
|opp|
Her er en oversikt over de morfosyntaktiske taggene som forekommer i treningskorpuset vårt for bokmål, som består av ca. 100000 ord (det kan finnes andre tagger som ikke er representert i dette korpuset). I tillegg kan alle ord bli markert som sammensetninger (<samset>) eller unormert (<unorm>). Subkategoriseringstagger for verb er utelatt, men man kan finne en oversikt over disse taggene, laget av NorKompLeks-prosjektet ved NTNU, ved å klikke her.
Tagg: Eksempel: <ANF> " <KOMMA> , <PARANTES-BEG> ( <PARANTES-SLUTT> ) CLB <ELLIPSE> ... CLB <KOLON> : CLB <KOMMA> , (som setningsgrense) CLB <OVERSKRIFT> [slutt på overskrift] CLB <PUNKT> . CLB <SEMI> ; CLB <SP M> ? CLB <STREK> - CLB <UTROP> ! CLB konj og adj <ordenstall> pos mask fem nøyt be ent (det) første adj <ordenstall> pos mask fem nøyt be ent gen (det) førstes adj <ordenstall> pos mask fem ub ent (en) første adj <ordenstall> pos nøyt ub ent (et) første adj <ordenstall> pos ub be fl (de) første adj <ordenstall> pos ub be fl gen (de) førstes adj <perf-part> mask fem nøyt be ent (den) fargelagte adj <perf-part> mask fem nøyt be ent gen (den) fargelagtes adj <perf-part> mask fem ub ent (en) fargelagt adj <perf-part> nøyt ub ent (et) fargelagt adj <perf-part> ub be fl (de) fargelagte adj <perf-part> ub be fl gen (de) fargelagtes adj <pres-part> mask fem nøyt ub be ent fl administrerende adj komp eldre adj komp gen eldres adj pos fem ub ent lita adj pos mask fem nøyt be ent lille adj pos mask fem nøyt be ent gen lilles adj pos mask fem ub ent stor adj pos mask ub ent liten adj pos nøyt ub ent lite adj pos ub be fl små adj pos ub be fl gen (de) gamles adj sup be minste adj sup ub minst adv ikke det be selve det dem <adj> fem ub ent anna det dem <adj> mask fem nøyt be ent (den/det) andre det dem <adj> mask fem nøyt be ent gen (den/det) andres det dem <adj> mask ub ent annen det dem <adj> nøyt ub ent annet det dem <adj> ub be fl (de) andre det dem <adj> ub be fl gen (de) andres det dem be <adj> neste det dem be <adj> gen (den) nestes det dem fem ent den det dem fem ent gen egen det forst <adj> nøyt ub ent eget det forst <adj> ub be fl (deres) egne det kvant 16.00 det kvant be <adj> eneste det kvant be ent (den) ene det kvant be ent gen (den) enes det kvant ent 1 det kvant fem ent hver (bok) det kvant fl fem det kvant fl gen (på) alles (lepper) det kvant mask ent en (aksjon) det kvant mask ent gen ens det kvant nøyt ent et (ansvar) det poss fem ent boka (si) det poss fl sine (lesere) det poss høflig fem ent Deres (form) det poss høflig fl Deres (bøker) det poss høflig mask ent Deres (fantasi) det poss høflig nøyt ent Deres (navn) det poss mask ent hans (opplevelse) det poss nøyt ent (navnet) sitt det sp fem ent hvilken (bok) det sp fl hvilke (kvalifikasjoner) det sp mask ent hvilken (feil) det sp nøyt ent hvilket (fly) fork adv @ADV etc. fork adv @ADV> ca. fork konj+adv+adj adv @ADV osv. fork prep m. fork prep @ADV pr. fork prep+adj adv @ADV mfl. fork prep+adj prep @ADV bl.a. fork prep+det+subst adv @ADV m.a.o. fork prep+prop adv @ADV f.Kr. fork prep+subst adv @ADV f.eks. fork pron+verb+verb adv @ADV dvs. fork subst art. fork subst @<SUBST jr. fork subst @TITTEL dr. fork subst appell adr. fork subst mask appell ill. fork subst nøyt appell ent fl ub be bnr. fork subst nøyt appell ent fl ub be @<SUBST AL fork subst prop AP inf-merke å interj ja konj og konj @KON & prep på prep @ADV bortefra pron ent ingenting pron pers 1 ent hum akk meg pron pers 1 ent hum nom jeg pron pers 1 fl hum akk oss pron pers 1 fl hum nom vi pron pers 2 ent hum akk deg pron pers 2 ent hum nom du pron pers 2 fl hum akk dere pron pers 2 fl hum nom dere pron pers 3 ent fem hum akk henne pron pers 3 ent fem hum nom hun pron pers 3 ent mask fem denne pron pers 3 ent mask hum akk ham pron pers 3 ent mask hum nom han pron pers 3 ent nøyt dette pron pers 3 fl disse pron pers 3 fl akk dem pron pers 3 fl høflig akk Dem pron pers 3 fl høflig nom De pron pers 3 fl nom de pron pers ent hum man pron refl ent/fl akk seg pron res fl hum hverandre pron sp hum hvem pron sp hva pron sp poss hum hvis sbu at subst % subst <dato> 7.8.97 subst <klokke> 15.10 subst @TITTEL kong subst appell fl ub (på) vegne subst appell ubøy behold subst appell ubøy gen beholds subst fem appell ent be tida subst fem appell ent be gen tidas subst fem appell ent ub tid subst fem appell ent ub gen tids subst fem appell fl be tidene subst fem appell fl be gen tidenes subst fem appell fl ub tider subst fem appell fl ub gen tiders subst fem appell ubøy (dårlig) råd subst fem prop Aud subst fem prop gen Auds subst fl ub (alle) mann subst gen prop Kristi subst mask appell ent be dagen subst mask appell ent be gen dagens subst mask appell ent ub dag subst mask appell ent ub gen dags subst mask appell fl be dagene subst mask appell fl be gen dagenes subst mask appell fl ub dager subst mask appell fl ub gen dagers subst mask appell ubøy april subst mask appell ubøy gen aprils subst mask prop Arne subst mask prop gen Arnes subst nøyt appell ent be landet subst nøyt appell ent be gen landets subst nøyt appell ent ub land subst nøyt appell ent ub gen lands subst nøyt appell fl be landa subst nøyt appell fl be gen landas subst nøyt appell fl ub land subst nøyt appell fl ub gen lands subst nøyt appell ubøy (få) lov subst nøyt appell ubøy gen lovs subst nøyt prop Dagbladet subst nøyt prop gen Dagbladets subst prop Hansen subst prop gen Hansens symb Au symb subst ha ukjent ord perfect verb imp reguler verb imp <s-verb> synes verb imp gen regulers verb inf regulere verb inf gen reguleres verb inf <s-verb> synes verb inf pres pass reguleres verb perf-part regulert verb perf-part <s-verb> synes verb perf-part gen regulerts verb pres regulerer verb pres <s-verb> synes verb pres gen regulerers verb pret regulerte verb pret <s-verb> syntes verb pret gen regulertes verb ubøy nåde
I de tilfellene der et ord blir stående igjen med flere ulike adjektivtagger etter disambiguering, har vi valgt å bruke et mer kompakt format der vi slår sammen de opprinnelige taggene. Ordet får da ordklassetaggen adj etterfulgt av alle deltagger som forekom i de opprinnelige taggene, i denne rekkefølgen: pos <perf-part> komp sup <ordenstall> <pres-part> <adv> mask fem nøyt ub be ent fl gen samset unorm. Hvis ordet også hadde en tagg for verb i perfektum partisipp, blir ordklassetaggen adj/verb_perf-part, med de samme deltaggene. For eksempel, hvis følgende tagger står igjen etter disambiguering:
"<ventet>" "vente" adj <perf-part> mask fem ub ent "vente" adj <perf-part> nøyt ub ent "vente" verb perf-partblir de gjort om til:
"<ventet>" "vente" adj/verb_perf-part <perf-part> mask fem nøyt ub ent
På samme måte blir determinativer og pronomen slått sammen dersom de ikke har blitt disambiguert. Ordet får da ordklassetaggen det/pron, og deltaggene blir lagt til i denne rekkefølgen: kvant forst dem <adj> <romertall> pers sp poss refl res 1 2 3 mask fem nøyt ub be ent fl hum høflig nom akk gen samset unorm. Eksempel:
"<de>" "de" det dem fl "de" pron pers 3 fl nomblir til
"<de>" "de" det/pron dem pers 3 fl nom
@<ADV | ADVERBIAL som modifiserer noe til venstre |
@<DET | DETERMINATIV som modifiserer noe til venstre |
@<P-UTFYLL | PREPOSISJONSUTFYLLING som modifiserer noe t.v. |
@<SBU | SUBJUNKSJON som modifiserer noe til venstre |
@<SBU-REL | SUBJUNKSJONEN SOM som modifiserer noe t.v. |
@<SUBST | SUBSTANTIV som modifiserer noe t.v. |
@ADJ> | ADJEKTIV som modifiserer noe til høyre |
@ADV | ADVERBIAL |
@ADV> | ADVERBIAL som modifiserer noe til høyre |
@APP | APPOSISJON |
@DET> | DETERMINATIV som modifiserer noe til høyre |
@FV | FINITT VERB |
@I-OBJ | INDIREKTE OBJEKT |
@INTERJ | INTERJEKSJON |
@IV | INFINITT VERBAL |
@KON | KONJUNKSJON |
@LØS-NP | NP uten syntaktisk funksjon |
@O-PRED | OBJEKTSPREDIKATIV |
@OBJ | OBJEKT |
@S-PRED | SUBJEKTSPREDIKATIV |
@SUBJ | SUBJEKT |
@SUBST> | SUBSTANTIV som modifiserer noe til høyre |
@TITTEL | TITTEL |
Taggerprosjektet, som administrativt ligger under Tekstlaboratoriet, involverer mange personer, institusjoner, finansieringskilder og grunnlagsmateriale. Her er en kort oversikt.
Personer som er involvert
Leder: Janne
Bondi Johannessen
Ansatte (pr. februar 1998): Kristin Hagen, Anders Nøklestad
Andre som har arbeidet eller arbeider på prosjektet i større og
mindre grad: Kristian Emil Kristoffersen, Arne Martinus Lindstad, Jan Tore
Lønning, Christian-Emil Ore, Diana Santos, Lars Jørgen Tvedt
Institusjoner som er involvert i arbeidet
Taggeren
kan enkelt sies å være oppdelt i tre deler:
1) Leksikalsk
database, 2) Multitagger, 3) Disambiguerende tagger
Den leksikalske databasen og Multitaggeren er resultatet av et samarbeid mellom
Tekstlaboratoriet og Dokumentasjonsprosjektet.
Den disambiguerende taggeren er Tekstlaboratoriets arbeid.
Institusjoner som er involvert i finansieringen
Taggerprosjektet, 1996-1999, er beregnet til seks årsverk når man
unntar grunnlagsmaterialet. Norges forskningsråd finansierer tre
årsverk, Dokumentasjonsprosjektet to, og Tekstlaboratoriet ett.
Grunnmateriale - forutsetninger for prosjektet
Bokmålsordboka
og Nynorskordboka: Seksjon for Leksikografi (INL, UiO)
IBM-ordliste
med grammatiske koder for bokmål og nynorsk
Programvare for disambigueringsdelen av taggeren: Lingsoft
Argumentstruktur for verb: NorKompLeks,
NTNU
|opp|
"<*lang>"
"lang"
adj pos mask fem ub ent
"lange" verb
imp <trans1>
"<tradisjon>"
"tradisjon" subst mask appell ent ub
"<$|>"
"$|" CLB
<OVERSKRIFT>
"<*i>"
"i"
prep
"<over>"
"over" prep
"<hundre>"
"hundre" det
kvant fl
"hundre" subst nøyt
appell ent ub
"hundre" subst
nøyt appell fl ub
"<år>"
"år" subst fem appell ent ub
"år" subst mask appell ent ub
"år" subst nøyt appell ent
ub
"år" subst nøyt appell
fl ub
"<har>"
"ha" verb pres
<trans6><auxp>
"<sportsfiskere>"
"sportsfisker" subst mask appell fl ub
"<og>"
"og" CLB konj
"og" adv
"og" konj
"<elveeiere>"
"elveeier" subst mask appell fl ub
"<prøvd>"
"prøve"
adj <perf-part>mask fem ub ent <trans1><trans3>
"prøve" adj
<perf-part>nøyt ub ent <trans1><trans3>
"prøve" verb perf-part
<trans1><trans3>
"<å>"
"å" inf-merke
"å" interj
"å" subst fem appell ent ub
"å" subst mask appell ent ub
"<hjelpe>"
"hjelpe" verb inf
<trans1>
"<laksen>"
"laks" subst mask appell ent be
"<til>"
"til" prep
"<å>"
"å" inf-merke
"å" interj
"å" subst fem appell ent ub
"å" subst mask appell ent ub
"<formere>"
"former" subst mask
appell fl ub
"formere" verb inf
<trans1><refl4>
"<seg>"
"seg" pron refl ent/fl akk
"sige" verb pret <intrans2>
"<i>"
"i" prep
"<norske>"
"norsk" adj pos mask
fem nøyt be ent
"norsk" adj pos
ub be fl
"norske" verb inf
<trans1>
"<elver>"
"elv" subst fem appell fl ub
"elv" subst mask appell fl ub
"<$.>"
"$." CLB <PUNKT>
"<*naturen>"
"natur" subst mask
appell ent be
"<er>"
"være" verb pres
<predik1><predik2><auxp>
"<nemlig>"
"nemlig" adv
"<knallhard>"
"knallhard" adj pos mask fem ub ent
"<mot>"
"mot" prep
"mot" subst nøyt appell ent ub
"mot" subst nøyt appell fl ub
"<lakseavkommet>"
"lakseavkom"
subst nøyt appell ent be samset
"<$->"
"$-" CLB <STREK>
"<bare>"
"bar" adj pos mask fem
nøyt be ent
"bar" adj pos ub be
fl
"bare" adv
"<noen>"
"noen" det kvant fem ent
"noen" det kvant fl
"noen" det kvant mask ent
"noen" pron pers 3 ent mask fem
"<få>"
"få" adj pos
ub be fl
"få" verb imp
"få" verb inf
"<prosent>"
"prosent" subst mask
appell ent ub
"prosent" subst mask
appell fl ub
"<av>"
"av"
prep
"<den>"
"den" det dem
fem ent
"den" det dem mask ent
"den" pron pers 3 ent mask fem
"<yngelen>"
"yngel" subst mask
appell ent be
"<som>"
"som"
prep
"som" sbu
"<klekkes>"
"klekke" verb inf
pres pass <trans1><part1>
"klekk" adj pos mask fem nøyt be ent
gen
"klekk" adj pos ub be fl gen
"klekke" verb inf
<trans1><part1>gen
"<naturlig>"
"naturlig" adj pos mask fem ub ent
"naturlig" adj pos nøyt ub ent
"<i>"
"i" prep
"<elvene>"
"elv" subst fem appell
fl be
"elv" subst mask appell fl be
"<overlever>"
"overleve"
verb pres <intrans2><trans5>
"overlevere" verb imp <trans1>
"<så>"
"se" verb pret
<trans1><trans2><trans3><trans4>
"så" CLB konj
"så" adv
"så" subst mask appell ent ub
"så" verb imp <trans1>
"så" verb inf <trans1>
"<lenge>"
"lenge" adj
<adv>pos
"<at>"
"at"
sbu
"<de>"
"de" det dem
fl
"de" pron pers 3 fl nom
"<begynner>"
"begynne" verb pres
<intrans1><trans1><trans3>
"begynner" subst mask appell ent ub
"<å>"
"å" inf-merke
"å" interj
"å" subst fem appell ent ub
"å" subst mask appell ent ub
"<ta>"
"ta" verb imp
<trans1><part1/av><part1/på>
"ta" verb inf
<trans1><part1/av><part1/på>
"<til>"
"til" prep
"<seg>"
"seg" pron refl ent/fl akk
"sige" verb pret <intrans2>
"<føde>"
"føde"
subst fem appell ent ub
"føde"
subst mask appell ent ub
"føde"
verb inf <intrans1><trans1>
"føde" verb inf <trans1>
"<$.>"
"$." CLB <PUNKT>
"<*og>"
"og" CLB konj
"og" adv
"og" konj
"<helt>"
"hel" adj pos nøyt ub ent
"hele" adj <perf-part>mask fem ub ent
<trans1>
"hele" adj
<perf-part>nøyt ub ent <trans1>
"hele" verb perf-part <trans1>
"helle" adj <perf-part>mask fem ub
ent <intrans2><adv6>
"helle" adj <perf-part>nøyt ub
ent <intrans2><adv6>
"helle" verb perf-part
<intrans2><adv6>
"helt"
subst mask appell ent ub
"<siden>"
"side" subst mask appell ent be
"siden" adv
"siden" sbu
"<de>"
"de" det dem fl
"de" pron pers 3 fl nom
"<første>"
"første"
adj <ordenstall>pos mask fem nøyt be ent
"første" adj <ordenstall>pos
mask fem ub ent
"første" adj
<ordenstall>pos nøyt ub ent
"første" adj <ordenstall>pos
ub be fl
"<utsettingsforsøkene>"
"utsettingsforsøk" subst nøyt
appell fl be samset
"<ved>"
"ved" prep
"ved" subst mask appell ent ub
"<*grefsen>"
"*grefsen" subst prop
"<gård>"
"gård" subst mask appell ent ub
"<på>"
"på" prep
"<slutten>"
"slutt" subst mask
appell ent be
"<av>"
"av"
prep
"<forrige>"
"forrige"
det dem be <adj>
"<århundre>"
"århundre" subst nøyt appell
ent ub
"<$,>"
"$," CLB
<KOMMA>
"$," <KOMMA>
"<har>"
"ha" verb pres
<trans6><auxp>
"<tanken>"
"tank" subst mask appell ent be
"tanke" subst mask appell ent be
"<vært>"
"være" adj
<perf-part>nøyt ub ent
<predik1><predik2><auxp>
"være" verb perf-part
<predik1><predik2><auxp>
"<at>"
"at" sbu
"<kunstig>"
"kunstig" adj pos mask fem ub ent
"kunstig" adj pos nøyt ub ent
"<utklekking>"
"utklekking" subst
fem appell ent ub
"utklekking" subst
mask appell ent ub
"<og>"
"og" CLB konj
"og" adv
"og" konj
"<utsetting>"
"utsetting" subst fem appell ent ub
"utsetting" subst mask appell ent ub
"<av>"
"av" prep
"<yngel>"
"yngel" subst mask
appell ent ub
"yngel" subst mask
appell fl ub
"<ville>"
"vill" adj pos mask fem nøyt be
ent
"vill" adj pos ub be fl
"ville" subst fem appell ent ub
"ville" subst mask appell ent ub
"ville" verb inf <auxm>
"ville" verb pret <auxm>
"<føre>"
"før" adj
pos mask fem nøyt be ent
"før" adj pos ub be fl
"føre" prep
"føre" subst nøyt appell ent
ub
"føre" verb inf
<trans1><refl4>
"<til>"
"til" prep
"<mer>"
"mye" adj komp
"<yngel>"
"yngel" subst mask appell ent ub
"yngel" subst mask appell fl ub
"<$,>"
"$," CLB <KOMMA>
"$," <KOMMA>
"<med>"
"med" prep
"<større>"
"stor" adj komp
"<evne>"
"evne" subst fem appell ent ub
"evne" subst mask appell ent ub
"evne" verb inf <trans1>
"<til>"
"til" prep
"<å>"
"å" inf-merke
"å" interj
"å" subst fem appell ent ub
"å" subst mask appell ent ub
"<overleve>"
"overleve" verb inf
<intrans2><trans5>
"<$,>"
"$," CLB <KOMMA>
"$," <KOMMA>
"<og>"
"og" CLB konj
"og" adv
"og" konj
"<dermed>"
"dermed" adv
"<mer>"
"mye" adj komp
"<laks>"
 p; "mye" adj pos ub be fl
"<av>"
"av" prep
"<det>"
"det" det dem nøyt ent
"det" pron pers 3 ent nøyt
"<arbeidet>"
"arbeid" subst
nøyt appell ent be
"arbeide"
adj <perf-part>mask fem ub ent <intrans1><trans1>
"arbeide" adj <perf-part>nøyt
ub ent <intrans1><trans1>
"arbeide" subst nøyt appell ent be
"arbeide" verb perf-part
<intrans1><trans1>
"arbeide" verb pret
<intrans1><trans1>
"<som>"
"som" prep
"som" sbu
"<er>"
"være" verb pres
<predik1><predik2><auxp>
"<utført>"
"utføre" adj <perf-part>mask
fem ub ent <trans1>
"utføre" adj
<perf-part>nøyt ub ent <trans1>
"utføre" verb perf-part
<trans1>
"<siden>"
"side" subst mask appell ent be
"siden" adv
"siden" sbu
"<da>"
"da" adv
"da" sbu
"<$,>"
"$," CLB <KOMMA>
"$," <KOMMA>
"<både>"
"både" konj
<adv>
"<av>"
"av" prep
"<profesjonelle>"
"profesjonell" adj pos mask fem nøyt
be ent
"profesjonell" adj pos ub be fl
"<og>"
"og" CLB konj
"og" adv
"og" konj
"<titusener>"
"titusen" subst nøyt appell fl ub
"<frivillige>"
"frivillig"
adj pos mask fem nøyt be ent
"frivillig" adj pos ub be fl
"<ildsjeler>"
"ildsjel" subst fem
appell fl ub
"ildsjel" subst mask
appell fl ub
"<på>"
"på" prep
"<dugnad>"
"dugnad" subst mask appell ent ub
"<$,>"
"$," CLB <KOMMA>
"$," <KOMMA>
"<har>"
"ha" verb pres
<trans6><auxp>
"<imidlertid>"
"imidlertid" adv
"<vært>"
"være" adj
<perf-part>nøyt ub ent
<predik1><predik2><auxp>
"være" verb perf-part
<predik1><predik2><auxp>
"<bortkastet>"
"bortkaste" adj <perf-part>mask fem
ub ent
"bortkaste" adj
<perf-part>nøyt ub ent
"bortkaste" verb perf-part
"bortkaste" verb pret
"bortkastet" adj pos mask fem ub ent
"bortkastet" adj pos nøyt ub ent
"<$.>"
"$." CLB <PUNKT>
"<*ja>"
"ja" interj
"ja" subst nøyt appell ent ub
"ja" subst nøyt appell fl ub
"<$,>"
"$," CLB <KOMMA>
"$," <KOMMA>
"<kanskje>"
"kanskje" adv
"<rett og slett>"
"rett og slett"
adv
"<skadelig>"
"skadelig"
adj pos mask fem ub ent
"skadelig" adj
pos nøyt ub ent
"<$.>"
"$." CLB <PUNKT>
"<$->"
"$-" CLB <STREK>
"<*vi>"
"vi" pron pers 1 fl hum
nom
"vie" verb imp <trans1>
"<har>"
"ha" verb pres
<trans6><auxp>
"<fått>"
"få" adj <perf-part>mask fem ub
ent
"få" adj
<perf-part>nøyt ub ent
"få" verb perf-part
"<større>"
"stor" adj komp
"<kunnskap>"
"kunnskap"
subst mask appell ent ub
"<om>"
"om" prep
"om" sbu
"<laks>"
"laks" subst mask appell ent ub
"<og>"
"og" CLB konj
"og" adv
"og" konj
"<laksefisk>"
"laksefisk" subst mask appell ent ub
"<de>"
"de" det dem fl
"de" pron pers 3 fl nom
"<siste>"
"sist" adj pos mask fem
nøyt be ent
"sist" adj pos ub be
fl
"<10-12>"
"10-12" det kvant fl
"10-12" subst
<dato>
"<årene>"
"år" subst fem appell fl be
"år" subst mask appell fl be
"år" subst nøyt appell fl be
"åre" subst fem appell fl be
"åre" subst mask appell fl be
"<$,>"
"$," CLB
<KOMMA>
"$," <KOMMA>
"<sier>"
"si" verb pres
<trans1><trans2>
"<*ove>"
"*ove" subst mask prop
"<*hokstad>"
"*hokstad" subst prop
"<$.>"
"$." CLB <PUNKT>
"<*han>"
"han" pron pers 3 ent
mask hum akk
"han" pron pers 3 ent mask
hum nom
"<sikter>"
"sikt"
subst fem appell fl ub
"sikt" subst
mask appell fl ub
"sikte" subst
nøyt appell fl ub
"sikte" verb
pres <part1/inn>
"sikte" verb
pres <trans1>
"<da>"
"da" adv
"da" sbu
"<i>"
"i" prep
"<første>"
"første" adj <ordenstall>pos
mask fem nøyt be ent
"første" adj <ordenstall>pos
mask fem ub ent
"første" adj
<ordenstall>pos nøyt ub ent
"første" adj <ordenstall>pos
ub be fl
"<omgang>"
"omgang"
subst mask appell ent ub
"<til>"
"til" prep
"<kunnskapen>"
"kunnskap" subst mask appell ent be
"<om>"
"om" prep
"om" sbu
"<at>"
"at" sbu
"<hver>"
"hver" det kvant fem ent
"hver" det kvant mask ent
"<elv>"
"elv" subst fem appell
ent ub
"elv" subst mask appell ent ub
"<har>"
"ha" verb pres
<trans6><auxp>
"<sin>"
"sin" fork subst
"sin" det poss mask ent
"<egen>"
"egen" adj pos mask fem
ub ent
"egen" det forst <adj>fem
ub ent
"egen" det forst <adj>mask
ub ent
"<laksestamme>"
"laksestamme" subst mask appell ent ub
"<$.>"
"$." CLB <PUNKT>
"<*for>"
"fare" verb pret
<present2><intrans1>
"for"
CLB konj
"for" adv
"for" prep
"fore" verb imp
"<sjøl>"
"sjøl" det
forst <adj>
"<om>"
"om"
prep
"om" sbu
"<sørlandspresten>"
"sørlandsprest" subst mask appell
ent be samset
"<*peder>"
"*peder" subst mask prop
"<*clausson>"
"*clausson" subst prop
"<*friis>"
"*friis" subst prop
"*frii" subst prop gen
"<allerede>"
"allerede" adv
"<i>"
"i" prep
"<1599>"
"1599" det
kvant fl
"<hadde>"
"ha" verb
pret <trans6><auxp>
"<observert>"
"observere" adj <perf-part>mask fem
ub ent <trans1><trans4>
"observere" adj
<perf-part>nøyt ub ent <trans1><trans4>
"observere" verb perf-part
<trans1><trans4>
"<og>"
"og" CLB konj
"og" adv
"og" konj
"<skrevet>"
"skrev" subst nøyt appell ent be
"skreve" adj <perf-part>mask fem ub
ent <intrans1>
"skreve" adj
<perf-part>nøyt ub ent <intrans1>
"skreve" verb perf-part
<intrans1>
"skreve" verb pret
<intrans1>
"skrive" adj
<perf-part>mask fem ub ent <intrans1><trans1>
"skrive" adj <perf-part>nøyt
ub ent <intrans1><trans1>
"skrive" verb perf-part
<intrans1><trans1>
"<om>"
"om" prep
"om" sbu
"<dette>"
"dette" det dem nøyt ent
"dette" pron pers 3 ent nøyt
"dette" verb inf
<intrans2><present3>
"<fenomenet>"
"fenomen" subst nøyt appell ent be
"<$,>"
"$," CLB
<KOMMA>
"$," <KOMMA>
"<ble>"
"bli" verb pret
<predik1><predik2><intrans2><adv5><auxp>
"<alt>"
"ale" adj
<perf-part>mask fem ub ent <part1/opp>
"ale" adj <perf-part>nøyt ub
ent <part1/opp>
"ale" verb
perf-part <part1/opp>
"all" det
kvant nøyt ent
"alt" adv
"alt" subst mask appell ent ub
"alt" subst nøyt appell ent ub
"alt" subst nøyt appell fl ub
"<snakk>"
"snakk" subst mask
appell ent ub
"snakk" subst nøyt
appell ent ub
"snakk" subst
nøyt appell fl ub
"snakke" verb
imp <intrans1>
"<om>"
"om" prep
"om" sbu
"<stedegen>"
"stedegen" adj pos mask fem ub ent
"<stamme>"
"stam" adj pos mask
fem nøyt be ent
"stam" adj pos
ub be fl
"stamme" subst mask appell ent
ub
"stamme" verb inf
"stamme" verb inf <intrans1>
"<totalt>"
"total" adj pos
nøyt ub ent
"<neglisjert>"
"neglisjere" adj <perf-part>mask fem
ub ent <trans1>
"neglisjere" adj
<perf-part>nøyt ub ent <trans1>
"neglisjere" verb perf-part
<trans1>
"<i>"
"i" prep
"<*norge>"
"*norge" subst prop
"<helt>"
"hel" adj pos nøyt ub ent
"hele" adj <perf-part>mask fem ub ent
<trans1>
"hele" adj
<perf-part>nøyt ub ent <trans1>
"hele" verb perf-part <trans1>
"helle" adj <perf-part>mask fem ub
ent <intrans2><adv6>
"helle" adj <perf-part>nøyt ub
ent <intrans2><adv6>
"helle" verb perf-part
<intrans2><adv6>
"helt"
subst mask appell ent ub
"<til>"
"til" prep
"<innføringen>"
"innføring" subst mask appell ent be
"<av>"
"av" prep
"<nye>"
"ny" adj pos mask fem
nøyt be ent
"ny" adj pos ub be
fl
"nye" verb inf
<part1/opp>
"<utsettingsforskrifter>"
"utsettingsforskrift" subst mask appell fl
ub samset
"utsettingsforskrift" subst
fem appell fl ub samset
"<i>"
"i" prep
"<1985>"
"1985" det
kvant fl
"<$.>"
"$." CLB
<PUNKT>
|opp|
Resultatet nedenfor er foreløpig, pr. 06.02.98. Arbeid med forbedring pågår.
En tagget + disambiguert eksempeltekst
Versjon pr.
6/4-98
."<*lang>" D:451
"lang" adj pos mask fem ub ent
"<tradisjon>"
"tradisjon" subst
mask appell ent ub
"<$|>"
"$|" CLB <OVERSKRIFT>
"<*i>"
"i" prep
"<over>"
"over" prep
"<hundre>" D:545
"hundre" det
kvant fl
"<år>" D:257
"år" subst nøyt appell fl ub
"<har>"
"ha" verb pres
<trans6> <auxp>
"<sportsfiskere>"
"sportsfisker" subst mask appell fl ub
"<og>" D:57, 41
"og" konj
"<elveeiere>"
"elveeier" subst
mask appell fl ub
"<prøvd>" D:290
"prøve" verb perf-part
<trans1> <trans3>
"<å>" D:592
"å" inf-merke
"<hjelpe>"
"hjelpe" verb inf
<trans1>
"<laksen>"
"laks" subst mask appell ent be
"<til>"
"til" prep
"<å>" D:592
"å"
inf-merke
"<formere>" D:228
"formere" verb inf <trans1>
<refl4>
"<seg>" D:523
"seg" pron refl ent/fl akk
"<i>"
"i" prep
"<norske>" D:220, 243
"norsk" adj
pos ub be fl
"<elver>"
"elv"
subst fem appell fl ub
"elv" subst
mask appell fl ub
"<$.>"
"$." CLB <PUNKT>
"<*naturen>"
"natur" subst mask
appell ent be
"<er>"
"være" verb pres <predik1>
<predik2> <auxp>
"<nemlig>"
"nemlig" adv
"<knallhard>"
"knallhard" adj pos mask fem ub ent
"<mot>" D:99
"mot" prep
"<lakseavkommet>"
"lakseavkom"
subst nøyt appell ent be samset
"<$->"
"$-" CLB <STREK>
"<bare>"
"bar" adj pos mask fem
nøyt be ent
"bar" adj pos ub be
fl
"bare" adv
"<noen>"
D:346, 191
"noen" det kvant fl
"<få>" D:213, 14
"få"
adj pos ub be fl
"<prosent>" D:260
"prosent" subst mask appell fl ub
"<av>"
"av" prep
"<den>" D:160
"den" det dem mask
ent
"<yngelen>"
"yngel"
subst mask appell ent be
"<som>" D:96
"som" sbu
"<klekkes>" D:393,
306
"klekke" verb inf pres pass
<trans1> <part1>
"<naturlig>"
"naturlig" adj pos mask fem ub ent
"naturlig" adj pos nøyt ub ent
"<i>"
"i" prep
"<elvene>"
"elv" subst fem appell
fl be
"elv" subst mask appell fl be
"<overlever>" D:14
"overleve" verb pres <intrans2>
<trans5>
"<så>" D:319, 219, 87, 502
"så" adv
"<lenge>"
"lenge" adj <adv> pos
"<at>"
"at" sbu
"<de>"
D:183
"de" pron pers 3 fl hum nom
"<begynner>" D:309
"begynne" verb
pres <intrans1> <trans1> <trans3>
"<å>"
D:592
"å" inf-merke
"<ta>" D:228
"ta" verb inf
<trans1> <part1/av> <part1/på>
"<til>"
"til" prep
"<seg>" D:319
"seg" pron refl ent/fl akk
"<føde>" D:214
"føde" subst fem appell ent ub
"føde" subst mask appell ent ub
"<$.>"
"$." CLB <PUNKT>
"<*og>" D:57, 43
"og" CLB
konj
"<helt>" D:486, 278
"hel" adj pos nøyt ub ent
"hele" adj <perf-part> mask fem ub
ent <trans1>
"helle" adj
<perf-part> mask fem ub ent <intrans2> <adv6>
"helt" subst mask appell ent ub
"<siden>" D:514
"siden" adv
"siden" sbu
"<de>" D:190
"de" det dem fl
"<første>" D:488, 246
"første" adj <ordenstall> pos
ub be fl
"<utsettingsforsøkene>"
"utsettingsforsøk" subst nøyt
appell fl be samset
"<ved>" D:99
"ved" prep
"<*grefsen>"
"*grefsen" subst prop
"<gård>"
"gård" subst mask appell ent ub
"<på>"
"på" prep
"<slutten>"
"slutt" subst mask
appell ent be
"<av>"
"av"
prep
"<forrige>"
"forrige"
det dem be <adj>
"<århundre>"
"århundre" subst nøyt appell
ent ub
"<$,>" D:30
"$,"
<KOMMA>
"<har>"
"ha"
verb pres <trans6> <auxp>
"<tanken>"
"tank" subst mask appell ent be
"tanke" subst mask appell ent be
"<vært>" D:290
"være"
verb perf-part <predik1> <predik2> <auxp>
"<at>"
"at" sbu
"<kunstig>" D:451
"kunstig" adj
pos mask fem ub ent
"<utklekking>"
"utklekking" subst fem appell ent ub
"utklekking" subst mask appell ent ub
"<og>" D:57, 40
"og" konj
"<utsetting>"
"utsetting" subst
fem appell ent ub
"utsetting" subst
mask appell ent ub
"<av>"
"av" prep
"<yngel>"
"yngel" subst mask appell ent ub
"yngel" subst mask appell fl ub
"<ville>" D:212, 336
"ville" verb
pret <auxm>
"<føre>" D:227
"føre" verb inf <trans1>
<refl4>
"<til>"
"til"
prep
"<mer>"
"mye" adj komp
"<yngel>"
"yngel" subst mask
appell ent ub
"yngel" subst mask
appell fl ub
"<$,>" D:31
"$," <KOMMA>
"<med>"
"med" prep
"<større>"
"stor" adj komp
"<evne>"
D:116
"evne" subst fem appell ent ub
"evne" subst mask appell ent ub
"<til>"
"til" prep
"<å>" D:592
"å"
inf-merke
"<overleve>"
"overleve" verb inf <intrans2>
<trans5>
"<$,>" D:31
"$," <KOMMA>
"<og>" D:57,
41
"og" konj
"<dermed>"
"dermed" adv
"<mer>"
"mye" adj komp
"<laks>"
"laks" subst mask appell ent ub
"<i>"
"i" prep
"<elva>"
"elv" subst fem appell
ent be
"<$.>"
"$." CLB
<PUNKT>
"<*mye>"
"mye"
adj pos mask fem nøyt be ent
"mye" adj pos mask fem ub ent
"mye" adj pos nøyt ub ent
"mye" adj pos ub be fl
"<av>"
"av" prep
"<det>" D:204 WARNING!
-feature removed
"det" pron pers 3 ent
nøyt ikke-hum
"<arbeidet>" D:272, 314<1> WARNING!
-feature removed
"arbeide" verb pret
<intrans1> <trans1>
"<som>" D:96
"som" sbu
"<er>"
"være" verb pres <predik1>
<predik2> <auxp>
"<utført>" D:288
"utføre" verb perf-part
<trans1>
"<siden>" D:514, 92
"siden" adv
"<da>" D:92
"da" adv
"<$,>" D:31
"$," <KOMMA>
"<både>"
"både" konj
<adv>
"<av>"
"av" prep
"<profesjonelle>" D:244
"profesjonell" adj pos ub be fl
"<og>" D:57, 41
"og" konj
"<titusener>"
"titusen" subst
nøyt appell fl ub
"<frivillige>" D:362
"frivillig" adj pos ub be fl
"<ildsjeler>"
"ildsjel" subst fem
appell fl ub
"ildsjel" subst mask
appell fl ub
"<på>"
"på" prep
"<dugnad>"
"dugnad" subst mask appell ent ub
"<$,>" D:22<1>
"$," CLB
<KOMMA>
"<har>"
"ha"
verb pres <trans6> <auxp>
"<imidlertid>"
"imidlertid" adv
"<vært>"
D:288
&nbMMA>
"<kanskje>"
"kanskje" adv
"<rett og slett>"
"rett og slett"
adv
"<skadelig>"
"skadelig"
adj pos mask fem ub ent
"skadelig" adj
pos nøyt ub ent
"<$.>"
"$." CLB <PUNKT>
"<$->"
"$-" CLB <STREK>
"<*vi>" D:204
"vi" pron pers
1 fl hum nom
"<har>"
"ha"
verb pres <trans6> <auxp>
"<fått>" D:290
"få" verb perf-part
"<større>"
"stor" adj komp
"<kunnskap>"
"kunnskap"
subst mask appell ent ub
"<om>" D:101
"om" prep
"<laks>"
"laks" subst mask appell ent ub
"<og>" D:57, 37" konj
"<laksefisk>"
"laksefisk" subst mask appell ent ub
"<de>" D:189
"de" det dem fl
"<siste>" D:233
"sist" adj pos ub
be fl
"<10-12>" D:191
"10-12" det kvant fl
"<årene>"
"år" subst
fem appell fl be
"år" subst mask
appell fl be
"år" subst
nøyt appell fl be
"åre"
subst fem appell fl be
"åre"
subst mask appell fl be
"<$,>" D:22<1>
"$," CLB <KOMMA>
"<sier>"
"si" verb pres
<trans1> <trans2>
"<*ove>"
"*ove" subst mask prop
"<*hokstad>"
"*hokstad" subst prop
"<$.>"
"$." CLB <PUNKT>
"<*han>"
D:267
"han" pron pers 3 ent mask hum
nom
"<sikter>" D:309
"sikte"
verb pres <part1/inn>
"sikte"
verb pres <trans1>
"<da>" D:92
"da" adv
"<i>"
"i" prep
"<første>"
D:451
"første" adj
<ordenstall> pos mask fem ub ent
"<omgang>"
"omgang" subst mask appell ent ub
"<til>"
"til" prep
"<kunnskapen>"
"kunnskap" subst
mask appell ent be
"<om>" D:527
"om" prep
"<at>"
"at" sbu
"<hver>"
"hver" det kvant fem ent
"hver" det kvant mask ent
"<elv>"
"elv" subst fem appell
ent ub
"elv" subst mask appell ent ub
"<har>"
"ha" verb pres
<trans6> <auxp>
"<sin>" D:395
"sin" det poss mask ent
"<egen>"
D:162
"egen" det forst <adj> mask
ub ent
"<laksestamme>"
"laksestamme" subst mask appell ent ub
"<$.>"
"$." CLB <PUNKT>
"<*for>" D:563, 562, 566 WARNING! -feature removed
"for" prep
"<sjøl>"
"sjøl" det forst <adj>
"<om>" D:524
"om" sbu
"<sørlandspresten>"
"sørlandsprest" subst mask appell
ent be samset
"<*peder>"
"*peder" subst mask prop
"<*clausson>"
"*clausson" subst prop
"<*friis>" D:391
"*friis" subst prop
"<allerede>"
"allerede" adv
"<i>"
"i" prep
"<1599>"
"1599" det
kvant fl
"<hadde>"
"ha" verb
pret <trans6> <auxp>
"<observert>" D:290
"observere" verb perf-part <trans1>
<trans4>
"<og>" D:57, 32
"og" konj
"<skrevet>" D:319,
282
"skreve" verb perf-part
<intrans1>
"skrive" verb
perf-part <intrans1> <trans1>
"<om>" D:101
"om" prep
"<dette>" D:220,
136
"dette" det dem nøyt ent
"<fenomenet>"
"fenomen"
subst nøyt appell ent be
"<$,>" D:22<1>
"$," CLB <KOMMA>
"<ble>"
"bli" verb pret
<predik1> <predik2> <intrans2> <adv5> <auxp>
"<alt>" D:586, 587, 588, 348
"all" det kvant nøyt ent
"<snakk>" D:388
"snakk" subst
nøyt appell ent ub
"<om>" D:101
"om" prep
"<stedegen>"
"stedegen" adj pos mask fem ub ent
"<stamme>" D:231, 220, 116
"stamme" subst mask appell ent ub
"<totalt>"
"total" adj pos
nøyt ub ent
"<neglisjert>" D:290
"neglisjere" verb perf-part <trans1>
"<i>"
"i" prep
"<*norge>"
"*norge" subst prop
"<helt>" D:486, 278
"hel" adj pos nøyt ub ent
"hele" adj <perf-part> mask fem ub
ent <trans1>
"helle" adj
<perf-part> mask fem ub ent <intrans2> <adv6>
"helt" subst mask appell ent ub
"<til>"
"til" prep
"<innføringen>"
"innføring" subst mask appell ent be
"<av>"
"av" prep
"<nye>" D:220, 243
"ny" adj pos
ub be fl
"<utsettingsforskrifter>"
"utsettingsforskrift" subst mask appell fl
ub samset
"utsettingsforskrift" subst
fem appell fl ub samset
"<i>"
"i" prep
"<1985>"
"1985" det
kvant fl
"<$.>"
"$." CLB
<PUNKT>
|opp|
"<*lang>" ----------------@ADJ>
"<tradisjon>"
----------------@SUBJ @OBJ @LØS-NP
"<$|>"
"<*i>"
------------------------@ADV
"<over>" ----------------@ADV
"<hundre>" ----------------@DET>
"<år>"
------------------------@<P-UTFYLL
"<har>"
------------------------@FV
"<sportsfiskere>" --------@SUBJ
"<og>" ------------------------@KON
"<elveeiere>"
----------------@SUBJ @OBJ @I-OBJ
"<prøvd>"
----------------@IV
"<å>" ------------------------@OBJ
"<hjelpe>" ----------------@IV
"<laksen>"
----------------@OBJ
"<til>" ------------------------@ADV
"<å>" ------------------------@<P-UTFYLL
"<formere>"
----------------@IV
"<seg>" ------------------------@OBJ
"<i>" ------------------------@ADV
"<norske>"
----------------@ADJ>
"<elver>" ----------------@<P-UTFYLL
"<$.>"
"<*naturen>" ----------------@SUBJ
"<er>"
------------------------@FV
"<nemlig>" ----------------@ADV
"<knallhard>" ----------------@S-PRED
"<mot>"
------------------------@ADV
"<lakseavkommet>"
--------@<P-UTFYLL
"<$->"
"<bare>"
----------------@ADV
"<noen>" ----------------@DET>
"<få>" ------------------------@ADJ>
"<prosent>"
----------------@SUBJ @OBJ
"<av>" ------------------------@ADV
"<den>" ------------------------@DET>
"<yngelen>"
----------------@<P-UTFYLL
"<som>"
------------------------@<SBU-REL
"<klekkes>"
----------------@FV
"<naturlig>" ----------------@S-PRED @O-PRED @ADV
"<i>" ------------------------@ADV
"<elvene>"
----------------@<P-UTFYLL
"<overlever>" ----------------@FV
"<så>" ------------------------@ADV>
"<lenge>"
----------------@ADV
"<at>" ------------------------@SUBJ @OBJ
"<de>" ------------------------@SUBJ
"<begynner>"
----------------@FV
"<å>" ------------------------@OBJ
"<ta>" ------------------------@IV
"<til>"
------------------------@ADV
"<seg>"
------------------------@<P-UTFYLL
"<føde>"
----------------@OBJ @I-OBJ
"<$.>"
"<*og>"
------------------------@KON
"<helt>" ----------------@ADV>
"<siden>" ----------------@ADV
"<de>"
------------------------@DET>
"<første>"
----------------@ADJ>
"<utsettingsforsøkene>"
--------@S-PRED
"<ved>" ------------------------@ADV
"<*grefsen>" ----------------@SUBST>
"<gård>"
----------------@<P-UTFYLL
"<på>"
------------------------@ADV
"<slutten>"
----------------@<P-UTFYLL
"<av>" ------------------------@ADV
"<forrige>" ----------------@DET>
"<århundre>"
----------------@<P-UTFYLL
"<$,>"
"<har>"
------------------------@FV
"<tanken>" ----------------@SUBJ
"<vært>" ----------------@IV
"<at>"
------------------------@OBJ
"<kunstig>" ----------------@ADJ>
"<utklekking>" ----------------@SUBJ @OBJ @I-OBJ
"<og>"
------------------------@KON
"<utsetting>" ----------------@SUBJ
"<av>" ------------------------@ADV
"<yngel>"
----------------@<P-UTFYLL
"<ville>" ----------------@FV
"<føre>" ----------------@IV
"<til>"
------------------------@ADV
"<mer>"
------------------------@ADJ>
"<yngel>"
----------------@<P-UTFYLL
"<$,>"
"<med>"
------------------------@ADV
"<større>"
----------------@ADJ>
"<evne>" ----------------@<P-UTFYLL
"<til>" ------------------------@ADV
"<å>"
------------------------@<P-UTFYLL
"<overleve>"
----------------@IV
"<$,>"
"<og>"
------------------------@KON
"<dermed>" ----------------@ADV
"<mer>" ------------------------@ADJ>
"<laks>"
----------------@SUBJ @OBJ @I-OBJ @APP
"<i>"
------------------------@ADV
"<elva>"
----------------@<P-UTFYLL
"<$.>"
"<*mye>"
----------------@S-PRED @O-PRED
"<av>"
------------------------@ADV
"<det>"
"<arbeidet>"
"<som>" ------------------------@<SBU-REL
"<er>"
------------------------@FV
"<utført>" ----------------@IV
"<siden>" ----------------@ADV
"<da>"
------------------------@ADV
"<$,>"
"<både>"
----------------@ADV
"<av>" ------------------------@ADV
"<profesjonelle>" --------@ADJ>
"<og>"
------------------------@KON
"<titusener>"
----------------@<P-UTFYLL
"<frivillige>"
----------------@ADJ>
"<ildsjeler>" ----------------@SUBJ @OBJ
@S-PRED
"<på>" ------------------------@ADV
"<dugnad>" ----------------@<P-UTFYLL
"<$,>"
"<har>" ------------------------@FV
"<imidlertid>"
----------------@ADV
"<vært>" ----------------@IV
"<bortkastet>" ----------------@IV
"<$.>"
"<*ja>"
------------------------@INTERJ
"<$,>"
"<kanskje>"
----------------@ADV
"<rett og slett>" --------@ADV
"<skadelig>" ----------------@S-PRED @O-PRED @APP @ADV
"<$.>"
"<$->"
"<*vi>" ------------------------@SUBJ
"<har>" ------------------------@FV
"<fått>"
----------------@IV
"<større>" ----------------@ADJ>
"<kunnskap>" ----------------@OBJ @I-OBJ
"<om>"
------------------------@ADV
"<laks>"
----------------@<P-UTFYLL
"<og>" ------------------------@KON
"<laksefisk>" ----------------@<P-UTFYLL
"<de>"
------------------------@DET>
"<siste>" ----------------@SUBJ @OBJ
@S-PRED @O-PRED
"<10-12>" ----------------@DET>
"<årene>" ----------------@SUBJ @OBJ @I-OBJ
"<$,>"
"<sier>" ----------------@FV
"<*ove>" ----------------@SUBJ
@OBJ @I-OBJ @SUBST>
"<*hokstad>" ----------------@SUBJ @OBJ
@I-OBJ
"<$.>"
"<*han>" ----------------@SUBJ
"<sikter>" ----------------@FV
"<da>"
------------------------@ADV
"<i>" ------------------------@ADV
"<første>" ----------------@ADJ>
"<omgang>"
----------------@<P-UTFYLL
"<til>"
------------------------@ADV
"<kunnskapen>"
----------------@<P-UTFYLL
"<om>" ------------------------@ADV
"<at>" ------------------------@<P-UTFYLL
"<hver>"
----------------@DET>
"<elv>" ------------------------@SUBJ
"<har>" ------------------------@FV
"<sin>"
------------------------@DET>
"<egen>"
----------------@DET>
"<laksestamme>" ----------------@OBJ
"<$.>"
"<*for>"
"<sjøl>"
----------------@<DET
"<om>" ------------------------@ADV @SUBJ
@OBJ
"<sørlandspresten>" --------@SUBJ
"<*peder>"
----------------@SUBST>
"<*clausson>"
----------------@SUBST>
"<*friis>" ----------------@SUBJ
"<allerede>" ----------------@ADV
"<i>"
------------------------@ADV
"<1599>" ----------------@DET>
"<hadde>" ----------------@FV
"<observert>"
----------------@IV
"<og>" ------------------------@KON
"<skrevet>" ----------------@IV
"<om>"
------------------------@ADV
"<dette>" ----------------@DET>
"<fenomenet>" ----------------@<P-UTFYLL
"<$,>"
"<ble>" ------------------------@FV
"<alt>"
------------------------@DET>
"<snakk>" ----------------@SUBJ
@S-PRED
"<om>" ------------------------@ADV
"<stedegen>"
----------------@ADJ>
"<stamme>" ----------------@<P-UTFYLL
"<totalt>" ----------------@S-PRED @O-PRED @ADV
"<neglisjert>"
----------------@IV
"<i>" ------------------------@ADV
"<*norge>" ----------------@<P-UTFYLL
"<helt>"
----------------@S-PRED @O-PRED @ADV
"<til>"
------------------------@ADV
"<innføringen>"
----------------@<P-UTFYLL
"<av>"
------------------------@ADV
"<nye>"
------------------------@ADJ>
"<utsettingsforskrifter>"
@<P-UTFYLL
"<i>" ------------------------@ADV
"<1985>"
----------------@DET>
"<$.>"
|opp|
Johannessen, Janne Bondi. 1998. Tagging and the case
of pronouns. Computers and the Humanities 32: 1-38.
Johannessen, Janne Bondi og Hauglin, Helge. 1998. An analysis of
compounds. Proceedings from XVI Scandinavian Conference of Linguistics.
Universitetet i Åbo, Finland, 14.-16. november 1996.
Hagen, Kristin, Johannessen, Janne Bondi and Kristoffersen, Kristian
Emil. 1997. Problemer ved bruk av andres lister til taggerformål.
Foredrag på Møter om norsk språk 7, Universitetet i
Trondheim, 20.-22. november.
Hagen, Kristin and Johannessen, Janne Bondi. 1998. Disambiguering
uten syntaks. I Faarlund, Mæhlum og Nordgård (red.): MONS 7.
Utvalde artiklar frå det 7. Møtet Om Norsk Språk i Trondheim
1997. Oslo: Novus Forlag.
Hagen, Kristin, Johannessen, Janne Bondi and Nøklestad,
Anders. 2000. A Constraint-Based tagger for Norwegian. Foredrag på XVI
Scandinavian Conference of Linguistics. Til trykking i Odense Working Papers
in Language and Communication.
|opp|