En grammatisk tagger for norsk (bokmål)

(Tekstlaboratoriet, 1998)

Av Janne Bondi Johannessen

 

Innhold
1. Generelt om Taggerprosjektet
    1.1 Hva er en automatisk tagger?
    1.2 Hvem har behov for en tagger?
2. Tilgang, bruk o.a.
3. Taggerens enkelte deler (med korte eksempler):
    3.1 Preprosessor og morfosyntaktisk multitagger
        3.1.1 Preprosessering
        3.1.2 Multitagging
    3.2 Morfosyntaktisk disambiguerende tagger
    3.3 Syntaktisk disambiguerende tagger
4. Morfosyntaktisk taggsett
5. Syntaktisk taggsett (syntaktiske funksjoner)
6. Medarbeidere, samarbeidspartnere, finans
7. Lengre eksempel fra multitaggeren
8. Lengre eksempel på morfosyntaktisk tagger
9. Lengre eksempel på syntaktisk tagger
10. Publikasjoner



1. Generelt om Taggerprosjektet

1.1. Hva er en automatisk tagger?

En automatisk, disambiguerende tagger er et program som skal kunne ta en hvilken som helst tekst, analysere den, og forsyne hvert eneste ord i teksten med en tagg som angir grammatisk informasjon som ordklasse, undergruppe, morfosyntaktiske trekk o.a. Spesielt viktig er det at hvert ord bare får én tagg. Selv om det er mange ord i norsk som i utgangspunktet er flertydige (homonyme), bør altså taggeren klare å finne fram til den ene riktige analysen. Står den på ordet murer, som faktisk kan betegne fire forskjellige grammatiske ord (se nedenfor), skal den klare å velge ett.

  "murer"
  "substantiv M ubestemt plural, MUR"
  "substantiv M ubestemt plural, MURE (bot.)"
  "substantiv M ubestemt singular, MURER"
  "svakt verb presens, MURE"

Det er et systematisk forhold mellom mange svake verb og bestemt form av det avledede substantivet, som i hoppet, foret osv., så det er av stor viktighet at den morfologiske taggeren selv kan disambiguere en ordform, og dermed fjerne alle tolkninger bortsett fra én. Dette må selvsagt bare kreves dersom entydiggjøringen kan skje på et solid grunnlag.

Taggeren som omtales her, er en regelbasert tagger (i motsetning til en statistisk basert tagger), mer spesielt er den en såkalt føringsbasert (Constraint-Based) tagger. Denne typen har vært utviklet ved Universitetet i Helsinki, Finland, under ledelse av Fred Karlsson. En føringsbasert tagger er en hvor det er laget lingvistisk baserte regler for hvert eneste disambigueringsvalg. Den bygger på dependensgrammatikk, hvilket i praksis vil si at taggeren ikke bygger opp fraser, men at alle valg gjøres på grunnlag av forholdet mellom enkeltord. Denne typen tagging er beskrevet i Karlsson et al., 1995, Constraint Grammar.
|opp|


1.2 Hvem har behov for en tagger?

Språkforskere er ofte interessert i ulike forekomster av en kategori, slik som sterke verb eller adjektiver (situasjon A). Videre kan de være interessert i én underkategori av et svært polysemt leksem, eller ett leksem av flere frekvente, homonyme leksemer (situasjon B). I alle slike tilfeller er det selvsagt svært lite effektivt å søke i umerkede tekster. I situasjon A blir man i prinsippet nødt til å sette seg ned med en vanlig ordbok, og manuelt lete fram alle forekomster av kategorien man er interessert i, før man i det hele tatt kan begynne søkingen. I situasjon B er det klart hvilke(n) tegnstreng(er) man skal søke etter, men problemet her kan bli at man finner altfor mange irrelevante eksempler. Søker man f.eks. etter det kausative få, som i Kari fikk reparert bilen, får man i tillegg all annen bruk, som tilfeller hvor få er hovedverb, som i Kari fikk en bil, eller hvor få har en tillatelsesbetydning, som i Kari fikk være oppe til midnatt, eller hvor få er et mengdeord: Kari hadde få bekymringer. En enkel morfologisk tagger ville gjøre det mulig å søke etter f.eks. alle ordformer merket med "sterkt verb" eller alle ordformer av verbet få etterfulgt av en ordform merket "perfektum partisipp".
|opp|


2. Tilgang, bruk o.a.

Taggeren er utviklet vha programvare fra det finske firmaet Lingsoft. Dette firmaet vil ha de kommersielle rettighetene til taggeren. Men Tekstlaboratoriet/Universitetet I Oslo har anledning til å la taggeren brukes fritt til forskningsformål over hele landet.
|opp|


3. Taggerens enkelte deler (med korte eksempler):

Her følger en kort oversikt over taggerens enkelte deler, presentert i kronologisk rekkefølge, etter hvilke biter som gjøres når i taggingsprosessen.
|opp|

3.1 Preprosessor og morfosyntaktisk multitagger

Utgangspunktet for taggingen er en ren tekstfil. Det stilles ingen spesielle krav til utseendet på fila - den kan godt ha overskrifter (av forskjellig format), tabeller og andre ting som kan gjøre teksten vanskelig å tolke for en datamaskin. (Men om en tekst er kodet med f.eks. SGML-kode, må den kjøres gjennom et program som fjerner slik kode først.) Beskrivelsen nedenfor deler preprosessering og multitagging i to deler av pedagogiske grunner, men det dreier seg om ett program, som benytter mange enkeltdeler, bl.a. den leksikalske databasen og sammensetningsanalysatoren, samt mange spesialdeler for å kunne gjenkjenne ulike typer ord og tekst.
|opp|


3.1.1 Preprosessering

Et eksempel på en tekst før tagging:

 
Lang tradisjon

I over hundre år har sportsfiskere og elveeiere prøvd å hjelpe laksen til å
formere seg i norske elver. Naturen er nemlig knallhard mot lakseavkommet -
bare noen få prosent av den yngelen som klekkes naturlig i elvene overlever
så lenge at de begynner å ta til seg føde. Og helt siden de første
utsettingsforsøkene ved Grefsen gård på slutten av forrige århundre, har
tanken vært at kunstig utklekking og utsetting av yngel ville føre til mer
yngel, med større evne til å overleve, og dermed mer laks i elva. Mye av
det arbeidet som er utført siden da, både av profesjonelle og titusener
frivillige ildsjeler på dugnad, har imidlertid vært bortkastet. Ja, kanskje
rett og slett skadelig.
-Vi har fått større kunnskap om laks og laksefisk de siste 10-12 årene,
sier Ove Hokstad. Han sikter da i første omgang til kunnskapen om at hver
elv har sin egen laksestamme. For sjøl om sørlandspresten Peder Clausson
Friis allerede i 1599 hadde observert og skrevet om dette fenomenet, ble
alt snakk om stedegen stamme totalt neglisjert i Norge helt til innføringen
av nye utsettingsforskrifter i 1985.

Teksten over er svært enkel. Likevel er det mange ting som må ordnes før multitaggeren trer i aksjon. Teksten må først preprosesseres:

Skill ut overskrifter.

Det er viktig for taggingen senere at teksten oppdeles på riktig måte, f.eks. at overskrifter skilles ut. De kjennetegnes jo ofte, som over, ved at de ikke har noe sluttegn som punktum. Fordi vi ikke vil at en overskrift skal tolkes som en del av neste setning, må den derfor gjenkjennes. Her har vi valgt å bruke endel form kriterier som store bokstaver, blanke linjer på begge sider, antall ord på linja o.a. for at overskrifter skal skilles ut.

Gjenkjenn setninger.

At setninger deles opp på riktig sted, er et beslektet mål. På dette stadiet i prosessen, finnes det ikke tilgang til noen grammatisk analyse, så alle regler må gjelde for enkeltord og bokstaver i umiddelbar nærhet av skilletegn. Visse tegn er typiske helsetningsskilletegn (periodeskilletegn), slik som utropstegn, spørsmålstegn, og ikke minst punktum. Imidlertid utgjør punktum et stort problem, siden det finnes mange tilfeller hvor punktum også finnes setningsinternt. Betrakt de følgende setningene:

(1) Her ser vi bl.a. en fisk, en fugl og en slange.
(2) Her har man f.eks. Jørgensen og Christensen.
(3) Der er dr. Hansen.
(4) Og der er Marte T. Henriksen.
(5) Dette skjedde 05.04.97.

For at helsetningene og ingenting annet skal gjenkjennes, har vi samlet inn en god del forkortelser, og laget programvare som tolker et punktum i en forkortelse annerledes enn ellers. Er forkortelsen en stor bokstav, tolkes den som egennavn. Men det viser seg at forkortelser også kan forekomme ved setningsslutt, og da ønsker man selvsagt å nettopp kjenne igjen setningsslutt:

(6) Vi kjenner leger, advokater og lingvister osv. Alle er velutdannet.
(7) Mens leger, advokater osv. ikke kjenner seg igjen, er det lett for oss andre.
(8) Man kan få kjøpt sjokolade, kaker, sukkertøy mm. Alt som er søtt får man tak i.
(9) Stedet ligger 2000 m.o.h. Det er oftest snø der.

For at en forkortelse skal kunne tolkes som setningsfinal, krever vi i tillegg at den etterfølgende bokstaven må være stor - uten at den er første del av et egennavn, (2) vs. (8). Dessuten er en del forkortelser av den typen at de sjelden eller aldri står setningsfinalt - som eksempel (1). Titler forekommer til gjengjeld nesten alltid foran egennavn, som (3). Vi har derfor delt forkortelser inn i forskjellige grupper, etter hvor og hvordan de forekommer. Tall som står for datoer, som (5), må også gjenkjennes.

Gjenkjenn datoer.

Preprosessoren må skille datoer (se nedenfor) fra tall, som ganske enkelt regnes som kvantifiserte uttrykk:

(10) Dette skjedde 01.01.60.
(11) Det skjedde også noe 15/9-91.
(12) Og dessuten var det noe spesielt 08-04-94.

Gjenkjenn av "koordinerte sammensetninger"
Noen tekstuelle sammenstillinger av flere ord må likevel betraktes som enkle ord. Dette gjelder nærmere bestemt sammensetninger hvor ett av leddene er koordinert av en konjunksjon:

(13) Vi snakker om barnehage- og dagmammabarn.
(14) Det gjelder etter- og videreutdanning.
(15) Julegavene og -maten er blitt overdådige.

Gjenkjenn faste uttrykk

Vi har foretatt innsamling av mange faste uttrykk, som går over flere ord. Der vi ønsker at de skal betraktes som ett og samme ord, ordnes det av preprosessoren:

(16) Vi tar en sjokolade i ny og ne.
(17) Dette gjør vi ikke i utide.
|opp|


3.1.2 Multitagging

Multitaggeren tar for seg teksten ord for ord. (Faste uttrykk, koordinerte sammensetninger o.a. regnes nå som enkle ord.) Hvert ord slås opp i en fullformsordliste - altså en liste av oppslagsordene i den leksiksalske databasen samt alle deres fulle former når de er bøyd. Hvert ord gis alle muligheter som fullformsordlista gir uten at konteksten for ordet undersøkes. I tillegg kommer disse delene:

Egennavn

Egennavn gjenkjennes enkelte ganger ved at de finnes i ordlista. For resten av navnene finner programmet ut av det på grunnlag av store bokstaver i ord som ikke finnes i ordlista og som gjerne ikke kommer etter punktum. I teksten over vil disse gjenkjennes:

(18) Ove Hokstad
(19) Peder Clausson Friis

Sammensetninger

Ord som ikke finnes i den leksikalske databasen blir forsøkt analysert som sammensetninger gjennom et eget sammensetningsprogram. Hvis det kan analyseres som en sammensetning, vil sisteleddet bli slått opp I fullformsordlista, og ordet gis alle tagger derfra. I teksten over vil f.eks. disse sammensetningene analyseres:

(20) laksestamme
(21) utsettingsforskrifter
(22) sørlandspresten

Alle kan prøve multitaggeren selv ved å skrive inn en setning eller legge ved en liten fil. Den interaktive multitaggeren ligger her.

Eksempel på en multitagget tekst

Nedenfor følger en kort del av teksten vi så ovenfor, men i multitagget utgave. Det går også an å få se hele teksten multitagget.

"<lang>"
      "lang" adj pos mask fem ub ent
      "lange" verb imp <trans1>
"<tradisjon>"
      "tradisjon" subst mask appell ent ub
"<$|>"
      "$|" CLB <OVERSKRIFT>
"<*i>"
      "i" prep
"<over>"
      "over" prep
"<hundre>"
      "hundre" det kvant fl
      "hundre" subst nøyt appell ent ub
      "hundre" subst nøyt appell fl ub
"<år>"
      "år" subst fem appell ent ub
      "år" subst mask appell ent ub
      "år" subst nøyt appell ent ub
      "år" subst nøyt appell fl ub
"<har>"
      "ha" verb pres <trans6><auxp>
"<sportsfiskere>"
      "sportsfisker" subst mask appell fl ub
"<og>"
      "og" CLB konj
      "og" adv
      "og" konj
"<elveeiere>"
      "elveeier" subst mask appell fl ub
"<prøvd>"
      "prøve" adj <perf-part>mask fem ub ent <trans1><trans3>
      "prøve" adj <perf-part>nøyt ub ent <trans1><trans3>
      "prøve" verb perf-part <trans1><trans3>
"<å>"
      "å" inf-merke
      "å" interj
      "å" subst fem appell ent ub
      "å" subst mask appell ent ub
"<hjelpe>"
      "hjelpe" verb inf <trans1>
"<laksen>"
      "laks" subst mask appell ent be
"<til>"
      "til" prep
"<å>"
      "å" inf-merke
      "å" interj
      "å" subst fem appell ent ub
      "å" subst mask appell ent ub
"<formere>"
      "former" subst mask appell fl ub
      "formere" verb inf <trans1><refl4>
"<seg>"
      "seg" pron refl ent/fl akk
      "sige" verb pret <intrans2>
"<I>"
      "i" prep
"<norske>"
      "norsk" adj pos mask fem nøyt be ent
      "norsk" adj pos ub be fl
      "norske" verb inf <trans1>

"<elver>"
      "elv" subst fem appell fl ub
      "elv" subst mask appell fl ub
"<$.>"
      "$." CLB <PUNKT>
|opp|


3.2 Morfosyntaktisk disambiguerende tagger

Vi har benyttet et taggsett som vi har utviklet selv. Imidlertid har vi forsøkt å holde oss til de kategorier som Norsk Referansegrammatikk (red.: Jan Terje Faarlund, Svein Lie og Kjell Ivar Vannebo) 1997 anbefaler. Dette innebærer f.eks. at alt som kan gradbøyes, regnes som adjektiver - selv om de tradisjonelt har vært regnet som adverber, slik som ordet ofte. Videre er alle tradisjonelt lokale adverber som der, bortenfor osv. nå å regne som preposisjoner. En fullstendig oversikt over tagger vil bli presentert senere.

Kort utdrag av disambiguert tekst
Versjon pr. 6/4-98

."<*lang>"
      "lang" adj pos mask fem ub ent
"<tradisjon>"
      "tradisjon" subst mask appell ent ub
"<$|>"
      "$|" CLB <OVERSKRIFT>
"<*i>"
      "i" prep
"<over>"
      "over" prep
"<hundre>"
      "hundre" det kvant fl
"<år>"
      "år" subst nøyt appell fl ub
"<har>"
      "ha" verb pres <trans6> <auxp>
"<sportsfiskere>"
      "sportsfisker" subst mask appell fl ub
"<og>"
      "og" konj
"<elveeiere>"
      "elveeier" subst mask appell fl ub
"<prøvd>"
      "prøve" verb perf-part <trans1> <trans3>
"<å>"
      "å" inf-merke
"<hjelpe>"
      "hjelpe" verb inf <trans1>
"<laksen>"
      "laks" subst mask appell ent be
"<til>"
      "til" prep
"<å>"
      "å" inf-merke
"<formere>"
      "formere" verb inf <trans1> <refl4>
"<seg>"
      "seg" pron refl ent/fl akk
"<i>"
      "i" prep
"<norske>"
      "norsk" adj pos ub be fl
"<elver>"
      "elv" subst fem appell fl ub
      "elv" subst mask appell fl ub
"<$.>"
      "$." CLB <PUNKT>
|opp|


3.3 Syntaktisk disambiguerende tagger

"<*lang>" ----------------@ADJ>
"<tradisjon>" ----------------@SUBJ @OBJ @LØS-NP
"<$|>"
"<*i>" ------------------------@ADV
"<over>" ----------------@ADV
"<hundre>" ----------------@DET>
"<år>" ------------------------@<P-UTFYLL
"<har>" ------------------------@FV
"<sportsfiskere>" --------@SUBJ
"<og>" ------------------------@KON
"<elveeiere>" ----------------@SUBJ @OBJ @I-OBJ
"<prøvd>" ----------------@IV
"<å>" ------------------------@OBJ
"<hjelpe>" ----------------@IV
"<laksen>" ----------------@OBJ
"<til>" ------------------------@ADV
"<å>" ------------------------@<P-UTFYLL
"<formere>" ----------------@IV
"<seg>" ------------------------@OBJ
"<i>" ------------------------@ADV
"<norske>" ----------------@ADJ>
"<elver>" ----------------@<P-UTFYLL
"<$.>"
"<*naturen>" ----------------@SUBJ
"<er>" ------------------------@FV
"<nemlig>" ----------------@ADV
"<knallhard>" ----------------@S-PRED
"<mot>" ------------------------@ADV
"<lakseavkommet>" --------@<P-UTFYLL
"<$->"
"<bare>" ----------------@ADV
"<noen>" ----------------@DET>
"<få>" ------------------------@ADJ>
"<prosent>" ----------------@SUBJ @OBJ
"<av>" ------------------------@ADV
"<den>" ------------------------@DET>
"<yngelen>" ----------------@<P-UTFYLL
"<som>" ------------------------@<SBU-REL
"<klekkes>" ----------------@FV
"<naturlig>" ----------------@S-PRED @O-PRED @ADV
"<i>" ------------------------@ADV
"<elvene>" ----------------@<P-UTFYLL
"<overlever>" ----------------@FV
"<så>" ------------------------@ADV>
"<lenge>" ----------------@ADV
"<at>" ------------------------@SUBJ @OBJ
"<de>" ------------------------@SUBJ
"<begynner>" ----------------@FV
"<å>" ------------------------@OBJ
"<ta>" ------------------------@IV
"<til>" ------------------------@ADV
"<seg>" ------------------------@<P-UTFYLL
"<føde>" ----------------@OBJ @I-OBJ
"<$.>"
|opp|


4. Morfosyntaktisk taggsett (ordklasser og bøying)

Her er en oversikt over de morfosyntaktiske taggene som forekommer i treningskorpuset vårt for bokmål, som består av ca. 100000 ord (det kan finnes andre tagger som ikke er representert i dette korpuset). I tillegg kan alle ord bli markert som sammensetninger (<samset>) eller unormert (<unorm>). Subkategoriseringstagger for verb er utelatt, men man kan finne en oversikt over disse taggene, laget av NorKompLeks-prosjektet ved NTNU, ved å klikke her.

Tagg:                                            Eksempel:

<ANF>                                            "
<KOMMA>                                          ,
<PARANTES-BEG>                                   (
<PARANTES-SLUTT>                                 )
CLB <ELLIPSE>                                    ...
CLB <KOLON>                                      :
CLB <KOMMA>                                      , (som setningsgrense)
CLB <OVERSKRIFT>                                 [slutt på overskrift]
CLB <PUNKT>                                      .
CLB <SEMI>                                       ;
CLB <SP M>                                       ?
CLB <STREK>                                      -
CLB <UTROP>                                      !
CLB konj                                         og
adj <ordenstall> pos mask fem nøyt be ent        (det) første
adj <ordenstall> pos mask fem nøyt be ent gen    (det) førstes
adj <ordenstall> pos mask fem ub ent             (en) første
adj <ordenstall> pos nøyt ub ent                 (et) første
adj <ordenstall> pos ub be fl                    (de) første
adj <ordenstall> pos ub be fl gen                (de) førstes
adj <perf-part> mask fem nøyt be ent             (den) fargelagte
adj <perf-part> mask fem nøyt be ent gen         (den) fargelagtes
adj <perf-part> mask fem ub ent                  (en) fargelagt
adj <perf-part> nøyt ub ent                      (et) fargelagt
adj <perf-part> ub be fl                         (de) fargelagte
adj <perf-part> ub be fl gen                     (de) fargelagtes
adj <pres-part> mask fem nøyt ub be ent fl       administrerende
adj komp                                         eldre
adj komp gen                                     eldres
adj pos fem ub ent                               lita
adj pos mask fem nøyt be ent                     lille
adj pos mask fem nøyt be ent gen                 lilles
adj pos mask fem ub ent                          stor
adj pos mask ub ent                              liten
adj pos nøyt ub ent                              lite
adj pos ub be fl                                 små
adj pos ub be fl gen                             (de) gamles
adj sup be                                       minste
adj sup ub                                       minst
adv                                              ikke
det be                                           selve
det dem <adj> fem ub ent                         anna
det dem <adj> mask fem nøyt be ent               (den/det) andre
det dem <adj> mask fem nøyt be ent gen           (den/det) andres
det dem <adj> mask ub ent                        annen
det dem <adj> nøyt ub ent                        annet
det dem <adj> ub be fl                           (de) andre
det dem <adj> ub be fl gen                       (de) andres
det dem be <adj>                                 neste
det dem be <adj> gen                             (den) nestes
det dem fem ent                                  den
det dem fem ent gen                   egen
det forst <adj> nøyt ub ent                      eget
det forst <adj> ub be fl                         (deres) egne
det kvant                                        16.00
det kvant be <adj>                               eneste
det kvant be ent                                 (den) ene
det kvant be ent gen                             (den) enes
det kvant ent                                    1
det kvant fem ent                                hver (bok)
det kvant fl                                     fem
det kvant fl gen                                 (på) alles (lepper)
det kvant mask ent                               en (aksjon)
det kvant mask ent gen                           ens
det kvant nøyt ent                               et (ansvar)
det poss fem ent                                 boka (si)
det poss fl                                      sine (lesere)
det poss høflig fem ent                          Deres (form)
det poss høflig fl                               Deres (bøker)
det poss høflig mask ent                         Deres (fantasi)
det poss høflig nøyt ent                         Deres (navn)
det poss mask ent                                hans (opplevelse)
det poss nøyt ent                                (navnet) sitt
det sp fem ent                                   hvilken (bok)
det sp fl                                        hvilke (kvalifikasjoner)
det sp mask ent                                  hvilken (feil)
det sp nøyt ent                                  hvilket (fly)
fork adv @ADV                                    etc.
fork adv @ADV>                                   ca.
fork konj+adv+adj adv @ADV                       osv.
fork prep                                        m.
fork prep @ADV                                   pr.
fork prep+adj adv @ADV                           mfl.
fork prep+adj prep @ADV                          bl.a.
fork prep+det+subst adv @ADV                     m.a.o.
fork prep+prop adv @ADV                          f.Kr.
fork prep+subst adv @ADV                         f.eks.
fork pron+verb+verb adv @ADV                     dvs.
fork subst                                       art.
fork subst @<SUBST                               jr.
fork subst @TITTEL                               dr.
fork subst appell                                adr.
fork subst mask appell                           ill.
fork subst nøyt appell ent fl ub be              bnr.
fork subst nøyt appell ent fl ub be @<SUBST      AL
fork subst prop                                  AP
inf-merke                                        å
interj                                           ja
konj                                             og
konj @KON                                        &
prep                                             på
prep @ADV                                        bortefra
pron ent                                         ingenting
pron pers 1 ent hum akk                          meg
pron pers 1 ent hum nom                          jeg
pron pers 1 fl hum akk                           oss
pron pers 1 fl hum nom                           vi
pron pers 2 ent hum akk                          deg
pron pers 2 ent hum nom                          du
pron pers 2 fl hum akk                           dere
pron pers 2 fl hum nom                           dere
pron pers 3 ent fem hum akk                      henne
pron pers 3 ent fem hum nom                      hun
pron pers 3 ent mask fem                         denne
pron pers 3 ent mask hum akk                     ham
pron pers 3 ent mask hum nom                     han
pron pers 3 ent nøyt                             dette
pron pers 3 fl                                   disse
pron pers 3 fl akk                               dem
pron pers 3 fl høflig akk                        Dem
pron pers 3 fl høflig nom                        De
pron pers 3 fl nom                               de
pron pers ent hum                                man
pron refl ent/fl akk                             seg
pron res fl hum                                  hverandre
pron sp hum                                      hvem
pron sp                                          hva
pron sp poss hum                                 hvis
sbu                                              at
subst                                            %
subst <dato>                                     7.8.97
subst <klokke>                                   15.10
subst @TITTEL                                    kong
subst appell fl ub                               (på) vegne
subst appell ubøy                                behold
subst appell ubøy gen                            beholds
subst fem appell ent be                          tida
subst fem appell ent be gen                      tidas
subst fem appell ent ub                          tid
subst fem appell ent ub gen                      tids
subst fem appell fl be                           tidene
subst fem appell fl be gen                       tidenes
subst fem appell fl ub                           tider
subst fem appell fl ub gen                       tiders
subst fem appell ubøy                            (dårlig) råd
subst fem prop                                   Aud
subst fem prop gen                               Auds
subst fl ub                                      (alle) mann
subst gen prop                                   Kristi
subst mask appell ent be                         dagen
subst mask appell ent be gen                     dagens
subst mask appell ent ub                         dag
subst mask appell ent ub gen                     dags
subst mask appell fl be                          dagene
subst mask appell fl be gen                      dagenes
subst mask appell fl ub                          dager
subst mask appell fl ub gen                      dagers
subst mask appell ubøy                           april
subst mask appell ubøy gen                       aprils
subst mask prop                                  Arne
subst mask prop gen                              Arnes
subst nøyt appell ent be                         landet
subst nøyt appell ent be gen                     landets
subst nøyt appell ent ub                         land
subst nøyt appell ent ub gen                     lands
subst nøyt appell fl be                          landa
subst nøyt appell fl be gen                      landas
subst nøyt appell fl ub                          land
subst nøyt appell fl ub gen                      lands
subst nøyt appell ubøy                           (få) lov
subst nøyt appell ubøy gen                       lovs
subst nøyt prop                                  Dagbladet
subst nøyt prop gen                              Dagbladets
subst prop                                       Hansen
subst prop gen                                   Hansens
symb                                             Au
symb subst                                       ha
ukjent ord                                       perfect
verb imp                                         reguler
verb imp <s-verb>                                synes
verb imp gen                                     regulers
verb inf                                         regulere
verb inf gen                                     reguleres
verb inf <s-verb>                                synes
verb inf pres pass                               reguleres
verb perf-part                                   regulert
verb perf-part <s-verb>                          synes
verb perf-part gen                               regulerts
verb pres                                        regulerer
verb pres <s-verb>                               synes
verb pres gen                                    regulerers
verb pret                                        regulerte
verb pret <s-verb>                               syntes
verb pret gen                                    regulertes
verb ubøy                                        nåde

I de tilfellene der et ord blir stående igjen med flere ulike adjektivtagger etter disambiguering, har vi valgt å bruke et mer kompakt format der vi slår sammen de opprinnelige taggene. Ordet får da ordklassetaggen adj etterfulgt av alle deltagger som forekom i de opprinnelige taggene, i denne rekkefølgen: pos <perf-part> komp sup <ordenstall> <pres-part> <adv> mask fem nøyt ub be ent fl gen samset unorm. Hvis ordet også hadde en tagg for verb i perfektum partisipp, blir ordklassetaggen adj/verb_perf-part, med de samme deltaggene. For eksempel, hvis følgende tagger står igjen etter disambiguering:

"<ventet>"
	"vente" adj <perf-part> mask fem ub ent 
	"vente" adj <perf-part> nøyt ub ent 
	"vente" verb perf-part 
blir de gjort om til:
"<ventet>"
	"vente" adj/verb_perf-part <perf-part> mask fem nøyt ub ent 

På samme måte blir determinativer og pronomen slått sammen dersom de ikke har blitt disambiguert. Ordet får da ordklassetaggen det/pron, og deltaggene blir lagt til i denne rekkefølgen: kvant forst dem <adj> <romertall> pers sp poss refl res 1 2 3 mask fem nøyt ub be ent fl hum høflig nom akk gen samset unorm. Eksempel:

"<de>"
	"de" det dem fl 
	"de" pron pers 3 fl nom 
blir til
"<de>"
	"de" det/pron dem pers 3 fl nom 

|opp|

5. Syntaktisk taggsett (syntaktiske funksjoner)

@<ADV ADVERBIAL som modifiserer noe til venstre
@<DET DETERMINATIV som modifiserer noe til venstre
@<P-UTFYLL PREPOSISJONSUTFYLLING som modifiserer noe t.v.
@<SBU SUBJUNKSJON som modifiserer noe til venstre
@<SBU-REL SUBJUNKSJONEN SOM som modifiserer noe t.v.
@<SUBST SUBSTANTIV som modifiserer noe t.v.
@ADJ> ADJEKTIV som modifiserer noe til høyre
@ADV ADVERBIAL
@ADV> ADVERBIAL som modifiserer noe til høyre
@APP APPOSISJON
@DET> DETERMINATIV som modifiserer noe til høyre
@FV FINITT VERB
@I-OBJ INDIREKTE OBJEKT
@INTERJ INTERJEKSJON
@IV INFINITT VERBAL
@KON KONJUNKSJON
@LØS-NP NP uten syntaktisk funksjon
@O-PRED OBJEKTSPREDIKATIV
@OBJ OBJEKT
@S-PRED SUBJEKTSPREDIKATIV
@SUBJ SUBJEKT
@SUBST> SUBSTANTIV som modifiserer noe til høyre
@TITTEL TITTEL

|opp|

6. Medarbeidere, samarbeidspartnere, finanisering o.a.

Taggerprosjektet, som administrativt ligger under Tekstlaboratoriet, involverer mange personer, institusjoner, finansieringskilder og grunnlagsmateriale. Her er en kort oversikt.

Personer som er involvert

Leder: Janne Bondi Johannessen
Ansatte (pr. februar 1998): Kristin Hagen, Anders Nøklestad
Andre som har arbeidet eller arbeider på prosjektet i større og mindre grad: Kristian Emil Kristoffersen, Arne Martinus Lindstad, Jan Tore Lønning, Christian-Emil Ore, Diana Santos, Lars Jørgen Tvedt

Institusjoner som er involvert i arbeidet

Taggeren kan enkelt sies å være oppdelt i tre deler:
1) Leksikalsk database, 2) Multitagger, 3) Disambiguerende tagger
Den leksikalske databasen og Multitaggeren er resultatet av et samarbeid mellom Tekstlaboratoriet og Dokumentasjonsprosjektet. Den disambiguerende taggeren er Tekstlaboratoriets arbeid.

Institusjoner som er involvert i finansieringen

Taggerprosjektet, 1996-1999, er beregnet til seks årsverk når man unntar grunnlagsmaterialet. Norges forskningsråd finansierer tre årsverk, Dokumentasjonsprosjektet to, og Tekstlaboratoriet ett.

Grunnmateriale - forutsetninger for prosjektet

Bokmålsordboka og Nynorskordboka: Seksjon for Leksikografi (INL, UiO)
IBM-ordliste med grammatiske koder for bokmål og nynorsk
Programvare for disambigueringsdelen av taggeren: Lingsoft
Argumentstruktur for verb: NorKompLeks, NTNU
|opp|


7. Lengre eksempel fra multitaggeren

"<*lang>"
      "lang" adj pos mask fem ub ent
      "lange" verb imp <trans1>
"<tradisjon>"
      "tradisjon" subst mask appell ent ub
"<$|>"
      "$|" CLB <OVERSKRIFT>
"<*i>"
      "i" prep
"<over>"
      "over" prep
"<hundre>"
      "hundre" det kvant fl
      "hundre" subst nøyt appell ent ub
      "hundre" subst nøyt appell fl ub
"<år>"
      "år" subst fem appell ent ub
      "år" subst mask appell ent ub
      "år" subst nøyt appell ent ub
      "år" subst nøyt appell fl ub
"<har>"
      "ha" verb pres <trans6><auxp>
"<sportsfiskere>"
      "sportsfisker" subst mask appell fl ub
"<og>"
      "og" CLB konj
      "og" adv
      "og" konj
"<elveeiere>"
      "elveeier" subst mask appell fl ub
"<prøvd>"
      "prøve" adj <perf-part>mask fem ub ent <trans1><trans3>
      "prøve" adj <perf-part>nøyt ub ent <trans1><trans3>
      "prøve" verb perf-part <trans1><trans3>
"<å>"
      "å" inf-merke
      "å" interj
      "å" subst fem appell ent ub
      "å" subst mask appell ent ub
"<hjelpe>"
      "hjelpe" verb inf <trans1>
"<laksen>"
      "laks" subst mask appell ent be
"<til>"
      "til" prep
"<å>"
      "å" inf-merke
      "å" interj
      "å" subst fem appell ent ub
      "å" subst mask appell ent ub
"<formere>"
      "former" subst mask appell fl ub
      "formere" verb inf <trans1><refl4>
"<seg>"
      "seg" pron refl ent/fl akk
      "sige" verb pret <intrans2>
"<i>"
      "i" prep
"<norske>"
      "norsk" adj pos mask fem nøyt be ent
      "norsk" adj pos ub be fl
      "norske" verb inf <trans1>
"<elver>"
      "elv" subst fem appell fl ub
      "elv" subst mask appell fl ub
"<$.>"
      "$." CLB <PUNKT>
"<*naturen>"
      "natur" subst mask appell ent be
"<er>"
      "være" verb pres <predik1><predik2><auxp>
"<nemlig>"
      "nemlig" adv
"<knallhard>"
      "knallhard" adj pos mask fem ub ent
"<mot>"
      "mot" prep
      "mot" subst nøyt appell ent ub
      "mot" subst nøyt appell fl ub
"<lakseavkommet>"
      "lakseavkom" subst nøyt appell ent be samset
"<$->"
      "$-" CLB <STREK>
"<bare>"
      "bar" adj pos mask fem nøyt be ent
      "bar" adj pos ub be fl
      "bare" adv
"<noen>"
      "noen" det kvant fem ent
      "noen" det kvant fl
      "noen" det kvant mask ent
      "noen" pron pers 3 ent mask fem
"<få>"
      "få" adj pos ub be fl
      "få" verb imp
      "få" verb inf
"<prosent>"
      "prosent" subst mask appell ent ub
      "prosent" subst mask appell fl ub
"<av>"
      "av" prep
"<den>"
      "den" det dem fem ent
      "den" det dem mask ent
      "den" pron pers 3 ent mask fem
"<yngelen>"
      "yngel" subst mask appell ent be
"<som>"
      "som" prep
      "som" sbu
"<klekkes>"
      "klekke" verb inf pres pass <trans1><part1>
      "klekk" adj pos mask fem nøyt be ent gen
      "klekk" adj pos ub be fl gen
      "klekke" verb inf <trans1><part1>gen
"<naturlig>"
      "naturlig" adj pos mask fem ub ent
      "naturlig" adj pos nøyt ub ent
"<i>"
      "i" prep
"<elvene>"
      "elv" subst fem appell fl be
      "elv" subst mask appell fl be
"<overlever>"
      "overleve" verb pres <intrans2><trans5>
      "overlevere" verb imp <trans1>
"<så>"
      "se" verb pret <trans1><trans2><trans3><trans4>
      "så" CLB konj
      "så" adv
      "så" subst mask appell ent ub
      "så" verb imp <trans1>
      "så" verb inf <trans1>
"<lenge>"
      "lenge" adj <adv>pos
"<at>"
      "at" sbu
"<de>"
      "de" det dem fl
      "de" pron pers 3 fl nom
"<begynner>"
      "begynne" verb pres <intrans1><trans1><trans3>
      "begynner" subst mask appell ent ub
"<å>"
      "å" inf-merke
      "å" interj
      "å" subst fem appell ent ub
      "å" subst mask appell ent ub
"<ta>"
      "ta" verb imp <trans1><part1/av><part1/på>
      "ta" verb inf <trans1><part1/av><part1/på>
"<til>"
      "til" prep
"<seg>"
      "seg" pron refl ent/fl akk
      "sige" verb pret <intrans2>
"<føde>"
      "føde" subst fem appell ent ub
      "føde" subst mask appell ent ub
      "føde" verb inf <intrans1><trans1>
      "føde" verb inf <trans1>
"<$.>"
      "$." CLB <PUNKT>
"<*og>"
      "og" CLB konj
      "og" adv
      "og" konj
"<helt>"
      "hel" adj pos nøyt ub ent
      "hele" adj <perf-part>mask fem ub ent <trans1>
      "hele" adj <perf-part>nøyt ub ent <trans1>
      "hele" verb perf-part <trans1>
      "helle" adj <perf-part>mask fem ub ent <intrans2><adv6>
      "helle" adj <perf-part>nøyt ub ent <intrans2><adv6>
      "helle" verb perf-part <intrans2><adv6>
      "helt" subst mask appell ent ub
"<siden>"
      "side" subst mask appell ent be
      "siden" adv
      "siden" sbu
"<de>"
      "de" det dem fl
      "de" pron pers 3 fl nom
"<første>"
      "første" adj <ordenstall>pos mask fem nøyt be ent
      "første" adj <ordenstall>pos mask fem ub ent
      "første" adj <ordenstall>pos nøyt ub ent
      "første" adj <ordenstall>pos ub be fl
"<utsettingsforsøkene>"
      "utsettingsforsøk" subst nøyt appell fl be samset
"<ved>"
      "ved" prep
      "ved" subst mask appell ent ub
"<*grefsen>"
"*grefsen" subst prop
"<gård>"
      "gård" subst mask appell ent ub
"<på>"
      "på" prep
"<slutten>"
      "slutt" subst mask appell ent be
"<av>"
      "av" prep
"<forrige>"
      "forrige" det dem be <adj>
"<århundre>"
      "århundre" subst nøyt appell ent ub
"<$,>"
      "$," CLB <KOMMA>
      "$," <KOMMA>
"<har>"
      "ha" verb pres <trans6><auxp>
"<tanken>"
      "tank" subst mask appell ent be
      "tanke" subst mask appell ent be
"<vært>"
      "være" adj <perf-part>nøyt ub ent <predik1><predik2><auxp>
      "være" verb perf-part <predik1><predik2><auxp>
"<at>"
      "at" sbu
"<kunstig>"
      "kunstig" adj pos mask fem ub ent
      "kunstig" adj pos nøyt ub ent
"<utklekking>"
      "utklekking" subst fem appell ent ub
      "utklekking" subst mask appell ent ub
"<og>"
      "og" CLB konj
      "og" adv
      "og" konj
"<utsetting>"
      "utsetting" subst fem appell ent ub
      "utsetting" subst mask appell ent ub
"<av>"
      "av" prep
"<yngel>"
      "yngel" subst mask appell ent ub
      "yngel" subst mask appell fl ub
"<ville>"
      "vill" adj pos mask fem nøyt be ent
      "vill" adj pos ub be fl
      "ville" subst fem appell ent ub
      "ville" subst mask appell ent ub
      "ville" verb inf <auxm>
      "ville" verb pret <auxm>
"<føre>"
      "før" adj pos mask fem nøyt be ent
      "før" adj pos ub be fl
      "føre" prep
      "føre" subst nøyt appell ent ub
      "føre" verb inf <trans1><refl4>
"<til>"
      "til" prep
"<mer>"
      "mye" adj komp
"<yngel>"
      "yngel" subst mask appell ent ub
      "yngel" subst mask appell fl ub
"<$,>"
      "$," CLB <KOMMA>
      "$," <KOMMA>
"<med>"
      "med" prep
"<større>"
      "stor" adj komp
"<evne>"
      "evne" subst fem appell ent ub
      "evne" subst mask appell ent ub
      "evne" verb inf <trans1>
"<til>"
      "til" prep
"<å>"
      "å" inf-merke
      "å" interj
      "å" subst fem appell ent ub
      "å" subst mask appell ent ub
"<overleve>"
      "overleve" verb inf <intrans2><trans5>
"<$,>"
      "$," CLB <KOMMA>
      "$," <KOMMA>
"<og>"
      "og" CLB konj
      "og" adv
      "og" konj
"<dermed>"
      "dermed" adv
"<mer>"
      "mye" adj komp
"<laks>"
      p;  "mye" adj pos ub be fl
"<av>"
      "av" prep
"<det>"
      "det" det dem nøyt ent
      "det" pron pers 3 ent nøyt
"<arbeidet>"
      "arbeid" subst nøyt appell ent be
      "arbeide" adj <perf-part>mask fem ub ent <intrans1><trans1>
      "arbeide" adj <perf-part>nøyt ub ent <intrans1><trans1>
      "arbeide" subst nøyt appell ent be
      "arbeide" verb perf-part <intrans1><trans1>
      "arbeide" verb pret <intrans1><trans1>
"<som>"
      "som" prep
      "som" sbu
"<er>"
      "være" verb pres <predik1><predik2><auxp>
"<utført>"
      "utføre" adj <perf-part>mask fem ub ent <trans1>
      "utføre" adj <perf-part>nøyt ub ent <trans1>
      "utføre" verb perf-part <trans1>
"<siden>"
      "side" subst mask appell ent be
      "siden" adv
      "siden" sbu
"<da>"
      "da" adv
      "da" sbu
"<$,>"
      "$," CLB <KOMMA>
      "$," <KOMMA>
"<både>"
      "både" konj <adv>
"<av>"
      "av" prep
"<profesjonelle>"
      "profesjonell" adj pos mask fem nøyt be ent
      "profesjonell" adj pos ub be fl
"<og>"
      "og" CLB konj
      "og" adv
      "og" konj
"<titusener>"
      "titusen" subst nøyt appell fl ub
"<frivillige>"
      "frivillig" adj pos mask fem nøyt be ent
      "frivillig" adj pos ub be fl
"<ildsjeler>"
      "ildsjel" subst fem appell fl ub
      "ildsjel" subst mask appell fl ub
"<på>"
      "på" prep
"<dugnad>"
      "dugnad" subst mask appell ent ub
"<$,>"
      "$," CLB <KOMMA>
      "$," <KOMMA>
"<har>"
      "ha" verb pres <trans6><auxp>
"<imidlertid>"
      "imidlertid" adv
"<vært>"
      "være" adj <perf-part>nøyt ub ent <predik1><predik2><auxp>
      "være" verb perf-part <predik1><predik2><auxp>
"<bortkastet>"
      "bortkaste" adj <perf-part>mask fem ub ent
      "bortkaste" adj <perf-part>nøyt ub ent
      "bortkaste" verb perf-part
      "bortkaste" verb pret
      "bortkastet" adj pos mask fem ub ent
      "bortkastet" adj pos nøyt ub ent
"<$.>"
      "$." CLB <PUNKT>
"<*ja>"
      "ja" interj
      "ja" subst nøyt appell ent ub
      "ja" subst nøyt appell fl ub
"<$,>"
      "$," CLB <KOMMA>
      "$," <KOMMA>
"<kanskje>"
      "kanskje" adv
"<rett og slett>"
      "rett og slett" adv
"<skadelig>"
      "skadelig" adj pos mask fem ub ent
      "skadelig" adj pos nøyt ub ent
"<$.>"
      "$." CLB <PUNKT>
"<$->"
      "$-" CLB <STREK>
"<*vi>"
      "vi" pron pers 1 fl hum nom
      "vie" verb imp <trans1>
"<har>"
      "ha" verb pres <trans6><auxp>
"<fått>"
      "få" adj <perf-part>mask fem ub ent
      "få" adj <perf-part>nøyt ub ent
      "få" verb perf-part
"<større>"
      "stor" adj komp
"<kunnskap>"
      "kunnskap" subst mask appell ent ub
"<om>"
      "om" prep
      "om" sbu
"<laks>"
      "laks" subst mask appell ent ub
"<og>"
      "og" CLB konj
      "og" adv
      "og" konj
"<laksefisk>"
      "laksefisk" subst mask appell ent ub
"<de>"
      "de" det dem fl
      "de" pron pers 3 fl nom
"<siste>"
      "sist" adj pos mask fem nøyt be ent
      "sist" adj pos ub be fl
"<10-12>"
"10-12" det kvant fl
"10-12" subst <dato>
"<årene>"
      "år" subst fem appell fl be
      "år" subst mask appell fl be
      "år" subst nøyt appell fl be
      "åre" subst fem appell fl be
      "åre" subst mask appell fl be
"<$,>"
      "$," CLB <KOMMA>
      "$," <KOMMA>
"<sier>"
      "si" verb pres <trans1><trans2>
"<*ove>"
"*ove" subst mask prop
"<*hokstad>"
"*hokstad" subst prop
"<$.>"
      "$." CLB <PUNKT>
"<*han>"
      "han" pron pers 3 ent mask hum akk
      "han" pron pers 3 ent mask hum nom
"<sikter>"
      "sikt" subst fem appell fl ub
      "sikt" subst mask appell fl ub
      "sikte" subst nøyt appell fl ub
      "sikte" verb pres <part1/inn>
      "sikte" verb pres <trans1>
"<da>"
      "da" adv
      "da" sbu
"<i>"
      "i" prep
"<første>"
      "første" adj <ordenstall>pos mask fem nøyt be ent
      "første" adj <ordenstall>pos mask fem ub ent
      "første" adj <ordenstall>pos nøyt ub ent
      "første" adj <ordenstall>pos ub be fl
"<omgang>"
      "omgang" subst mask appell ent ub
"<til>"
      "til" prep
"<kunnskapen>"
      "kunnskap" subst mask appell ent be
"<om>"
      "om" prep
      "om" sbu
"<at>"
      "at" sbu
"<hver>"
      "hver" det kvant fem ent
      "hver" det kvant mask ent
"<elv>"
      "elv" subst fem appell ent ub
      "elv" subst mask appell ent ub
"<har>"
      "ha" verb pres <trans6><auxp>
"<sin>"
      "sin" fork subst
      "sin" det poss mask ent
"<egen>"
      "egen" adj pos mask fem ub ent
      "egen" det forst <adj>fem ub ent
      "egen" det forst <adj>mask ub ent
"<laksestamme>"
      "laksestamme" subst mask appell ent ub
"<$.>"
      "$." CLB <PUNKT>
"<*for>"
      "fare" verb pret <present2><intrans1>
      "for" CLB konj
      "for" adv
      "for" prep
      "fore" verb imp
"<sjøl>"
      "sjøl" det forst <adj>
"<om>"
      "om" prep
      "om" sbu
"<sørlandspresten>"
      "sørlandsprest" subst mask appell ent be samset
"<*peder>"
"*peder" subst mask prop
"<*clausson>"
"*clausson" subst prop
"<*friis>"
"*friis" subst prop
"*frii" subst prop gen
"<allerede>"
      "allerede" adv
"<i>"
      "i" prep
"<1599>"
"1599" det kvant fl
"<hadde>"
      "ha" verb pret <trans6><auxp>
"<observert>"
      "observere" adj <perf-part>mask fem ub ent <trans1><trans4>
      "observere" adj <perf-part>nøyt ub ent <trans1><trans4>
      "observere" verb perf-part <trans1><trans4>
"<og>"
      "og" CLB konj
      "og" adv
      "og" konj
"<skrevet>"
      "skrev" subst nøyt appell ent be
      "skreve" adj <perf-part>mask fem ub ent <intrans1>
      "skreve" adj <perf-part>nøyt ub ent <intrans1>
      "skreve" verb perf-part <intrans1>
      "skreve" verb pret <intrans1>
      "skrive" adj <perf-part>mask fem ub ent <intrans1><trans1>
      "skrive" adj <perf-part>nøyt ub ent <intrans1><trans1>
      "skrive" verb perf-part <intrans1><trans1>
"<om>"
      "om" prep
      "om" sbu
"<dette>"
      "dette" det dem nøyt ent
      "dette" pron pers 3 ent nøyt
      "dette" verb inf <intrans2><present3>
"<fenomenet>"
      "fenomen" subst nøyt appell ent be
"<$,>"
      "$," CLB <KOMMA>
      "$," <KOMMA>
"<ble>"
      "bli" verb pret <predik1><predik2><intrans2><adv5><auxp>
"<alt>"
      "ale" adj <perf-part>mask fem ub ent <part1/opp>
      "ale" adj <perf-part>nøyt ub ent <part1/opp>
      "ale" verb perf-part <part1/opp>
      "all" det kvant nøyt ent
      "alt" adv
      "alt" subst mask appell ent ub
      "alt" subst nøyt appell ent ub
      "alt" subst nøyt appell fl ub
"<snakk>"
      "snakk" subst mask appell ent ub
      "snakk" subst nøyt appell ent ub
      "snakk" subst nøyt appell fl ub
      "snakke" verb imp <intrans1>
"<om>"
      "om" prep
      "om" sbu
"<stedegen>"
      "stedegen" adj pos mask fem ub ent
"<stamme>"
      "stam" adj pos mask fem nøyt be ent
      "stam" adj pos ub be fl
      "stamme" subst mask appell ent ub
      "stamme" verb inf
      "stamme" verb inf <intrans1>
"<totalt>"
      "total" adj pos nøyt ub ent
"<neglisjert>"
      "neglisjere" adj <perf-part>mask fem ub ent <trans1>
      "neglisjere" adj <perf-part>nøyt ub ent <trans1>
      "neglisjere" verb perf-part <trans1>
"<i>"
      "i" prep
"<*norge>"
"*norge" subst prop
"<helt>"
      "hel" adj pos nøyt ub ent
      "hele" adj <perf-part>mask fem ub ent <trans1>
      "hele" adj <perf-part>nøyt ub ent <trans1>
      "hele" verb perf-part <trans1>
      "helle" adj <perf-part>mask fem ub ent <intrans2><adv6>
      "helle" adj <perf-part>nøyt ub ent <intrans2><adv6>
      "helle" verb perf-part <intrans2><adv6>
      "helt" subst mask appell ent ub
"<til>"
      "til" prep
"<innføringen>"
      "innføring" subst mask appell ent be
"<av>"
      "av" prep
"<nye>"
      "ny" adj pos mask fem nøyt be ent
      "ny" adj pos ub be fl
      "nye" verb inf <part1/opp>
"<utsettingsforskrifter>"
      "utsettingsforskrift" subst mask appell fl ub samset
      "utsettingsforskrift" subst fem appell fl ub samset
"<i>"
      "i" prep
"<1985>"
"1985" det kvant fl
"<$.>"
      "$." CLB <PUNKT>
|opp|


8. Lengre eksempel på morfosyntaktisk tagger

Resultatet nedenfor er foreløpig, pr. 06.02.98. Arbeid med forbedring pågår.

En tagget + disambiguert eksempeltekst
Versjon pr. 6/4-98

."<*lang>" D:451
      "lang" adj pos mask fem ub ent
"<tradisjon>"
      "tradisjon" subst mask appell ent ub
"<$|>"
      "$|" CLB <OVERSKRIFT>
"<*i>"
      "i" prep
"<over>"
      "over" prep
"<hundre>" D:545
      "hundre" det kvant fl
"<år>" D:257
      "år" subst nøyt appell fl ub
"<har>"
      "ha" verb pres <trans6> <auxp>
"<sportsfiskere>"
      "sportsfisker" subst mask appell fl ub
"<og>" D:57, 41
      "og" konj
"<elveeiere>"
      "elveeier" subst mask appell fl ub
"<prøvd>" D:290
      "prøve" verb perf-part <trans1> <trans3>
"<å>" D:592
      "å" inf-merke
"<hjelpe>"
      "hjelpe" verb inf <trans1>
"<laksen>"
      "laks" subst mask appell ent be
"<til>"
      "til" prep
"<å>" D:592
      "å" inf-merke
"<formere>" D:228
      "formere" verb inf <trans1> <refl4>
"<seg>" D:523
      "seg" pron refl ent/fl akk
"<i>"
      "i" prep
"<norske>" D:220, 243
      "norsk" adj pos ub be fl
"<elver>"
      "elv" subst fem appell fl ub
      "elv" subst mask appell fl ub
"<$.>"
      "$." CLB <PUNKT>
"<*naturen>"
      "natur" subst mask appell ent be
"<er>"
      "være" verb pres <predik1> <predik2> <auxp>
"<nemlig>"
      "nemlig" adv
"<knallhard>"
      "knallhard" adj pos mask fem ub ent
"<mot>" D:99
      "mot" prep
"<lakseavkommet>"
      "lakseavkom" subst nøyt appell ent be samset
"<$->"
      "$-" CLB <STREK>
"<bare>"
      "bar" adj pos mask fem nøyt be ent
      "bar" adj pos ub be fl
      "bare" adv
"<noen>" D:346, 191
      "noen" det kvant fl
"<få>" D:213, 14
      "få" adj pos ub be fl
"<prosent>" D:260
      "prosent" subst mask appell fl ub
"<av>"
      "av" prep
"<den>" D:160
      "den" det dem mask ent
"<yngelen>"
      "yngel" subst mask appell ent be
"<som>" D:96
      "som" sbu
"<klekkes>" D:393, 306
      "klekke" verb inf pres pass <trans1> <part1>
"<naturlig>"
      "naturlig" adj pos mask fem ub ent
      "naturlig" adj pos nøyt ub ent
"<i>"
      "i" prep
"<elvene>"
      "elv" subst fem appell fl be
      "elv" subst mask appell fl be
"<overlever>" D:14
      "overleve" verb pres <intrans2> <trans5>
"<så>" D:319, 219, 87, 502
      "så" adv
"<lenge>"
      "lenge" adj <adv> pos
"<at>"
      "at" sbu
"<de>" D:183
      "de" pron pers 3 fl hum nom
"<begynner>" D:309
      "begynne" verb pres <intrans1> <trans1> <trans3>
"<å>" D:592
      "å" inf-merke
"<ta>" D:228
      "ta" verb inf <trans1> <part1/av> <part1/på>
"<til>"
      "til" prep
"<seg>" D:319
      "seg" pron refl ent/fl akk
"<føde>" D:214
      "føde" subst fem appell ent ub
      "føde" subst mask appell ent ub
"<$.>"
      "$." CLB <PUNKT>
"<*og>" D:57, 43
      "og" CLB konj
"<helt>" D:486, 278
      "hel" adj pos nøyt ub ent
      "hele" adj <perf-part> mask fem ub ent <trans1>
      "helle" adj <perf-part> mask fem ub ent <intrans2> <adv6>
      "helt" subst mask appell ent ub
"<siden>" D:514
      "siden" adv
      "siden" sbu
"<de>" D:190
      "de" det dem fl
"<første>" D:488, 246
      "første" adj <ordenstall> pos ub be fl
"<utsettingsforsøkene>"
      "utsettingsforsøk" subst nøyt appell fl be samset
"<ved>" D:99
      "ved" prep
"<*grefsen>"
"*grefsen" subst prop
"<gård>"
      "gård" subst mask appell ent ub
"<på>"
      "på" prep
"<slutten>"
      "slutt" subst mask appell ent be
"<av>"
      "av" prep
"<forrige>"
      "forrige" det dem be <adj>
"<århundre>"
      "århundre" subst nøyt appell ent ub
"<$,>" D:30
      "$," <KOMMA>
"<har>"
      "ha" verb pres <trans6> <auxp>
"<tanken>"
      "tank" subst mask appell ent be
      "tanke" subst mask appell ent be
"<vært>" D:290
      "være" verb perf-part <predik1> <predik2> <auxp>
"<at>"
      "at" sbu
"<kunstig>" D:451
      "kunstig" adj pos mask fem ub ent
"<utklekking>"
      "utklekking" subst fem appell ent ub
      "utklekking" subst mask appell ent ub
"<og>" D:57, 40
      "og" konj
"<utsetting>"
      "utsetting" subst fem appell ent ub
      "utsetting" subst mask appell ent ub
"<av>"
      "av" prep
"<yngel>"
      "yngel" subst mask appell ent ub
      "yngel" subst mask appell fl ub
"<ville>" D:212, 336
      "ville" verb pret <auxm>
"<føre>" D:227
      "føre" verb inf <trans1> <refl4>
"<til>"
      "til" prep
"<mer>"
      "mye" adj komp
"<yngel>"
      "yngel" subst mask appell ent ub
      "yngel" subst mask appell fl ub
"<$,>" D:31
      "$," <KOMMA>
"<med>"
      "med" prep
"<større>"
      "stor" adj komp
"<evne>" D:116
      "evne" subst fem appell ent ub
      "evne" subst mask appell ent ub
"<til>"
      "til" prep
"<å>" D:592
      "å" inf-merke
"<overleve>"
      "overleve" verb inf <intrans2> <trans5>
"<$,>" D:31
      "$," <KOMMA>
"<og>" D:57, 41
      "og" konj
"<dermed>"
      "dermed" adv
"<mer>"
      "mye" adj komp
"<laks>"
      "laks" subst mask appell ent ub
"<i>"
      "i" prep
"<elva>"
      "elv" subst fem appell ent be
"<$.>"
      "$." CLB <PUNKT>
"<*mye>"
      "mye" adj pos mask fem nøyt be ent
      "mye" adj pos mask fem ub ent
      "mye" adj pos nøyt ub ent
      "mye" adj pos ub be fl
"<av>"
      "av" prep
"<det>" D:204 WARNING! -feature removed
      "det" pron pers 3 ent nøyt ikke-hum
"<arbeidet>" D:272, 314<1> WARNING! -feature removed
      "arbeide" verb pret <intrans1> <trans1>
"<som>" D:96
      "som" sbu
"<er>"
      "være" verb pres <predik1> <predik2> <auxp>
"<utført>" D:288
      "utføre" verb perf-part <trans1>
"<siden>" D:514, 92
      "siden" adv
"<da>" D:92
      "da" adv
"<$,>" D:31
      "$," <KOMMA>
"<både>"
      "både" konj <adv>
"<av>"
      "av" prep
"<profesjonelle>" D:244
      "profesjonell" adj pos ub be fl
"<og>" D:57, 41
      "og" konj
"<titusener>"
      "titusen" subst nøyt appell fl ub
"<frivillige>" D:362
      "frivillig" adj pos ub be fl
"<ildsjeler>"
      "ildsjel" subst fem appell fl ub
      "ildsjel" subst mask appell fl ub
"<på>"
      "på" prep
"<dugnad>"
      "dugnad" subst mask appell ent ub
"<$,>" D:22<1>
      "$," CLB <KOMMA>
"<har>"
      "ha" verb pres <trans6> <auxp>
"<imidlertid>"
      "imidlertid" adv
"<vært>" D:288
   &nbMMA>
"<kanskje>"
      "kanskje" adv
"<rett og slett>"
      "rett og slett" adv
"<skadelig>"
      "skadelig" adj pos mask fem ub ent
      "skadelig" adj pos nøyt ub ent
"<$.>"
      "$." CLB <PUNKT>
"<$->"
      "$-" CLB <STREK>
"<*vi>" D:204
      "vi" pron pers 1 fl hum nom
"<har>"
      "ha" verb pres <trans6> <auxp>
"<fått>" D:290
      "få" verb perf-part
"<større>"
      "stor" adj komp
"<kunnskap>"
      "kunnskap" subst mask appell ent ub
"<om>" D:101
      "om" prep
"<laks>"
      "laks" subst mask appell ent ub
"<og>" D:57, 37" konj
"<laksefisk>"
      "laksefisk" subst mask appell ent ub
"<de>" D:189
      "de" det dem fl
"<siste>" D:233
      "sist" adj pos ub be fl
"<10-12>" D:191
"10-12" det kvant fl
"<årene>"
      "år" subst fem appell fl be
      "år" subst mask appell fl be
      "år" subst nøyt appell fl be
      "åre" subst fem appell fl be
      "åre" subst mask appell fl be
"<$,>" D:22<1>
      "$," CLB <KOMMA>
"<sier>"
      "si" verb pres <trans1> <trans2>
"<*ove>"
"*ove" subst mask prop
"<*hokstad>"
"*hokstad" subst prop
"<$.>"
      "$." CLB <PUNKT>
"<*han>" D:267
      "han" pron pers 3 ent mask hum nom
"<sikter>" D:309
      "sikte" verb pres <part1/inn>
      "sikte" verb pres <trans1>
"<da>" D:92
      "da" adv
"<i>"
      "i" prep
"<første>" D:451
      "første" adj <ordenstall> pos mask fem ub ent
"<omgang>"
      "omgang" subst mask appell ent ub
"<til>"
      "til" prep
"<kunnskapen>"
      "kunnskap" subst mask appell ent be
"<om>" D:527
      "om" prep
"<at>"
      "at" sbu
"<hver>"
      "hver" det kvant fem ent
      "hver" det kvant mask ent
"<elv>"
      "elv" subst fem appell ent ub
      "elv" subst mask appell ent ub
"<har>"
      "ha" verb pres <trans6> <auxp>
"<sin>" D:395
      "sin" det poss mask ent
"<egen>" D:162
      "egen" det forst <adj> mask ub ent
"<laksestamme>"
      "laksestamme" subst mask appell ent ub
"<$.>"
      "$." CLB <PUNKT>
"<*for>" D:563, 562, 566 WARNING! -feature removed
      "for" prep
"<sjøl>"
      "sjøl" det forst <adj>
"<om>" D:524
      "om" sbu
"<sørlandspresten>"
      "sørlandsprest" subst mask appell ent be samset
"<*peder>"
"*peder" subst mask prop
"<*clausson>"
"*clausson" subst prop
"<*friis>" D:391
"*friis" subst prop
"<allerede>"
      "allerede" adv
"<i>"
      "i" prep
"<1599>"
"1599" det kvant fl
"<hadde>"
      "ha" verb pret <trans6> <auxp>
"<observert>" D:290
      "observere" verb perf-part <trans1> <trans4>
"<og>" D:57, 32
      "og" konj
"<skrevet>" D:319, 282
      "skreve" verb perf-part <intrans1>
      "skrive" verb perf-part <intrans1> <trans1>
"<om>" D:101
      "om" prep
"<dette>" D:220, 136
      "dette" det dem nøyt ent
"<fenomenet>"
      "fenomen" subst nøyt appell ent be
"<$,>" D:22<1>
      "$," CLB <KOMMA>
"<ble>"
      "bli" verb pret <predik1> <predik2> <intrans2> <adv5> <auxp>
"<alt>" D:586, 587, 588, 348
      "all" det kvant nøyt ent
"<snakk>" D:388
      "snakk" subst nøyt appell ent ub
"<om>" D:101
      "om" prep
"<stedegen>"
      "stedegen" adj pos mask fem ub ent
"<stamme>" D:231, 220, 116
      "stamme" subst mask appell ent ub
"<totalt>"
      "total" adj pos nøyt ub ent
"<neglisjert>" D:290
      "neglisjere" verb perf-part <trans1>
"<i>"
      "i" prep
"<*norge>"
"*norge" subst prop
"<helt>" D:486, 278
      "hel" adj pos nøyt ub ent
      "hele" adj <perf-part> mask fem ub ent <trans1>
      "helle" adj <perf-part> mask fem ub ent <intrans2> <adv6>
      "helt" subst mask appell ent ub
"<til>"
      "til" prep
"<innføringen>"
      "innføring" subst mask appell ent be
"<av>"
      "av" prep
"<nye>" D:220, 243
      "ny" adj pos ub be fl
"<utsettingsforskrifter>"
      "utsettingsforskrift" subst mask appell fl ub samset
      "utsettingsforskrift" subst fem appell fl ub samset
"<i>"
      "i" prep
"<1985>"
"1985" det kvant fl
"<$.>"
      "$." CLB <PUNKT>
|opp|


9. Lengre eksempel på syntaktisk tagger

"<*lang>" ----------------@ADJ>
"<tradisjon>" ----------------@SUBJ @OBJ @LØS-NP
"<$|>"
"<*i>" ------------------------@ADV
"<over>" ----------------@ADV
"<hundre>" ----------------@DET>
"<år>" ------------------------@<P-UTFYLL
"<har>" ------------------------@FV
"<sportsfiskere>" --------@SUBJ
"<og>" ------------------------@KON
"<elveeiere>" ----------------@SUBJ @OBJ @I-OBJ
"<prøvd>" ----------------@IV
"<å>" ------------------------@OBJ
"<hjelpe>" ----------------@IV
"<laksen>" ----------------@OBJ
"<til>" ------------------------@ADV
"<å>" ------------------------@<P-UTFYLL
"<formere>" ----------------@IV
"<seg>" ------------------------@OBJ
"<i>" ------------------------@ADV
"<norske>" ----------------@ADJ>
"<elver>" ----------------@<P-UTFYLL
"<$.>"
"<*naturen>" ----------------@SUBJ
"<er>" ------------------------@FV
"<nemlig>" ----------------@ADV
"<knallhard>" ----------------@S-PRED
"<mot>" ------------------------@ADV
"<lakseavkommet>" --------@<P-UTFYLL
"<$->"
"<bare>" ----------------@ADV
"<noen>" ----------------@DET>
"<få>" ------------------------@ADJ>
"<prosent>" ----------------@SUBJ @OBJ
"<av>" ------------------------@ADV
"<den>" ------------------------@DET>
"<yngelen>" ----------------@<P-UTFYLL
"<som>" ------------------------@<SBU-REL
"<klekkes>" ----------------@FV
"<naturlig>" ----------------@S-PRED @O-PRED @ADV
"<i>" ------------------------@ADV
"<elvene>" ----------------@<P-UTFYLL
"<overlever>" ----------------@FV
"<så>" ------------------------@ADV>
"<lenge>" ----------------@ADV
"<at>" ------------------------@SUBJ @OBJ
"<de>" ------------------------@SUBJ
"<begynner>" ----------------@FV
"<å>" ------------------------@OBJ
"<ta>" ------------------------@IV
"<til>" ------------------------@ADV
"<seg>" ------------------------@<P-UTFYLL
"<føde>" ----------------@OBJ @I-OBJ
"<$.>"
"<*og>" ------------------------@KON
"<helt>" ----------------@ADV>
"<siden>" ----------------@ADV
"<de>" ------------------------@DET>
"<første>" ----------------@ADJ>
"<utsettingsforsøkene>" --------@S-PRED
"<ved>" ------------------------@ADV
"<*grefsen>" ----------------@SUBST>
"<gård>" ----------------@<P-UTFYLL
"<på>" ------------------------@ADV
"<slutten>" ----------------@<P-UTFYLL
"<av>" ------------------------@ADV
"<forrige>" ----------------@DET>
"<århundre>" ----------------@<P-UTFYLL
"<$,>"
"<har>" ------------------------@FV
"<tanken>" ----------------@SUBJ
"<vært>" ----------------@IV
"<at>" ------------------------@OBJ
"<kunstig>" ----------------@ADJ>
"<utklekking>" ----------------@SUBJ @OBJ @I-OBJ
"<og>" ------------------------@KON
"<utsetting>" ----------------@SUBJ
"<av>" ------------------------@ADV
"<yngel>" ----------------@<P-UTFYLL
"<ville>" ----------------@FV
"<føre>" ----------------@IV
"<til>" ------------------------@ADV
"<mer>" ------------------------@ADJ>
"<yngel>" ----------------@<P-UTFYLL
"<$,>"
"<med>" ------------------------@ADV
"<større>" ----------------@ADJ>
"<evne>" ----------------@<P-UTFYLL
"<til>" ------------------------@ADV
"<å>" ------------------------@<P-UTFYLL
"<overleve>" ----------------@IV
"<$,>"
"<og>" ------------------------@KON
"<dermed>" ----------------@ADV
"<mer>" ------------------------@ADJ>
"<laks>" ----------------@SUBJ @OBJ @I-OBJ @APP
"<i>" ------------------------@ADV
"<elva>" ----------------@<P-UTFYLL
"<$.>"
"<*mye>" ----------------@S-PRED @O-PRED
"<av>" ------------------------@ADV
"<det>"
"<arbeidet>"
"<som>" ------------------------@<SBU-REL
"<er>" ------------------------@FV
"<utført>" ----------------@IV
"<siden>" ----------------@ADV
"<da>" ------------------------@ADV
"<$,>"
"<både>" ----------------@ADV
"<av>" ------------------------@ADV
"<profesjonelle>" --------@ADJ>
"<og>" ------------------------@KON
"<titusener>" ----------------@<P-UTFYLL
"<frivillige>" ----------------@ADJ>
"<ildsjeler>" ----------------@SUBJ @OBJ @S-PRED
"<på>" ------------------------@ADV
"<dugnad>" ----------------@<P-UTFYLL
"<$,>"
"<har>" ------------------------@FV
"<imidlertid>" ----------------@ADV
"<vært>" ----------------@IV
"<bortkastet>" ----------------@IV
"<$.>"
"<*ja>" ------------------------@INTERJ
"<$,>"
"<kanskje>" ----------------@ADV
"<rett og slett>" --------@ADV
"<skadelig>" ----------------@S-PRED @O-PRED @APP @ADV
"<$.>"
"<$->"
"<*vi>" ------------------------@SUBJ
"<har>" ------------------------@FV
"<fått>" ----------------@IV
"<større>" ----------------@ADJ>
"<kunnskap>" ----------------@OBJ @I-OBJ
"<om>" ------------------------@ADV
"<laks>" ----------------@<P-UTFYLL
"<og>" ------------------------@KON
"<laksefisk>" ----------------@<P-UTFYLL
"<de>" ------------------------@DET>
"<siste>" ----------------@SUBJ @OBJ @S-PRED @O-PRED
"<10-12>" ----------------@DET>
"<årene>" ----------------@SUBJ @OBJ @I-OBJ
"<$,>"
"<sier>" ----------------@FV
"<*ove>" ----------------@SUBJ @OBJ @I-OBJ @SUBST>
"<*hokstad>" ----------------@SUBJ @OBJ @I-OBJ
"<$.>"
"<*han>" ----------------@SUBJ
"<sikter>" ----------------@FV
"<da>" ------------------------@ADV
"<i>" ------------------------@ADV
"<første>" ----------------@ADJ>
"<omgang>" ----------------@<P-UTFYLL
"<til>" ------------------------@ADV
"<kunnskapen>" ----------------@<P-UTFYLL
"<om>" ------------------------@ADV
"<at>" ------------------------@<P-UTFYLL
"<hver>" ----------------@DET>
"<elv>" ------------------------@SUBJ
"<har>" ------------------------@FV
"<sin>" ------------------------@DET>
"<egen>" ----------------@DET>
"<laksestamme>" ----------------@OBJ
"<$.>"
"<*for>"
"<sjøl>" ----------------@<DET
"<om>" ------------------------@ADV @SUBJ @OBJ
"<sørlandspresten>" --------@SUBJ
"<*peder>" ----------------@SUBST>
"<*clausson>" ----------------@SUBST>
"<*friis>" ----------------@SUBJ
"<allerede>" ----------------@ADV
"<i>" ------------------------@ADV
"<1599>" ----------------@DET>
"<hadde>" ----------------@FV
"<observert>" ----------------@IV
"<og>" ------------------------@KON
"<skrevet>" ----------------@IV
"<om>" ------------------------@ADV
"<dette>" ----------------@DET>
"<fenomenet>" ----------------@<P-UTFYLL
"<$,>"
"<ble>" ------------------------@FV
"<alt>" ------------------------@DET>
"<snakk>" ----------------@SUBJ @S-PRED
"<om>" ------------------------@ADV
"<stedegen>" ----------------@ADJ>
"<stamme>" ----------------@<P-UTFYLL
"<totalt>" ----------------@S-PRED @O-PRED @ADV
"<neglisjert>" ----------------@IV
"<i>" ------------------------@ADV
"<*norge>" ----------------@<P-UTFYLL
"<helt>" ----------------@S-PRED @O-PRED @ADV
"<til>" ------------------------@ADV
"<innføringen>" ----------------@<P-UTFYLL
"<av>" ------------------------@ADV
"<nye>" ------------------------@ADJ>
"<utsettingsforskrifter>" @<P-UTFYLL
"<i>" ------------------------@ADV
"<1985>" ----------------@DET>
"<$.>"
|opp|


10. Publikasjoner

(*) Johannessen, Janne Bondi. 1998. Tagging and the case of pronouns. Computers and the Humanities 32: 1-38.
(*) Johannessen, Janne Bondi og Hauglin, Helge. 1998. An analysis of compounds. Proceedings from XVI Scandinavian Conference of Linguistics. Universitetet i Åbo, Finland, 14.-16. november 1996.
(*) Hagen, Kristin, Johannessen, Janne Bondi and Kristoffersen, Kristian Emil. 1997. Problemer ved bruk av andres lister til taggerformål. Foredrag på Møter om norsk språk 7, Universitetet i Trondheim, 20.-22. november.
(*) Hagen, Kristin and Johannessen, Janne Bondi. 1998. Disambiguering uten syntaks. I Faarlund, Mæhlum og Nordgård (red.): MONS 7. Utvalde artiklar frå det 7. Møtet Om Norsk Språk i Trondheim 1997. Oslo: Novus Forlag.
(*) Hagen, Kristin, Johannessen, Janne Bondi and Nøklestad, Anders. 2000. A Constraint-Based tagger for Norwegian. Foredrag på XVI Scandinavian Conference of Linguistics. Til trykking i Odense Working Papers in Language and Communication.
|opp|


[Kontakt oss] [Tilbake til Tekstlaben]
Sist oppdatert 6.5.2004 av KH