Hovedoppgavens tittel: Automatic Anaphora Resolution for Norwegian (ARN)
"En fyr kjørte på sykkelen til Rolf i går og knuste baklyset. Han ble helt rasende, som han pleier å bli, og skjelte ham ut slik at mannen begynte nesten å gråte. "
Anaforer er ord som får sin fulle betydning fra et annet ord som kommer før dem i teksten.
En anaforisk forbindelse kan være noe så flyktig som baklyset som peker tilbake til sykkelen som det er en del av, og noe så enkelt som han, som peker tilbake til Rolf.
Det å binde en anafor betyr å finne dens antesedent, dvs. ordet det peker mot. For oss mennesker foregår denne prosessen så fort og automatisk at vi som regel ikke er klare over den. Vi datalingvister tar oss av den langt enklere og mer kjente typen - personlige pronomen. Grunnen til dette er at våre samarbeidspartnere - datamaskinene - har mer enn nok problemer med å binde de enkleste typer anaforer, og automatisk anaforbinding er fremdeles et av de større uløste problemene i dataprosessering av naturlige språk.
Som sagt foregår anaforbinding hos mennesker så kjapt og lett at vi egentlig ikke veit hvordan den foregår, så det er desto vanskeligere å forklare til en datamaskin hvordan den skal gjøre det. De vanligste tilnærmingene nå for tida er å bruke statistiske og regelbaserte metoder, eller en kombinasjon av de to. ARN er et regelbasert program jeg selv utviklet. Reglene den anvender, kan være syntaktiske (for eksempel "gi forrang til kandidater som spiller den samme syntaktiske rollen som anaforen"), morfologiske ( "gi forrang til pronomener") eller rent pragmatiske ("i forrang til kandidaten som er nærmest anaforen"). Den tar som input litterære og avistekster tagget av Oslo-Bergen-taggeren, finner anaforer i dem, leter etter antesedentkandidater, anvender reglene, og foreslår til slutt antesedenter.
ARN ble implementert i LISP og fikk til 70.5% korrekte anaforbindinger.
Til bulletin-forside