Ny cand.philol.: Gordana Ilic Holen

Gordana Ilic Holen ble ferdig med hovedfag våren 2006, og fikk sin veiledning ved Tekstlaboratoriet. Hun skrev om anaforresolusjon, og har vært god til å få forskningen ut i det internasjonale forskersamfunnet.

I 2005 fikk hun antatt et foredrag på på den nordiske datalingvistikkonferansen NODALIDA i Joensuu, og nylig fikk hun vite at hun har fått antatt et foredrag på den internasjonale koneransen DAARC 2007, som skal holdes i Portugal. Og ikke bare det, hun har blitt valgt ut til å være blant den tredelen som får publisert artikkel etterpå i bok utgitt i den ISI-indekserte serien LNAI-Lecture Notes in Artifical Intelligence på Springer forlag. Ikke dårlig resultat av en enkelt hovedoppgave! Gordana er nå ansatt som forsker på prosjektet Eye-to-IT på ILOS. Vi gir ordet til Gordana, som gir et kort resymé av oppgaven:


Hovedoppgavens tittel: Automatic Anaphora Resolution for Norwegian (ARN)

"En fyr kjørte på sykkelen til Rolf i går og knuste baklyset. Han ble helt rasende, som han pleier å bli, og skjelte ham ut slik at mannen begynte nesten å gråte. "

Anaforer er ord som får sin fulle betydning fra et annet ord som kommer før dem i teksten.

En anaforisk forbindelse kan være noe så flyktig som baklyset som peker tilbake til sykkelen som det er en del av, og noe så enkelt som han, som peker tilbake til Rolf.

Det å binde en anafor betyr å finne dens antesedent, dvs. ordet det peker mot. For oss mennesker foregår denne prosessen så fort og automatisk at vi som regel ikke er klare over den. Vi datalingvister tar oss av den langt enklere og mer kjente typen - personlige pronomen. Grunnen til dette er at våre samarbeidspartnere - datamaskinene - har mer enn nok problemer med å binde de enkleste typer anaforer, og automatisk anaforbinding er fremdeles et av de større uløste problemene i dataprosessering av naturlige språk.

Som sagt foregår anaforbinding hos mennesker så kjapt og lett at vi egentlig ikke veit hvordan den foregår, så det er desto vanskeligere å forklare til en datamaskin hvordan den skal gjøre det. De vanligste tilnærmingene nå for tida er å bruke statistiske og regelbaserte metoder, eller en kombinasjon av de to. ARN er et regelbasert program jeg selv utviklet. Reglene den anvender, kan være syntaktiske (for eksempel "gi forrang til kandidater som spiller den samme syntaktiske rollen som anaforen"), morfologiske ( "gi forrang til pronomener") eller rent pragmatiske ("i forrang til kandidaten som er nærmest anaforen"). Den tar som input litterære og avistekster tagget av Oslo-Bergen-taggeren, finner anaforer i dem, leter etter antesedentkandidater, anvender reglene, og foreslår til slutt antesedenter.

ARN ble implementert i LISP og fikk til 70.5% korrekte anaforbindinger.

Til bulletin-forside