Flertydighet og informasjonssøking - et pilotprosjekt


 

Sommeren 2000 hadde Tekstlaboratoriet et samarbeid med Internett-firmaet Fast Search & Transfer i Oslo, hvor de betalte for to måneders sommerjobb for to studenter som jobbet hos  oss. De to studentene, som nå er hovedfagsstudenter på SLI, Janne Cecilie von Koss Torkildsen og Gordana Ilic Holen (fra Serbia) gjorde en glimrende jobb som resulterte i en rapport (som kan fås ved henvendelse til Tekstlaboratoriet), og et foredrag på den kommende NoDaLiDa-konferansen i Uppsala i mai. 

 

Målet var å finne ut i hvilken grad søkeuttrykk på Internett er flertydige, og hvorvidt dette skaper problemer for søkeresultatet. Janne og Gordana undersøkte søkelogger med faktiske søk på bl.a. søkemotoren www.alltheweb.com, og fant at det absolutt var mye flertydighet til stede, noe som virkelig måtte irritere dem som søkte etter informasjonen. Ta for eksempel søkeordet Gran, som i tillegg til å referere til bartreet, også kan referere til øya Gran Canaria, kommunen Gran og etternavnet Gran. Bartreet Gran viste seg å være omtalt på omtrent 16 prosent av web-sidene som ble funnet av søkemotoren. Hvis det da er bartreet man ønsker informasjon om, er det nokså irriterende med de andre treffene.

 

Tekstlaboratoriet hadde også et underliggende formål med prosjektet: Dersom det viste seg å være mye flertydighet i søkeuttrykkene og søkeresultatene, kunne det være et argument for å benytte en grammatisk tagger i søkemotoren. Det som ville være avgjørende, ville være om de ordene som viste seg å være semantisk flertydige, også var grammatisk forskjellige, f.eks. ved at de tilhørte forskjellig ordklasse eller hadde ulike grammatiske trekk. Ett eksempel på et ord hvor ulik semantisk betydning følges ad av ulik grammatisk kategori er jo gran, som i det ene tilfellet er substantiv appellativ, og i det andre tilfellet er substantiv proprium. Et annet eksempel er marine, som i det ene tilfellet er substantiv entall, og i det andre adjektiv bøyd i enten flertall eller bestemt form. Det viste seg at rundt 90 prosent av de flertydige søkeordene faktisk også kunne skilles vha grammatisk kategori.

 

For øyeblikket har ikke disse interessante resultatene ført til noe mer, men vi anser likevel at det her er rom for samarbeid med andre som er interessert i søking i norske tekster.

Janne Bondi Johannessen


[Neste | Inhold | Tekstlab | HF]


30. april 2001, AN, <anders.noklestad@ilf.uio.no>