UiO hjemmeside
Tekst laboratorije

Korpus bosanskih tekstova na Univerzitetu u Oslu

[The Oslo Corpus of Bosnian Texts]     

Korpus bosanskih tekstova na Univerzitetu u Oslu (Oslo korpus) ima oko milion i petsto hiljada rijecci, a enkodiran je uz pomoch programa IMS corpus workbench koji je razvijen na Univerzitetu u SStutgartu (Institut fur Maschinelle Sprachverarbeitung). Ovome je dodat odgovarajuchi interfejs u Laboratoriji za obradu tekstova na Univerzitetu u Oslu.
  1. Sadrzzaj korpusa
  2. Tipovi upita koji su dostupni
  3. Kako dobiti odobrenje za korisstenje korpusa
  4. Kako dobiti i kreirati ispravnu vrstu slova
  5. Tehniccke informacije
  6. Hiljadu najfrekventnijih rijecci i oblika
  7. Dostupne publikacije o korpusu
  8. Verzija
  9. Ostalo
  10. Kako nas mozzete kontaktirati
[Pretrazivanje korpusa] [Poccetna strana Laboratorije za obradu tekstova]       Tekst laboratorije

Sadrzzaj korpusa

Crtezz nadgrobnog spomenikaKorpus je sastavljen na Univerzitetu u Oslu kao zajedniccki projekat Odsjeka za istoccnoevropske i orijentalne studije i Laboratorije za obradu tekstova. Korpus sadrzzi oko milion i ssesto hiljada rijecci i obuhvata razliccite zzanrove: beletristiku (romane i pricce), esejistiku, djecciju literaturu, narodnu knjizzevnost, pravne i islamske tekstove i publicistiku. Autori tekstova su iz Bosne i Hercegovine, a tekstovi su uglavnom objavljeni u periodu od 1990.- 1997. godine. Korpus pruzza novu osnovu za istrazzivanje jezika u Bosni i Hercegovini.

Sastavljanje korpusa je nadgledala docent Janne Bondi Johannessen, a profesor Svein Mønnesland je bio zaduzzen za odabir i kompilaciju tekstova. Gordana Vranich i Kemila Bassich su se potrudile da tekstovi budu elektronski dostupni (skeniranjem i adaptacijom) u obliku tekst fajli. Diana Santos je izgradila korpus zasnovan na tim fajlama u odgovarajuchem formatu (visse podataka o tome mozzete proccitati u nastavku), te napisala Web interfejs.

Vlasnici autorskih prava su ljubazno dali odobrenje za korisstenje njihovih tekstova u ovom korpusu. Tekstovi preuzeti iz knjiga ne obuhvataju visse od tri ccetvrtine te knjige. Izvor tekstova i njihov obim detaljno su precizirani u sadrzzaju (vidi stranicu "Sadrzzaj").

[Pretrazzivanje korpusa] [Poccetna stranica Laboratorije za obradu tekstova] [Vrh stranice]

Tipovi upita koji su dostupni

Kada se postavlja upit korpusu, mozze se trazziti konkordanca (KWIC, kljuccna rijecc u kontekstu, ssto je default moguchnost), ili se mozze trazziti distribucija rezultata, prema oblicima, ili prema izvoru teksta. Uz to, mozze se, u jednom te istom upitu, traziti i konkordanca i distribucija.

Iako planiramo da ponudimo jednostavniji oblik postavljanja upita koji bi bio potpuno zasnovan na meniju, trenutno se gotovo potpuno oslanjamo na CQP query sintaksu (vidi Corpus Query Processor razvijen u Stuttgartu). CQP omoguchava da se na kompaktan naccin izraze priliccno kompleksni izbori, upotrebljavajuchi pri tom redovne izraze. Kratak opis query sintakse mozze se nachi, zajedno sa primjerima za druge jezike, na adresi http://www.ims.uni-stuttgart.de/projekte/tc/CQPSyntax.html.

Primjeri bosanskih upita su:

Vazzno je znati da je moguche, pored formalnih obiljezzja samog teksta, takodje postavljati upite o tipu teksta, autoru, datumu, pa ccak i o pojedinaccnom djelu. Za pregled moguchnosti koje nudi klasifikacija tekstova, pogledajte stranicu "Sadrzzaj". Neki primjeri:
[Pretrazzivanje korpusa] [Pocetna stranica Laboratorije za obradu tekstova] [Vrh stranice ]

Kako dobiti odobrenje za korisstenje korpusa

Oslo korpus bosanskih tekstova je dostupan svima koji ga zzele koristiti za nekomercijalne akademske svrhe. Odobrenje za korisstenje korpusa mozzete trazziti e-mailom od tekstlab@ilf.uio.no. Poruka treba da sadrzzi:
  1. IME,
  2. ADRESU,
  3. INSTITUCIJU,
  4. predlozzeno KORISNICCKO IME za korpus,
  5. predlozzena SSIFRA za korisstenje korpusa (koja se razlikuje od Vasse standardne ssifre),
  6. IZJAVU 1 ("Obechavam da chu koristiti Oslo korpus bosanskih tekstova jedino za akademske, nekomercijalne svrhe"),
  7. IZJAVU 2 ("Obechavam da nechu otkriti svoju ssifru (password) nekoj drugoj osobi ili instituciji").
  8. IZJAVU 3 ("U svim materijalima (objavljenim ili neobjavljenim) za cciju je pripremu korissten korpus, naznaccichu na odgovarajuchi naccin ime korpusa i u referencama navesti njegovu Internet adresu."
ili ispunite ovaj obrazac. Uskoro chete primiti nass odgovor.

[Pretrazzivanje korpusa] [Poccetna stranica Laboratorije za obradu tekstova] [Vrh stranice]

Kako vidjeti i kreirati ispravnu vrstu slova

Da bi vidjeli tekstove iz korpusa sa slovima koja se ne koriste u engleskom, na pr. ss, zz, cc, ch, morate imati podrssku za ISO-8859-2 u kompjuteru. Ako rezultati vasseg pretrazzivanja ne izgledaju zadovoljavajuche, mozzete Ako ne mozzete dobiti slova kao ss, zz, cc, ch direktno, mozzete umjesto njih koristiti oktalne kodove tih slova, njihove standardne "alongacije" ili odgovarajucha ISO-8859-1 slova (Latin 1). Ove moguchnosti su predstavljene na tabeli:

BosanskiOktalni kodoviAlongacijeLatin 1
Ch, ch\306ChÆ
\346chæ
CC, cc\310CCÈ
\350ccè
Dj, dj\320DjjÐ
\360djjð
Dz, dzD\256Dz
d\276dz
Ss, ss\251SS©
\271ss¹
ZZ, zz\256ZZ, Zh®
\276zz, zh¾

Evo i nekoliko primjera:

Vodite raccuna da
  1. ako zzelite da u inputu imate oktalne kodove, rijecci moraju biti u navodnim znacima.
  2. da bi enkodiranje slova uccinili nedvosmislenim, promijenili smo standardnu notaciju Dj, dj u Djj i djj. Ovo se ne odnosi na pokazivanje rezultata, koje je prema standardu. Drugim rijeccima, trazzite Djje u vassem upitu, ali chete vidjeti Dje ako ste odabrali all-ASCII naccin.
  3. ccak i ako unesete ta slova kao niz slova, bosanska slova se smatraju kao jedno slovo, osim slova Dz, dz, koje se smatra kao D d iza kojeg slijedi ZZ, zz. S obzirom da u CQP sintaksi "." predstavlja jedno, bilo koje slovo, to znacci da che na pr. stra.no biti jednako kao strassno, dok .amijskih neche biti jednako kao dzamijskih.
[Pretrazzivanje korpusa] [Poccetna stranica Laboratorije za obradu tekstova] [Vrh stranice]

Tehniccke informacije

IMS Corpus Workbench

Ovo je front-end za CQP, Corpus Query Processor, u okviru programa IMS Corpus Workbench koji su razvili Oliver Christ i Bruno Maximilian Schulze na Institut fur Maschinelle Sprachverarbeitung na Univerzitetu u SStutgartu. Mozzete konsulrirati njihov spisak ccesto postavljanih pitanja (FAQ) na adresi http://www.ims.uni-stuttgart.de/CorpusToolbox/FAQ.html.

Izrazzavamo zahvalnost za odobrenje da koristimo CQP u svrhe istrazzivanja.

Oni koji poznaju CQP query sintaksu mogu koristiti (gotovo) sav njen potencijal. Odredjjena ograniccenja su opisana u nastavku.

[Pretrazzivanje korpusa] [Poccetna stranica Laboratorije za obradu tekstova] [Vrh stranice]

Struktura korpusa i enkodiranje

Korpus je enkodiran u ISO-8859-2 setu slova. Uputstva o tome kako da prilagodite svoj browser za neke od najuobiccajenijih platformi mogu se proccitati ovdje.

Possto se ne mozze occekivati da che svaki korisnik imati pristup browseru koji omoguchava ispravan prikaz na ekranu ISO-8859-2 enkodiranih dokumenata, all-ASCII display opcija je dostupna u postavljanju upita, ssto omoguchava standardni prikaz specificcnih slova u formi dva slova, kao ssto je opisano gore.

Korpus je kreiran skeniranjem knjiga i drugog sstampanog materijala koristechi uredjjaj za opticcko prepoznavanje slova (OCR); u rijetkim sluccajevima, dijelovi korpusa su vech bili u elektronskom formatu. Nekoliko redaktorskih korekcija je uvrssteno:

Korpus je automatski izveden u CQP formatu iz Word tekst fajli sa meta-informacijom u zaglavlju, i iz sadrzzaja koji je ukljuccio korektan tekst identifikator koji je kao Word fajl kreirala Gordana Vranich. Korpus nije manuelno revidiran nakon konverzije, tako da je moguche da se zbog toga pojave neki problemi.

Molimo vas da nas izvjestite o svakom takvom problemu, kao i o opsstim problemima, sugestijama za poboljssanje, itd., na nassu adresu.

Korisnici sistema moraju obratiti pazznju na sljedeche:

[Pretrazzivanje korpusa] [Poccetna stranica Laboratorije za obradu tekstova] [Vrh stranice ]

Informacije o interfejsu za pretrazzivanje

Interfejs za pretrazzivanje vam omoguchava: Output se dobije sa naznakom upita koji je korisnik postavio, datumom upita, i brojem nadjjenih oblika.

Ako je nadjjen jedan ili visse oblika, a trazzila se konkordanca, biche prikazan broj primjera koji su pronadjjeni, kao i broj primjera koji che se mochi vidjeti na ekranu. Iza toga che slijediti nadjjeni primjeri sa istaknutim oblikom koji se trazzio. Ako je trazzena distribucija, output che biti u jednostavnom tabelarnom formatu, prema opadajuchem redu frekvencije.

U nekim sluccajevima, upozorenje ili ponuda pomochi che biti upucheni. Na ovaj naccin se zzeli ponuditi pomoch svima koji prvi put koriste sistem. Na primjer,

Ograniccenja

Da bi sprijeccili korisnike da preuzmu cijele tekstove, primijenjena su ova ograniccenja:

Poredjjenje sa direktnim korisstenjem CQP-a

U poredjjenju sa standardnim karakteristikama CQP sistema, neka njegova obiljezzja se ovdje ne mogu koristiti, prvenstveno Ograniccenja koja su gore opisana ne vazze ako imate direktan pristup CQP-u i korpus u vassem kompjuteru.

Medjjutim, identifikacija izvora uz svaki primjer je unapredjjenje u poredjjenju sa CQP i Xkwic programima.

Planirana poboljssanja

U buduchnosti planiramo dodati sljedeche moguchnosti Web interfejsu: Sugestije za druge moguchnosti, kao i argumentovane prituzzbe, uvijek su dobro dossle.

[Pretrazzivanje korpusa] [Poccetna stranica Laboratorije za obradu tekstova] [Vrh stranice ]

Dostupne publikacije o korpusu

Leko 98a
Leko, Nedzad. Compiling word frequency lists: problems of homonymy. Ms. University of Sarajevo and University of Oslo.
Leko 98b
Leko, Nedzad. Some lexical doublets in the Oslo Corpus of Bosnian Tex ts: A comparison with a previous study of doublets. Ms. University of Sarajevo and University of Oslo.
Leko 98c
Leko, Nedzad. Some problems in compiling a frequency dictionary from the Oslo Corpus of Bosnian Texts.Ms. University of Sarajevo and University of Oslo.
Leko 98d
Leko, Nedzad. Polarity Items in Bosnian. Ms. University of Sarajevo and University of Oslo.
Leko 98e
Leko, Nedzad. Recent changes in the Bosnian language as reflected by and documente d from the Oslo Corpus of Bosnian Texts. Ms. University of Sarajevo and University of Oslo.
Santos 98
Santos, Diana. Providing access to language resources through the World Wide Web: the Oslo Corpus of Bosnian Texts. Proceedings of The First International Conference on Language Resources and Evaluation (Granada, 28-30 May 1998), rtf

Obavijestite nas o novim publikacijama radjjenim uz korisstenje korpusa, kako bi ih eventualno uccinili dostupnim na ovoj stranici.

[Pretrazzivanje korpusa ] [Poccetna stranica Laboratorije za obradu tekstova] [Vrh stranice ]

Verzija

Ovo je verzija korpusa 1.1 i verzija interfejsa 2.1, kreirana 20. aprila 1998.

[Pretrazzivanje korpusa ] [Poccetna stranica Laboratorije za obradu tekstova] [Vrh stranice ]

Ostalo

Zzelimo izraziti zahvalnost Helge Hauglinu za njegovu pomoch prilikom "debugging" CGI programa, i Kjetil Rå Haugeu za informaciju o vrstama slova i povratnu informaciju iz ugla dobro obavijesstenog korisnika, kao i ljudima sa Univerziteta u SStutgartu za generalnu tehniccku podrssku vezanu za CQP.

Nedzad Leko je bio prvi korisnik nasseg korpusa i zahvalni smo mu zbog pomochi i sugestija, kao i zbog ustupanja radova radjjenih uz korisstenje korpusa, ukljuccujuchi i prvu listu hiljadu najfrekventnijih rijecci i oblika.

[Pretrazzivanje korpusa ] [Poccetna stranica Laboratorije za obradu tekstova] [Vrh stranice ]

Kako nas mozzete kontaktirati

Kontaktirajte profesora Sveina Mønneslanda ako je vassa poruka na bosanskom, svein.monnesland@east.uio.no.

Svein Mønnesland
Institute for Central European and Oriental Studies,
University of Oslo,
Postboks 1030
Blindern, N-0315 Oslo
Norway

+47-2285 6702

+47-2285 4140

Kontaktirajte Laboratoriju za obradu tekstova na adresi tekstlab@ilf.uio.no ako je vassa poruka na engleskom. Za detaljnije informacije mozzete pogledati kontaktnu stranicu Laboratorije za obradu tekstova.

[Pretrazzivanje korpusa ] [Poccetna stranica Laboratorije za obradu tekstova] [Vrh stranice ]

Posljednji put modificirano 27. aprila 1998.: DMS. Kontaktirajte nas.