[The Oslo Corpus of Bosnian
Texts]
Korpus bosanskih tekstova na Univerzitetu u Oslu (Oslo korpus) ima oko
milion i petsto hiljada rijecci, a enkodiran je uz pomoch programa IMS corpus workbench koji je razvijen na Univerzitetu
u SStutgartu (Institut fur Maschinelle Sprachverarbeitung). Ovome je
dodat odgovarajuchi interfejs u Laboratoriji za obradu
tekstova na Univerzitetu u Oslu.
- Sadrzzaj korpusa
- Tipovi upita koji su dostupni
- Kako dobiti odobrenje za korisstenje korpusa
- Kako dobiti i kreirati ispravnu vrstu slova
- Tehniccke informacije
- Hiljadu najfrekventnijih rijecci i oblika
- Dostupne publikacije o korpusu
- Verzija
- Ostalo
- Kako nas mozzete kontaktirati
Korpus je sastavljen na Univerzitetu u Oslu kao zajedniccki projekat Odsjeka za istoccnoevropske i orijentalne studije i Laboratorije za obradu tekstova. Korpus sadrzzi oko milion i ssesto hiljada
rijecci i obuhvata razliccite zzanrove: beletristiku (romane i pricce), esejistiku, djecciju literaturu,
narodnu knjizzevnost, pravne i islamske tekstove i publicistiku. Autori tekstova su iz Bosne i
Hercegovine, a tekstovi su uglavnom objavljeni u periodu od 1990.- 1997. godine. Korpus
pruzza novu osnovu za istrazzivanje jezika u Bosni i Hercegovini.
Sastavljanje korpusa je nadgledala docent Janne Bondi Johannessen, a profesor Svein Mønnesland je bio zaduzzen za odabir i kompilaciju tekstova. Gordana Vranich i Kemila Bassich su se potrudile da tekstovi budu elektronski dostupni (skeniranjem i adaptacijom) u obliku tekst fajli. Diana Santos je izgradila korpus zasnovan na tim fajlama u odgovarajuchem formatu (visse podataka o tome mozzete proccitati u nastavku), te napisala Web interfejs.
Vlasnici autorskih prava su ljubazno dali odobrenje za korisstenje njihovih tekstova u ovom korpusu. Tekstovi preuzeti iz knjiga ne obuhvataju visse od tri ccetvrtine te knjige.
Izvor tekstova i njihov obim detaljno su precizirani u sadrzzaju (vidi stranicu "Sadrzzaj").
Kada se postavlja upit korpusu, mozze se trazziti konkordanca (KWIC,
kljuccna rijecc u kontekstu, ssto je default moguchnost), ili se mozze
trazziti distribucija rezultata, prema oblicima, ili prema izvoru teksta.
Uz to, mozze se, u jednom te istom upitu, traziti i konkordanca i
distribucija.
Iako planiramo da ponudimo jednostavniji oblik postavljanja upita koji bi
bio potpuno zasnovan na meniju, trenutno se gotovo potpuno oslanjamo na CQP
query sintaksu (vidi Corpus Query Processor razvijen u Stuttgartu).
CQP omoguchava da se na kompaktan naccin izraze priliccno kompleksni
izbori, upotrebljavajuchi pri tom redovne izraze.
Kratak opis query sintakse mozze se nachi, zajedno sa primjerima za druge
jezike, na adresi http://www.ims.uni-stuttgart.de/projekte/tc/CQPSyntax.html.
Primjeri bosanskih upita su:
Vazzno je znati da je moguche, pored formalnih obiljezzja samog teksta, takodje postavljati upite o tipu teksta, autoru, datumu, pa ccak i o pojedinaccnom djelu. Za pregled moguchnosti koje nudi klasifikacija tekstova,
pogledajte stranicu "Sadrzzaj". Neki primjeri:
Oslo korpus bosanskih tekstova je dostupan svima koji ga zzele koristiti za nekomercijalne akademske svrhe. Odobrenje za korisstenje korpusa mozzete trazziti e-mailom od tekstlab@ilf.uio.no. Poruka treba da sadrzzi:
- IME,
- ADRESU,
- INSTITUCIJU,
- predlozzeno KORISNICCKO IME za korpus,
- predlozzena SSIFRA za korisstenje korpusa (koja se razlikuje od Vasse standardne ssifre),
- IZJAVU 1 ("Obechavam da chu
koristiti Oslo korpus bosanskih tekstova jedino za akademske, nekomercijalne svrhe"),
- IZJAVU 2 ("Obechavam da nechu otkriti svoju ssifru (password) nekoj drugoj osobi
ili instituciji").
- IZJAVU 3 ("U svim materijalima (objavljenim ili neobjavljenim) za cciju je pripremu
korissten korpus, naznaccichu na odgovarajuchi naccin ime korpusa i u
referencama navesti njegovu Internet adresu."
ili ispunite ovaj obrazac. Uskoro chete primiti nass odgovor.
Da bi vidjeli tekstove iz korpusa sa slovima koja se ne koriste u engleskom, na pr. ss, zz, cc, ch, morate imati podrssku za ISO-8859-2 u kompjuteru. Ako rezultati vasseg pretrazzivanja ne izgledaju zadovoljavajuche, mozzete
- slijediti uputstva da ih poboljssate,
- ili odabrati all-ASCII display u upitu
Ako ne mozzete dobiti slova kao ss, zz, cc, ch direktno, mozzete umjesto njih koristiti oktalne kodove tih slova, njihove standardne "alongacije" ili odgovarajucha ISO-8859-1 slova (Latin 1). Ove moguchnosti su predstavljene na tabeli:
Bosanski | Oktalni kodovi | Alongacije | Latin 1
|
---|
| \306 | Ch | Æ
|
\346 | ch | æ
|
| \310 | CC | È
|
\350 | cc | è
|
| \320 | Djj | Ð
|
\360 | djj | ð
|
| D\256 | Dz | D®
|
d\276 | dz | d¾
|
| \251 | SS | ©
|
\271 | ss | ¹
|
| \256 | ZZ, Zh | ®
|
\276 | zz, zh | ¾
|
Evo i nekoliko primjera:
- "stra\271no", "\276ivim", "\271aljivd\276ija"
- stra¹no, ¾ivim ¹aljivd¾ija
- strassno, zzivim, ssaljivdzija
Vodite raccuna da
- ako zzelite da u inputu imate oktalne kodove, rijecci moraju biti
u navodnim znacima.
- da bi enkodiranje slova uccinili nedvosmislenim,
promijenili smo
standardnu notaciju u Djj i
djj. Ovo se ne odnosi na pokazivanje
rezultata, koje je prema standardu. Drugim rijeccima, trazzite
Djje u vassem upitu, ali chete vidjeti Dje ako ste odabrali
all-ASCII naccin.
- ccak i ako unesete ta slova kao niz slova, bosanska
slova se smatraju kao jedno slovo, osim slova , koje se smatra kao D d
iza kojeg slijedi
.
S obzirom da u CQP sintaksi "." predstavlja jedno, bilo koje slovo, to znacci da che na pr. stra.no biti jednako kao strassno, dok .amijskih neche biti jednako kao dzamijskih.
Tehniccke informacije
Ovo je front-end za CQP, Corpus Query Processor, u okviru programa IMS Corpus Workbench koji su razvili Oliver Christ i Bruno Maximilian Schulze na Institut fur Maschinelle Sprachverarbeitung na Univerzitetu u SStutgartu. Mozzete konsulrirati njihov spisak ccesto postavljanih pitanja (FAQ) na adresi http://www.ims.uni-stuttgart.de/CorpusToolbox/FAQ.html.
Izrazzavamo zahvalnost za odobrenje da koristimo CQP u svrhe istrazzivanja.
Oni koji poznaju CQP query sintaksu mogu koristiti (gotovo) sav njen potencijal. Odredjjena
ograniccenja su opisana u nastavku.
Korpus je enkodiran u ISO-8859-2
setu slova. Uputstva o tome kako da prilagodite svoj browser za
neke od najuobiccajenijih platformi mogu se proccitati ovdje.
Possto se ne mozze occekivati da che svaki korisnik imati pristup browseru koji omoguchava ispravan prikaz na ekranu ISO-8859-2 enkodiranih dokumenata, all-ASCII display opcija je dostupna u postavljanju upita, ssto omoguchava standardni prikaz specificcnih slova u formi dva slova, kao ssto je opisano gore.
Korpus je kreiran skeniranjem knjiga i drugog sstampanog materijala
koristechi uredjjaj za opticcko prepoznavanje slova (OCR); u rijetkim sluccajevima, dijelovi korpusa su vech bili u elektronskom formatu.
Nekoliko redaktorskih korekcija je uvrssteno:
-
Neke occigledne sstamparske gresske koje su uoccene prilikom kreiranja korpusa su ispravljene.
- Izbacceni su oni dijelovi koji nisu tekstualni, kao fotografije, crtezzi, tabele, i sadrzzaji.
- U nekim sluccajevima fragmenti teksta su izbacceni (citati na engleskom ili ruskom jeziku, reference, sportski rezultati, i td.). Kad god su takvi fragmenti uocceni unutar teksta, njihovo izbacivanje je oznacceno sa "/.../" u korpusu, kako bi se izbjegla nekoherentnost teksta.
- Na mjestima gdje je znaccajan dio teksta bio pisan velikim slovima zbog
stilskih razloga, promijenili smo to u mala slova, zadrzzavajuchi velika
slova samo na poccetku reccenice i kod imena.
- Isto je uccinjeno u sluccajevima gdje su rijecci pisane velikim slovima da
bi se uveli novi pojmovi ili osobe u djeccijoj knjizzevnosti.
- Informacije o autorima novinskih cclanaka, mjestu i vremenu, ime novinske
agencije, uredniccki komentari kao "Nastaviche se" i sliccni, te nazivi
pojedinih novinskih rubrika, su izbrisani.
- Informacija o vrsti slova, kao masna slova, kurziv i sl.,nije ukljuccena,
izuzev u sluccajevima kada su autori upotrijebili razmak unutar rijecci,
kao na pr. o v d j e, da bi ih istakli.
Da bi se ovo promijenilo, bilo bi potrebno redigovati sve fajle, pa smo
odluccili samo da upozorimo korisnike, bar u ovoj verziji korpusa.
Korpus je automatski izveden u CQP formatu iz Word tekst fajli sa meta-informacijom u zaglavlju, i iz
sadrzzaja koji je ukljuccio korektan tekst identifikator koji je kao Word fajl kreirala Gordana Vranich. Korpus nije manuelno revidiran nakon konverzije, tako da je moguche da se zbog toga pojave neki problemi.
Molimo vas da nas izvjestite o svakom takvom problemu, kao i o opsstim problemima, sugestijama za poboljssanje, itd., na nassu adresu.
Korisnici sistema moraju obratiti pazznju na sljedeche:
- Korpus je podijeljen samo na tekstove, ali se podjela na paragrafe i reccenice mozze occekivati u kasnijoj verziji.
- Korpus je anotiran, za svaku rijecc, jedinstvenim identifikatorom koji upuchuje na izvor. Tag se zove ori unutar CQP.
Nadamo se da chemo kasnije biti u stanju pokazati, za svaki redak konkordance, identifikaciju
njegovog izvora. Trenutno imamo jedino moguchnost da ograniccimo upit
zasnovan na identifikaciji njegovog izvora.
- Velika i mala slova su zasebno enkodirana.
- Znaci interpunkcije su enkodirani kao zasebni simboli, tako da se mogu trazziti, na primjer, rijecci iza kojih slijedi zarez.
- Da bi napravili razliku izmedjju navodnih znakova koji stoje na poccetku i na kraju, za ssto ne postoji zasebno enkodiranje u ISO-8859-2, oni su interno enkodirani kao bq, odnosno eq. Ovo omoguchuje korisniku da trazzi bq. Medjjutim, u outputu che biti prikazani kao standardni dupli navodni znaci. Isto vazzi za jednostruke navodnike, koji su enkodirani kao bsq i esq.
Interfejs za pretrazzivanje vam omoguchava:
- da postavite upit u CQP stilu
- da odaberete da li che output biti prikazan kao Latin 2 ili Lower ASCII
- da odabereta koliki che kontekst biti prikazan u konkordanci
- da napravite sluccajan izbor odgovarajuchih oblika (0 znacci da neche biti primjera)
- da odaberete vrstu outputa koji se trazzi (konkordanca, distribucija
oblika, distribucija izvora, konkordanca plus distribucija).
Output se dobije sa naznakom upita koji je korisnik postavio, datumom
upita, i brojem nadjjenih oblika.
Ako je nadjjen jedan ili visse oblika, a trazzila se konkordanca, biche
prikazan broj primjera koji su pronadjjeni, kao i broj primjera koji che se
mochi vidjeti na ekranu. Iza toga che slijediti nadjjeni primjeri sa
istaknutim oblikom koji se trazzio.
Ako je trazzena distribucija, output che biti u jednostavnom tabelarnom
formatu, prema opadajuchem redu frekvencije.
U nekim sluccajevima, upozorenje ili ponuda pomochi che biti upucheni. Na
ovaj naccin se zzeli ponuditi pomoch svima koji prvi put koriste sistem. Na
primjer,
- Ne trazzite distribuciju oblika kada je nadjjen samo jedan oblik kao
rezultat upita
- Ne koristite * umjesto .* (a* znacci nekoliko 'a', a ne 'a' iza kojeg
slijedi nessto drugo: za to morate napisati a.*)
- Ne trazzite nessto within X kada X nije vazzechi strukturalni atribut
- Ne koristite razmak unutar oblika. Ako zelite trazziti dvije rijecci,
morate ih staviti u navodne znake.
Ograniccenja
Da bi sprijeccili korisnike da preuzmu cijele tekstove, primijenjena su ova ograniccenja:
Poredjjenje sa direktnim korisstenjem CQP-a
U poredjjenju sa standardnim karakteristikama CQP sistema, neka njegova obiljezzja se ovdje ne mogu koristiti, prvenstveno
- upotreba podkorpusa
- pokazivanje vecheg konteksta
Ograniccenja koja su gore opisana ne vazze ako imate direktan pristup CQP-u i korpus u vassem kompjuteru.
Medjjutim, identifikacija izvora uz svaki primjer je unapredjjenje u
poredjjenju sa CQP i Xkwic programima.
Planirana poboljssanja
U buduchnosti planiramo dodati sljedeche moguchnosti Web interfejsu:
- moguchnost sortiranja konkordanci prema nekoliko razliccitih kriterija
(sada se one pokazuju na ekranu prema redosljedu u korpusu, ili nasumiccno)
- moguchnost da rezultati upita ne ovise od toga da li je u upitu korissteno
malo ili veliko slovo
- moguchnost da se dobije ukrsstena distribucija, t.j. da oblici budu
rasporedjjeni prema njihovom izvoru
- moguchnost da se dobije relativna distribucija, umjesto apsolutne, i to
odmjerena prema koliccini teksta u razliccitim tipovima teksta.
Sugestije za druge moguchnosti, kao i argumentovane prituzzbe, uvijek su dobro dossle.
- Leko 98a
- Leko, Nedzad. Compiling word frequency lists: problems of homonymy. Ms. University of Sarajevo and University of Oslo.
- Leko 98b
- Leko, Nedzad. Some lexical doublets in the Oslo Corpus of Bosnian Tex
ts: A comparison with a previous study of doublets. Ms. University of Sarajevo and University of Oslo.
- Leko 98c
- Leko, Nedzad. Some problems in compiling a frequency dictionary from
the Oslo Corpus of Bosnian Texts.Ms. University of Sarajevo and University of Oslo.
- Leko 98d
- Leko, Nedzad. Polarity Items in Bosnian. Ms. University of Sarajevo and University of Oslo.
- Leko 98e
- Leko, Nedzad. Recent changes in the Bosnian language as reflected by and documente
d from the Oslo Corpus of Bosnian Texts. Ms. University of Sarajevo and University of Oslo.
- Santos 98
- Santos, Diana. Providing access to language
resources through the World Wide Web: the Oslo Corpus of Bosnian
Texts. Proceedings of The First International Conference on
Language Resources and Evaluation (Granada, 28-30 May 1998), rtf
Obavijestite nas o novim publikacijama radjjenim uz korisstenje korpusa,
kako bi ih eventualno uccinili dostupnim na ovoj stranici.
Ovo je verzija korpusa 1.1 i verzija interfejsa 2.1, kreirana 20. aprila 1998.
Zzelimo izraziti zahvalnost Helge Hauglinu za njegovu pomoch prilikom "debugging" CGI programa, i Kjetil Rå Haugeu za informaciju o vrstama slova i povratnu informaciju iz ugla dobro obavijesstenog korisnika, kao i ljudima sa Univerziteta u SStutgartu za generalnu tehniccku podrssku vezanu za CQP.
Nedzad Leko je bio prvi korisnik nasseg korpusa i zahvalni smo mu zbog
pomochi i sugestija, kao i zbog ustupanja radova radjjenih uz korisstenje
korpusa, ukljuccujuchi i prvu listu hiljadu najfrekventnijih rijecci i
oblika.
Kontaktirajte profesora Sveina Mønneslanda ako je vassa poruka
na bosanskom, svein.monnesland@east.uio.no.
Svein Mønnesland
Institute for Central European and Oriental Studies,
University of Oslo,
Postboks 1030
Blindern, N-0315 Oslo
Norway
+47-2285 6702
+47-2285 4140
Kontaktirajte Laboratoriju za obradu tekstova na adresi tekstlab@ilf.uio.no
ako je vassa poruka na engleskom.
Za detaljnije informacije mozzete pogledati kontaktnu stranicu Laboratorije
za obradu tekstova.
Posljednji put modificirano 27. aprila 1998.: DMS.
Kontaktirajte nas.