[The Oslo Corpus of Bosnian
Texts]
U slučaju da slova č, ć, š, ž, dž, đ nisu ispravno pokazana,
odaberite ovu alternativnu stranicu.
Korpus bosanskih tekstova na Univerzitetu u Oslu (Oslo korpus) ima oko
milion i petsto hiljada riječi, a enkodiran je uz pomoć programa IMS corpus workbench koji je razvijen na Univerzitetu
u Štutgartu (Institut fur Maschinelle Sprachverarbeitung). Ovome je
dodat odgovarajući interfejs u Laboratoriji za obradu
tekstova na Univerzitetu u Oslu.
- Sadržaj korpusa
- Tipovi upita koji su dostupni
- Kako dobiti odobrenje za korištenje korpusa
- Kako dobiti i kreirati ispravnu vrstu slova
- Tehničke informacije
- Hiljadu najfrekventnijih riječi i oblika
- Dostupne publikacije o korpusu
- Verzija
- Ostalo
- Kako nas možete kontaktirati
Korpus je sastavljen na Univerzitetu u Oslu kao zajednički projekat Odsjeka za istočnoevropske i orijentalne studije i Laboratorije za obradu tekstova. Korpus sadrži oko milion i šesto hiljada
riječi i obuhvata različite žanrove: beletristiku (romane i priče), esejistiku, dječiju literaturu,
narodnu književnost, pravne i islamske tekstove i publicistiku. Autori tekstova su iz Bosne i
Hercegovine, a tekstovi su uglavnom objavljeni u periodu od 1990.- 1997. godine. Korpus
pruža novu osnovu za istraživanje jezika u Bosni i Hercegovini.
Sastavljanje korpusa je nadgledala docent Janne Bondi Johannessen, a profesor Svein Moennesland je bio zadužen za odabir i kompilaciju tekstova. Gordana Vranić i Kemila Bašić su se potrudile da tekstovi budu elektronski dostupni (skeniranjem i adaptacijom) u obliku tekst fajli. Diana Santos je izgradila korpus zasnovan na tim fajlama u odgovarajućem formatu (više podataka o tome možete pročitati u nastavku), te napisala Web interfejs.
Vlasnici autorskih prava su ljubazno dali odobrenje za korištenje njihovih tekstova u ovom korpusu. Tekstovi preuzeti iz knjiga ne obuhvataju više od tri četvrtine te knjige.
Izvor tekstova i njihov obim detaljno su precizirani u sadržaju (vidi stranicu "Sadržaj").
Kada se postavlja upit korpusu, može se tražiti konkordanca (KWIC,
ključna riječ u kontekstu, što je default mogućnost), ili se može
tražiti distribucija rezultata, prema oblicima, ili prema izvoru teksta.
Uz to, može se, u jednom te istom upitu, traziti i konkordanca i
distribucija.
Iako planiramo da ponudimo jednostavniji oblik postavljanja upita koji bi
bio potpuno zasnovan na meniju, trenutno se gotovo potpuno oslanjamo na CQP
query sintaksu (vidi Corpus Query Processor razvijen u Stuttgartu).
CQP omogućava da se na kompaktan način izraze prilično kompleksni
izbori, upotrebljavajući pri tom redovne izraze.
Kratak opis query sintakse može se naći, zajedno sa primjerima za druge
jezike, na adresi http://www.ims.uni-stuttgart.de/projekte/tc/CQPSyntax.html.
Primjeri bosanskih upita su:
Važno je znati da je moguće, pored formalnih obilježja samog teksta, takodje postavljati upite o tipu teksta, autoru, datumu, pa čak i o pojedinačnom djelu. Za pregled mogućnosti koje nudi klasifikacija tekstova,
pogledajte stranicu "Sadržaj". Neki primjeri:
Da bi vidjeli tekstove iz korpusa sa slovima koja se ne koriste u engleskom, na pr. š, ž, č, ć, morate imati podršku za ISO-8859-2 u kompjuteru. Ako rezultati vašeg pretraživanja ne izgledaju zadovoljavajuće, možete
- slijediti uputstva da ih poboljšate,
- ili odabrati all-ASCII display u upitu
Ako ne možete dobiti slova kao š, ž, č, ć direktno, možete umjesto njih koristiti oktalne kodove tih slova, njihove standardne "alongacije" ili odgovarajuća ISO-8859-1 slova (Latin 1). Ove mogućnosti su predstavljene na tabeli:
Bosanski | Oktalni kodovi | Alongacije | Latin 1
|
---|
| \306 | Ch | Æ
|
\346 | ch | æ
|
| \310 | CC | È
|
\350 | cc | è
|
| \320 | Djj | Ð
|
\360 | djj | ð
|
| D\256 | Dz | D®
|
d\276 | dz | d¾
|
| \251 | SS | ©
|
\271 | ss | ¹
|
| \256 | ZZ, Zh | ®
|
\276 | zz, zh | ¾
|
Evo i nekoliko primjera:
- "stra\271no", "\276ivim", "\271aljivd\276ija"
- stra¹no, ¾ivim, ¹aljivd¾ija
- strassno, zzivim, ssaljivdzija
Vodite računa da
- ako želite da u inputu imate oktalne kodove, riječi moraju biti
u navodnim znacima.
- da bi enkodiranje slova učinili nedvosmislenim,
promijenili smo
standardnu notaciju u Đ i
đ. Ovo se ne odnosi na pokazivanje
rezultata, koje je prema standardu. Drugim riječima, tražite
Đe u vašem upitu, ali ćete vidjeti Dje ako ste odabrali
all-ASCII način.
- čak i ako unesete ta slova kao niz slova, bosanska
slova se smatraju kao jedno slovo, osim slova , koje se smatra kao D d
iza kojeg slijedi
.
S obzirom da u CQP sintaksi "." predstavlja jedno, bilo koje slovo, to znači da će na pr. stra.no biti jednako kao strašno, dok .amijskih neće biti jednako kao džamijskih.
Tehničke informacije
Ovo je front-end za CQP, Corpus Query Processor, u okviru programa IMS Corpus Workbench koji su razvili Oliver Christ i Bruno Maximilian Schulze na Institut fur Maschinelle Sprachverarbeitung na Univerzitetu u Štutgartu. Možete konsulrirati njihov spisak često postavljanih pitanja (FAQ) na adresi http://www.ims.uni-stuttgart.de/CorpusToolbox/FAQ.html.
Izražavamo zahvalnost za odobrenje da koristimo CQP u svrhe istraživanja.
Oni koji poznaju CQP query sintaksu mogu koristiti (gotovo) sav njen potencijal. Određena
ograničenja su opisana u nastavku.
Korpus je enkodiran u ISO-8859-2
setu slova. Uputstva o tome kako da prilagodite svoj browser za
neke od najuobičajenijih platformi mogu se pročitati ovdje.
Pošto se ne može očekivati da će svaki korisnik imati pristup browseru koji omogućava ispravan prikaz na ekranu ISO-8859-2 enkodiranih dokumenata, all-ASCII display opcija je dostupna u postavljanju upita, što omogućava standardni prikaz specifičnih slova u formi dva slova, kao što je opisano gore.
Korpus je kreiran skeniranjem knjiga i drugog štampanog materijala
koristeći uređaj za optičko prepoznavanje slova (OCR); u rijetkim slučajevima, dijelovi korpusa su već bili u elektronskom formatu.
Nekoliko redaktorskih korekcija je uvršteno:
-
Neke očigledne štamparske greške koje su uočene prilikom kreiranja korpusa su ispravljene.
- Izbačeni su oni dijelovi koji nisu tekstualni, kao fotografije, crteži, tabele, i sadržaji.
- U nekim slučajevima fragmenti teksta su izbačeni (citati na engleskom ili ruskom jeziku, reference, sportski rezultati, i td.). Kad god su takvi fragmenti uočeni unutar teksta, njihovo izbacivanje je označeno sa "/.../" u korpusu, kako bi se izbjegla nekoherentnost teksta.
- Na mjestima gdje je značajan dio teksta bio pisan velikim slovima zbog
stilskih razloga, promijenili smo to u mala slova, zadržavajući velika
slova samo na početku rečenice i kod imena.
- Isto je učinjeno u slučajevima gdje su riječi pisane velikim slovima da
bi se uveli novi pojmovi ili osobe u dječijoj književnosti.
- Informacije o autorima novinskih članaka, mjestu i vremenu, ime novinske
agencije, urednički komentari kao "Nastaviće se" i slični, te nazivi
pojedinih novinskih rubrika, su izbrisani.
- Informacija o vrsti slova, kao masna slova, kurziv i sl.,nije uključena,
izuzev u slučajevima kada su autori upotrijebili razmak unutar riječi,
kao na pr. o v d j e, da bi ih istakli.
Da bi se ovo promijenilo, bilo bi potrebno redigovati sve fajle, pa smo
odlučili samo da upozorimo korisnike, bar u ovoj verziji korpusa.
Korpus je automatski izveden u CQP formatu iz Word tekst fajli sa meta-informacijom u zaglavlju, i iz
sadržaja koji je uključio korektan tekst identifikator koji je kao Word fajl kreirala Gordana Vranić. Korpus nije manuelno revidiran nakon konverzije, tako da je moguće da se zbog toga pojave neki problemi.
Molimo vas da nas izvjestite o svakom takvom problemu, kao i o opštim problemima, sugestijama za poboljšanje, itd., na našu adresu.
Korisnici sistema moraju obratiti pažnju na sljedeće:
- Korpus je podijeljen samo na tekstove, ali se podjela na paragrafe i rečenice može očekivati u kasnijoj verziji.
- Korpus je anotiran, za svaku riječ, jedinstvenim identifikatorom koji upućuje na izvor. Tag se zove ori unutar CQP.
Nadamo se da ćemo kasnije biti u stanju pokazati, za svaki redak konkordance, identifikaciju
njegovog izvora. Trenutno imamo jedino mogućnost da ograničimo upit
zasnovan na identifikaciji njegovog izvora.
- Velika i mala slova su zasebno enkodirana.
- Znaci interpunkcije su enkodirani kao zasebni simboli, tako da se mogu tražiti, na primjer, riječi iza kojih slijedi zarez.
- Da bi napravili razliku između navodnih znakova koji stoje na početku i na kraju, za što ne postoji zasebno enkodiranje u ISO-8859-2, oni su interno enkodirani kao bq, odnosno eq. Ovo omogućuje korisniku da traži bq. Međutim, u outputu će biti prikazani kao standardni dupli navodni znaci. Isto važi za jednostruke navodnike, koji su enkodirani kao bsq i esq.
Interfejs za pretraživanje vam omogućava:
- da postavite upit u CQP stilu
- da odaberete da li će output biti prikazan kao Latin 2 ili Lower ASCII
- da odabereta koliki će kontekst biti prikazan u konkordanci
- da napravite slučajan izbor odgovarajućih oblika (0 znači da neće biti primjera)
- da odaberete vrstu outputa koji se traži (konkordanca, distribucija
oblika, distribucija izvora, konkordanca plus distribucija).
Output se dobije sa naznakom upita koji je korisnik postavio, datumom
upita, i brojem nađenih oblika.
Ako je nađen jedan ili više oblika, a tražila se konkordanca, biće
prikazan broj primjera koji su pronađeni, kao i broj primjera koji će se
moći vidjeti na ekranu. Iza toga će slijediti nađeni primjeri sa
istaknutim oblikom koji se tražio.
Ako je tražena distribucija, output će biti u jednostavnom tabelarnom
formatu, prema opadajućem redu frekvencije.
U nekim slučajevima, upozorenje ili ponuda pomoći će biti upućeni. Na
ovaj način se želi ponuditi pomoć svima koji prvi put koriste sistem. Na
primjer,
- Ne tražite distribuciju oblika kada je nađen samo jedan oblik kao
rezultat upita
- Ne koristite * umjesto .* (a* znači nekoliko 'a', a ne 'a' iza kojeg
slijedi nešto drugo: za to morate napisati a.*)
- Ne tražite nešto within X kada X nije važeći strukturalni atribut
- Ne koristite razmak unutar oblika. Ako zelite tražiti dvije riječi,
morate ih staviti u navodne znake.
Ograničenja
Da bi spriječili korisnike da preuzmu cijele tekstove, primijenjena su ova ograničenja:
Poređenje sa direktnim korištenjem CQP-a
U poređenju sa standardnim karakteristikama CQP sistema, neka njegova obilježja se ovdje ne mogu koristiti, prvenstveno
- upotreba podkorpusa
- pokazivanje većeg konteksta
Ograničenja koja su gore opisana ne važe ako imate direktan pristup CQP-u i korpus u vašem kompjuteru.
Međutim, identifikacija izvora uz svaki primjer je unapređenje u
poređenju sa CQP i Xkwic programima.
Planirana poboljšanja
U budućnosti planiramo dodati sljedeće mogućnosti Web interfejsu:
- mogućnost sortiranja konkordanci prema nekoliko različitih kriterija
(sada se one pokazuju na ekranu prema redosljedu u korpusu, ili nasumično)
- mogućnost da rezultati upita ne ovise od toga da li je u upitu korišteno
malo ili veliko slovo
- mogućnost da se dobije ukrštena distribucija, t.j. da oblici budu
raspoređeni prema njihovom izvoru
- mogućnost da se dobije relativna distribucija, umjesto apsolutne, i to
odmjerena prema količini teksta u različitim tipovima teksta.
Sugestije za druge mogućnosti, kao i argumentovane pritužbe, uvijek su dobro došle.
- Browne 98
- Browne, Wayles. Agreement with infinitive subjects in Slavic; with a note on Corbett's notion of `real distance'.
(Paper given at workshop on Comparative Slavic Morphosyntax, Bloomington, Indiana, 5-7 June 1998)
- Jakopin 99
- Jakopin, Primož. Upper
bound of entropy in Slovenian literary texts (paper written in Slovenian; English abstract
here). Ph.D thesis, Ljubljana
University.
- Leko 98a
- Leko, Nedzad. Compiling word frequency lists: problems of homonymy. Ms. University of Sarajevo and University of Oslo.
- Leko 98b
- Leko, Nedzad. Some lexical doublets in the Oslo Corpus of Bosnian Tex
ts: A comparison with a previous study of doublets. Ms. University of Sarajevo and University of Oslo.
- Leko 98c
- Leko, Nedzad. Some problems in compiling a frequency dictionary from
the Oslo Corpus of Bosnian Texts. Ms. University of Sarajevo and University of Oslo.
- Leko 98d
- Leko, Nedzad. Polarity Items in Bosnian. Ms. University of Sarajevo and University of Oslo.
- Leko 98e
- Leko, Nedzad. Recent changes in the Bosnian language as reflected by and documente
d from the Oslo Corpus of Bosnian Texts. Ms. University of Sarajevo and University of Oslo.
- Santos 98
- Santos, Diana. Providing access to language
resources through the World Wide Web: the Oslo Corpus of Bosnian
Texts. Proceedings of The First International Conference on
Language Resources and Evaluation (Granada, 28-30 May 1998), rtf
- Szucsich 2002
- Szucsich, Luka. Nominale Adverbiale im Russischen. Syntax,
Semantik und Informationsstruktur. Otto Sagner Verlag: München
(Munich).
- Hellman 2005
- Hellman, Matias. Znati and um(j)eti in Serbian, Croatian and Bosnian.Grammaticalisation of Habitual Auxiliaries. Slavica Helsingiensia 25. PDF
Obavijestite nas o novim publikacijama rađenim uz korištenje korpusa,
kako bi ih eventualno učinili dostupnim na ovoj stranici.
Ovo je verzija korpusa 1.1 i verzija interfejsa 2.1, kreirana 20.aprila 1998.
Zzelimo izraziti zahvalnost Helge Hauglinu za njegovu pomoć prilikom "debugging" CGI programa, i Kjetil Rĺ Haugeu za informaciju o vrstama slova i povratnu informaciju iz ugla dobro obaviještenog korisnika, kao i ljudima sa Univerziteta u Štutgartu za generalnu tehničku podršku vezanu za CQP.
Nedžad Leko je bio prvi korisnik našeg korpusa i zahvalni smo mu zbog
pomoći i sugestija, kao i zbog ustupanja radova rađenih uz korištenje
korpusa, uključujući i prvu listu hiljadu najfrekventnijih riječi i
oblika.
Kontaktirajte profesora Sveina Moenneslanda ako je vaša poruka
na bosanskom, svein.monnesland@east.uio.no.
Svein Moennesland
Institute for Central European and Oriental Studies,
University of Oslo,
Postboks 1030
Blindern, N-0315 Oslo
Norway
+47-2285 6702
+47-2285 4140
Kontaktirajte Laboratoriju za obradu tekstova na adresi tekstlab-post@iln.uio.no
ako je vaša poruka na engleskom.
Za detaljnije informacije možete pogledati kontaktnu stranicu Laboratorije
za obradu tekstova.
Posljednji put modificirano 28. aprila 1998.: DMS.
Kontaktirajte nas.