Korpus bosanskih tekstova na Univerzitetu u Oslu

U slučaju da slova č, ć, š, ž, dž, đ nisu ispravno pokazana, odaberite ovu alternativnu stranicu.

Korpus bosanskih tekstova na Univerzitetu u Oslu (Oslo korpus) ima oko milion i petsto hiljada riječi, a enkodiran je uz pomoć programa IMS corpus workbench koji je razvijen na Univerzitetu u Štutgartu (Institut fur Maschinelle Sprachverarbeitung). Ovome je dodat odgovarajući interfejs u Laboratoriji za obradu tekstova na Univerzitetu u Oslu.

Sadržaj korpusa
Tipovi upita koji su dostupni
Kako dobiti odobrenje za korištenje korpusa
Kako dobiti i kreirati ispravnu vrstu slova
Tehničke informacije
Hiljadu najfrekventnijih riječi i oblika
Dostupne publikacije o korpusu
Verzija
Ostalo
Kako nas možete kontaktirati

[Pretrazivanje korpusa] [Početna strana Laboratorije za obradu tekstova]

Sadržaj korpusa

Korpus je sastavljen na Univerzitetu u Oslu kao zajednički projekat Odsjeka za istočnoevropske i orijentalne studije i Laboratorije za obradu tekstova. Korpus sadrži oko milion i šesto hiljada riječi i obuhvata različite žanrove: beletristiku (romane i priče), esejistiku, dječiju literaturu, narodnu književnost, pravne i islamske tekstove i publicistiku. Autori tekstova su iz Bosne i Hercegovine, a tekstovi su uglavnom objavljeni u periodu od 1990.- 1997. godine. Korpus pruža novu osnovu za istraživanje jezika u Bosni i Hercegovini.

Sastavljanje korpusa je nadgledala docent Janne Bondi Johannessen, a profesor Svein Moennesland je bio zadužen za odabir i kompilaciju tekstova. Gordana Vranić i Kemila Bašić su se potrudile da tekstovi budu elektronski dostupni (skeniranjem i adaptacijom) u obliku tekst fajli. Diana Santos je izgradila korpus zasnovan na tim fajlama u odgovarajućem formatu (više podataka o tome možete pročitati u nastavku), te napisala Web interfejs.

Vlasnici autorskih prava su ljubazno dali odobrenje za korištenje njihovih tekstova u ovom korpusu. Tekstovi preuzeti iz knjiga ne obuhvataju više od tri četvrtine te knjige. Izvor tekstova i njihov obim detaljno su precizirani u sadržaju (vidi stranicu "Sadržaj").

[Pretraživanje korpusa] [Početna stranica Laboratorije za obradu tekstova] [Vrh stranice]

Tipovi upita koji su dostupni

Kada se postavlja upit korpusu, može se tražiti konkordanca (KWIC, ključna riječ u kontekstu, što je default mogućnost), ili se može tražiti distribucija rezultata, prema oblicima, ili prema izvoru teksta. Uz to, može se, u jednom te istom upitu, traziti i konkordanca i distribucija.

Iako planiramo da ponudimo jednostavniji oblik postavljanja upita koji bi bio potpuno zasnovan na meniju, trenutno se gotovo potpuno oslanjamo na CQP query sintaksu (vidi Corpus Query Processor razvijen u Stuttgartu). CQP omogućava da se na kompaktan način izraze prilično kompleksni izbori, upotrebljavajući pri tom redovne izraze. Kratak opis query sintakse može se naći, zajedno sa primjerima za druge jezike, na adresi http://www.ims.uni-stuttgart.de/projekte/tc/CQPSyntax.html.

Primjeri bosanskih upita su:

"sebi" Svi primjeri riječi sebi. Slijedite ovu vezu.
"kak.*" Sve riječi koje počinju slovima kak. Slijedite ovu vezu.
".*ovati" Sve riječi koje završavaju nizom ovati (=infinitivi, na pr. kritikovati). Slijedite ovu vezu.
".*t" "ć.*" Svi nizovi koji se sastoje od dvije susjedne riječi kod kojih prva završava na t a druga počinje sa ć (=puni oblik budućeg vremena, na pr. vidjet ćeš). Slijedite ovu vezu.
"da" []{0,7} "se" Riječ da iza koje slijedi se koje može biti odvojeno od da sa najviše sedam riječi. Slijedite ovu vezu.
"u" []* "u" []* "u" within p Paragrafi koji u sebi sadrže bar tri primjera riječi u.
Ovo se još ne može primijeniti, pošto korpus nije organizovan u paragrafe, t.j. ne postoji strukturalni atribut pod imenom p.
Slijedite ovu vezu kako bi vidjeli prikaz na ekranu koji ne uključuje restrikciju within.
Potpunija lista primjera.

Važno je znati da je moguće, pored formalnih obilježja samog teksta, takodje postavljati upite o tipu teksta, autoru, datumu, pa čak i o pojedinačnom djelu. Za pregled mogućnosti koje nudi klasifikacija tekstova, pogledajte stranicu "Sadržaj". Neki primjeri:

[word="kak.*" & ori="PU.*"] Riječi koje počinju slovima kak u novinama ili časopisima (Kodovi koji počinju sa PU). Slijedite ovu vezu da vidite slučajan izbor 20 riječi.
[word=".*t" & ori=".*94"] []* "ć.*" Nizovi riječi (koje ne moraju biti susjedne) gdje se prva riječ završava na t a druga počinje sa ć u djelima koja su objavljena 1994. godine. Slijedite ovu vezu da vidite slučajan izbor 10 nizova.

[Pretraživanje korpusa] [Pocetna stranica Laboratorije za obradu tekstova] [Vrh stranice ]

Kako vidjeti i kreirati ispravnu vrstu slova

Da bi vidjeli tekstove iz korpusa sa slovima koja se ne koriste u engleskom, na pr. š, ž, č, ć, morate imati podršku za ISO-8859-2 u kompjuteru. Ako rezultati vašeg pretraživanja ne izgledaju zadovoljavajuće, možete

slijediti uputstva da ih poboljšate,
ili odabrati all-ASCII display u upitu

Ako ne možete dobiti slova kao š, ž, č, ć direktno, možete umjesto njih koristiti oktalne kodove tih slova, njihove standardne "alongacije" ili odgovarajuća ISO-8859-1 slova (Latin 1). Ove mogućnosti su predstavljene na tabeli:

Oktalni kodovi	Alongacije	Latin 1
\306	Ch	Æ
\346	ch	æ
\310	CC	È
\350	cc	è
\320	Djj	Ð
\360	djj	ð
D\256	Dz	D®
d\276	dz	d¾
\251	SS	©
\271	ss	¹
\256	ZZ, Zh	®
\276	zz, zh	¾

Evo i nekoliko primjera:

"stra\271no", "\276ivim", "\271aljivd\276ija"
stra¹no, ¾ivim, ¹aljivd¾ija
strassno, zzivim, ssaljivdzija

Vodite računa da

ako želite da u inputu imate oktalne kodove, riječi moraju biti u navodnim znacima.
da bi enkodiranje slova učinili nedvosmislenim, promijenili smo standardnu notaciju u Đ i đ. Ovo se ne odnosi na pokazivanje rezultata, koje je prema standardu. Drugim riječima, tražite Đe u vašem upitu, ali ćete vidjeti Dje ako ste odabrali all-ASCII način.
čak i ako unesete ta slova kao niz slova, bosanska slova se smatraju kao jedno slovo, osim slova , koje se smatra kao D d iza kojeg slijedi . S obzirom da u CQP sintaksi "." predstavlja jedno, bilo koje slovo, to znači da će na pr. stra.no biti jednako kao strašno, dok .amijskih neće biti jednako kao džamijskih.

[Pretraživanje korpusa] [Početna stranica Laboratorije za obradu tekstova] [Vrh stranice]

Tehničke informacije

IMS Corpus Workbench

Ovo je front-end za CQP, Corpus Query Processor, u okviru programa IMS Corpus Workbench koji su razvili Oliver Christ i Bruno Maximilian Schulze na Institut fur Maschinelle Sprachverarbeitung na Univerzitetu u Štutgartu. Možete konsulrirati njihov spisak često postavljanih pitanja (FAQ) na adresi http://www.ims.uni-stuttgart.de/CorpusToolbox/FAQ.html.

Izražavamo zahvalnost za odobrenje da koristimo CQP u svrhe istraživanja.

Oni koji poznaju CQP query sintaksu mogu koristiti (gotovo) sav njen potencijal. Određena ograničenja su opisana u nastavku.

[Pretraživanje korpusa] [Početna stranica Laboratorije za obradu tekstova] [Vrh stranice]

Struktura korpusa i enkodiranje

Korpus je enkodiran u ISO-8859-2 setu slova. Uputstva o tome kako da prilagodite svoj browser za neke od najuobičajenijih platformi mogu se pročitati ovdje.

Pošto se ne može očekivati da će svaki korisnik imati pristup browseru koji omogućava ispravan prikaz na ekranu ISO-8859-2 enkodiranih dokumenata, all-ASCII display opcija je dostupna u postavljanju upita, što omogućava standardni prikaz specifičnih slova u formi dva slova, kao što je opisano gore.

Korpus je kreiran skeniranjem knjiga i drugog štampanog materijala koristeći uređaj za optičko prepoznavanje slova (OCR); u rijetkim slučajevima, dijelovi korpusa su već bili u elektronskom formatu. Nekoliko redaktorskih korekcija je uvršteno:

Neke očigledne štamparske greške koje su uočene prilikom kreiranja korpusa su ispravljene.
Izbačeni su oni dijelovi koji nisu tekstualni, kao fotografije, crteži, tabele, i sadržaji.
U nekim slučajevima fragmenti teksta su izbačeni (citati na engleskom ili ruskom jeziku, reference, sportski rezultati, i td.). Kad god su takvi fragmenti uočeni unutar teksta, njihovo izbacivanje je označeno sa "/.../" u korpusu, kako bi se izbjegla nekoherentnost teksta.
Na mjestima gdje je značajan dio teksta bio pisan velikim slovima zbog stilskih razloga, promijenili smo to u mala slova, zadržavajući velika slova samo na početku rečenice i kod imena.
Isto je učinjeno u slučajevima gdje su riječi pisane velikim slovima da bi se uveli novi pojmovi ili osobe u dječijoj književnosti.
Informacije o autorima novinskih članaka, mjestu i vremenu, ime novinske agencije, urednički komentari kao "Nastaviće se" i slični, te nazivi pojedinih novinskih rubrika, su izbrisani.
Informacija o vrsti slova, kao masna slova, kurziv i sl.,nije uključena, izuzev u slučajevima kada su autori upotrijebili razmak unutar riječi, kao na pr. o v d j e, da bi ih istakli. Da bi se ovo promijenilo, bilo bi potrebno redigovati sve fajle, pa smo odlučili samo da upozorimo korisnike, bar u ovoj verziji korpusa.

Korpus je automatski izveden u CQP formatu iz Word tekst fajli sa meta-informacijom u zaglavlju, i iz sadržaja koji je uključio korektan tekst identifikator koji je kao Word fajl kreirala Gordana Vranić. Korpus nije manuelno revidiran nakon konverzije, tako da je moguće da se zbog toga pojave neki problemi.

Molimo vas da nas izvjestite o svakom takvom problemu, kao i o opštim problemima, sugestijama za poboljšanje, itd., na našu adresu.

Korisnici sistema moraju obratiti pažnju na sljedeće:

Korpus je podijeljen samo na tekstove, ali se podjela na paragrafe i rečenice može očekivati u kasnijoj verziji.
Korpus je anotiran, za svaku riječ, jedinstvenim identifikatorom koji upućuje na izvor. Tag se zove ori unutar CQP.
Nadamo se da ćemo kasnije biti u stanju pokazati, za svaki redak konkordance, identifikaciju njegovog izvora. Trenutno imamo jedino mogućnost da ograničimo upit zasnovan na identifikaciji njegovog izvora.
Velika i mala slova su zasebno enkodirana.
Znaci interpunkcije su enkodirani kao zasebni simboli, tako da se mogu tražiti, na primjer, riječi iza kojih slijedi zarez.
Da bi napravili razliku između navodnih znakova koji stoje na početku i na kraju, za što ne postoji zasebno enkodiranje u ISO-8859-2, oni su interno enkodirani kao bq, odnosno eq. Ovo omogućuje korisniku da traži bq. Međutim, u outputu će biti prikazani kao standardni dupli navodni znaci. Isto važi za jednostruke navodnike, koji su enkodirani kao bsq i esq.

[Pretraživanje korpusa] [Početna stranica Laboratorije za obradu tekstova] [Vrh stranice ]

Informacije o interfejsu za pretraživanje

Interfejs za pretraživanje vam omogućava:

da postavite upit u CQP stilu
da odaberete da li će output biti prikazan kao Latin 2 ili Lower ASCII
da odabereta koliki će kontekst biti prikazan u konkordanci
da napravite slučajan izbor odgovarajućih oblika (0 znači da neće biti primjera)
da odaberete vrstu outputa koji se traži (konkordanca, distribucija oblika, distribucija izvora, konkordanca plus distribucija).

Output se dobije sa naznakom upita koji je korisnik postavio, datumom upita, i brojem nađenih oblika.

Ako je nađen jedan ili više oblika, a tražila se konkordanca, biće prikazan broj primjera koji su pronađeni, kao i broj primjera koji će se moći vidjeti na ekranu. Iza toga će slijediti nađeni primjeri sa istaknutim oblikom koji se tražio. Ako je tražena distribucija, output će biti u jednostavnom tabelarnom formatu, prema opadajućem redu frekvencije.

U nekim slučajevima, upozorenje ili ponuda pomoći će biti upućeni. Na ovaj način se želi ponuditi pomoć svima koji prvi put koriste sistem. Na primjer,

Ne tražite distribuciju oblika kada je nađen samo jedan oblik kao rezultat upita
Ne koristite * umjesto .* (a* znači nekoliko 'a', a ne 'a' iza kojeg slijedi nešto drugo: za to morate napisati a.*)
Ne tražite nešto within X kada X nije važeći strukturalni atribut
Ne koristite razmak unutar oblika. Ako zelite tražiti dvije riječi, morate ih staviti u navodne znake.

Ograničenja

Da bi spriječili korisnike da preuzmu cijele tekstove, primijenjena su ova ograničenja:

Ne može se tražiti kontekst koji bi bio duži od 500 slova. Bez obzira koliki broj unesete, maksimalna dužina konteksta koji ćete vidjeti biće 500 slova.
Ne može se pretraživati nizove koji su duži od 2 paragrafa. Tako čak i ako zahtijevate pretraživanje u okviru 3 p, program će to promijeniti u okviru 2 p.
Ovo se ne može primijeniti pošto korpus još nije strukturiran u paragrafe.
Ne može se pretraživati u nizovima dužim od 200 riječi (od početka izraza koji pretražujete do njegovog kraja). To znači da čak i ako zahtijevate pretraživanje u okviru 2500 riječi, program će to promijeniti u okviru 200 riječi.

Poređenje sa direktnim korištenjem CQP-a

U poređenju sa standardnim karakteristikama CQP sistema, neka njegova obilježja se ovdje ne mogu koristiti, prvenstveno

upotreba podkorpusa
pokazivanje većeg konteksta

Ograničenja koja su gore opisana ne važe ako imate direktan pristup CQP-u i korpus u vašem kompjuteru.

Međutim, identifikacija izvora uz svaki primjer je unapređenje u poređenju sa CQP i Xkwic programima.

Planirana poboljšanja

U budućnosti planiramo dodati sljedeće mogućnosti Web interfejsu:

mogućnost sortiranja konkordanci prema nekoliko različitih kriterija (sada se one pokazuju na ekranu prema redosljedu u korpusu, ili nasumično)
mogućnost da rezultati upita ne ovise od toga da li je u upitu korišteno malo ili veliko slovo
mogućnost da se dobije ukrštena distribucija, t.j. da oblici budu raspoređeni prema njihovom izvoru
mogućnost da se dobije relativna distribucija, umjesto apsolutne, i to odmjerena prema količini teksta u različitim tipovima teksta.

Sugestije za druge mogućnosti, kao i argumentovane pritužbe, uvijek su dobro došle.

[Pretraživanje korpusa] [Početna stranica Laboratorije za obradu tekstova] [Vrh stranice ]

Dostupne publikacije o korpusu

Browne 98: Browne, Wayles. Agreement with infinitive subjects in Slavic; with a note on Corbett's notion of `real distance'. (Paper given at workshop on Comparative Slavic Morphosyntax, Bloomington, Indiana, 5-7 June 1998)
Jakopin 99: Jakopin, Primož. Upper bound of entropy in Slovenian literary texts (paper written in Slovenian; English abstract here). Ph.D thesis, Ljubljana University.
Leko 98a: Leko, Nedzad. Compiling word frequency lists: problems of homonymy. Ms. University of Sarajevo and University of Oslo.
Leko 98b: Leko, Nedzad. Some lexical doublets in the Oslo Corpus of Bosnian Tex ts: A comparison with a previous study of doublets. Ms. University of Sarajevo and University of Oslo.
Leko 98c: Leko, Nedzad. Some problems in compiling a frequency dictionary from the Oslo Corpus of Bosnian Texts. Ms. University of Sarajevo and University of Oslo.
Leko 98d: Leko, Nedzad. Polarity Items in Bosnian. Ms. University of Sarajevo and University of Oslo.
Leko 98e: Leko, Nedzad. Recent changes in the Bosnian language as reflected by and documente d from the Oslo Corpus of Bosnian Texts. Ms. University of Sarajevo and University of Oslo.
Santos 98: Santos, Diana. Providing access to language resources through the World Wide Web: the Oslo Corpus of Bosnian Texts. Proceedings of The First International Conference on Language Resources and Evaluation (Granada, 28-30 May 1998), rtf
Szucsich 2002: Szucsich, Luka. Nominale Adverbiale im Russischen. Syntax, Semantik und Informationsstruktur. Otto Sagner Verlag: München (Munich).
Hellman 2005: Hellman, Matias. Znati and um(j)eti in Serbian, Croatian and Bosnian.Grammaticalisation of Habitual Auxiliaries. Slavica Helsingiensia 25. PDF

Obavijestite nas o novim publikacijama rađenim uz korištenje korpusa, kako bi ih eventualno učinili dostupnim na ovoj stranici.

[Pretraživanje korpusa ] [Početna stranica Laboratorije za obradu tekstova] [Vrh stranice ]

Verzija

Ovo je verzija korpusa 1.1 i verzija interfejsa 2.1, kreirana 20.aprila 1998.

[Pretraživanje korpusa ] [Početna stranica Laboratorije za obradu tekstova] [Vrh stranice ]

Ostalo

Zzelimo izraziti zahvalnost Helge Hauglinu za njegovu pomoć prilikom "debugging" CGI programa, i Kjetil Rĺ Haugeu za informaciju o vrstama slova i povratnu informaciju iz ugla dobro obaviještenog korisnika, kao i ljudima sa Univerziteta u Štutgartu za generalnu tehničku podršku vezanu za CQP.

Nedžad Leko je bio prvi korisnik našeg korpusa i zahvalni smo mu zbog pomoći i sugestija, kao i zbog ustupanja radova rađenih uz korištenje korpusa, uključujući i prvu listu hiljadu najfrekventnijih riječi i oblika.

[Pretraživanje korpusa ] [Početna stranica Laboratorije za obradu tekstova] [Vrh stranice ]

Kako nas možete kontaktirati

Kontaktirajte profesora Sveina Moenneslanda ako je vaša poruka na bosanskom, svein.monnesland@east.uio.no.

Svein Moennesland
Institute for Central European and Oriental Studies,
University of Oslo,
Postboks 1030
Blindern, N-0315 Oslo
Norway

+47-2285 6702

+47-2285 4140

Kontaktirajte Laboratoriju za obradu tekstova na adresi tekstlab-post@iln.uio.no ako je vaša poruka na engleskom. Za detaljnije informacije možete pogledati kontaktnu stranicu Laboratorije za obradu tekstova.

[Pretraživanje korpusa ] [Početna stranica Laboratorije za obradu tekstova] [Vrh stranice ]

Posljednji put modificirano 28. aprila 1998.: DMS. Kontaktirajte nas.