UiO hjemmeside
Tekst laboratorije

Korpus bosanskih tekstova na Univerzitetu u Oslu

[The Oslo Corpus of Bosnian Texts]    

U slučaju da slova č, ć, š, ž, dž, đ nisu ispravno pokazana, odaberite ovu alternativnu stranicu.

Korpus bosanskih tekstova na Univerzitetu u Oslu (Oslo korpus) ima oko milion i petsto hiljada riječi, a enkodiran je uz pomoć programa IMS corpus workbench koji je razvijen na Univerzitetu u Štutgartu (Institut fur Maschinelle Sprachverarbeitung). Ovome je dodat odgovarajući interfejs u Laboratoriji za obradu tekstova na Univerzitetu u Oslu.
  1. Sadržaj korpusa
  2. Tipovi upita koji su dostupni
  3. Kako dobiti odobrenje za korištenje korpusa
  4. Kako dobiti i kreirati ispravnu vrstu slova
  5. Tehničke informacije
  6. Hiljadu najfrekventnijih riječi i oblika
  7. Dostupne publikacije o korpusu
  8. Verzija
  9. Ostalo
  10. Kako nas možete kontaktirati
[Pretrazivanje korpusa] [Početna strana Laboratorije za obradu tekstova]       Tekst laboratorije

Sadržaj korpusa

Crtež nadgrobnog spomenikaKorpus je sastavljen na Univerzitetu u Oslu kao zajednički projekat Odsjeka za istočnoevropske i orijentalne studije i Laboratorije za obradu tekstova. Korpus sadrži oko milion i šesto hiljada riječi i obuhvata različite žanrove: beletristiku (romane i priče), esejistiku, dječiju literaturu, narodnu književnost, pravne i islamske tekstove i publicistiku. Autori tekstova su iz Bosne i Hercegovine, a tekstovi su uglavnom objavljeni u periodu od 1990.- 1997. godine. Korpus pruža novu osnovu za istraživanje jezika u Bosni i Hercegovini.

Sastavljanje korpusa je nadgledala docent Janne Bondi Johannessen, a profesor Svein Moennesland je bio zadužen za odabir i kompilaciju tekstova. Gordana Vranić i Kemila Bašić su se potrudile da tekstovi budu elektronski dostupni (skeniranjem i adaptacijom) u obliku tekst fajli. Diana Santos je izgradila korpus zasnovan na tim fajlama u odgovarajućem formatu (više podataka o tome možete pročitati u nastavku), te napisala Web interfejs.

Vlasnici autorskih prava su ljubazno dali odobrenje za korištenje njihovih tekstova u ovom korpusu. Tekstovi preuzeti iz knjiga ne obuhvataju više od tri četvrtine te knjige. Izvor tekstova i njihov obim detaljno su precizirani u sadržaju (vidi stranicu "Sadržaj").

[Pretraživanje korpusa] [Početna stranica Laboratorije za obradu tekstova] [Vrh stranice]

Tipovi upita koji su dostupni

Kada se postavlja upit korpusu, može se tražiti konkordanca (KWIC, ključna riječ u kontekstu, što je default mogućnost), ili se može tražiti distribucija rezultata, prema oblicima, ili prema izvoru teksta. Uz to, može se, u jednom te istom upitu, traziti i konkordanca i distribucija.

Iako planiramo da ponudimo jednostavniji oblik postavljanja upita koji bi bio potpuno zasnovan na meniju, trenutno se gotovo potpuno oslanjamo na CQP query sintaksu (vidi Corpus Query Processor razvijen u Stuttgartu). CQP omogućava da se na kompaktan način izraze prilično kompleksni izbori, upotrebljavajući pri tom redovne izraze. Kratak opis query sintakse može se naći, zajedno sa primjerima za druge jezike, na adresi http://www.ims.uni-stuttgart.de/projekte/tc/CQPSyntax.html.

Primjeri bosanskih upita su:

Važno je znati da je moguće, pored formalnih obilježja samog teksta, takodje postavljati upite o tipu teksta, autoru, datumu, pa čak i o pojedinačnom djelu. Za pregled mogućnosti koje nudi klasifikacija tekstova, pogledajte stranicu "Sadržaj". Neki primjeri:
[Pretraživanje korpusa] [Pocetna stranica Laboratorije za obradu tekstova] [Vrh stranice ]

Kako vidjeti i kreirati ispravnu vrstu slova

Da bi vidjeli tekstove iz korpusa sa slovima koja se ne koriste u engleskom, na pr. š, ž, č, ć, morate imati podršku za ISO-8859-2 u kompjuteru. Ako rezultati vašeg pretraživanja ne izgledaju zadovoljavajuće, možete Ako ne možete dobiti slova kao š, ž, č, ć direktno, možete umjesto njih koristiti oktalne kodove tih slova, njihove standardne "alongacije" ili odgovarajuća ISO-8859-1 slova (Latin 1). Ove mogućnosti su predstavljene na tabeli:

BosanskiOktalni kodoviAlongacijeLatin 1
Ch, ch\306ChÆ
\346chæ
CC, cc\310CCÈ
\350ccè
Dj, dj\320DjjÐ
\360djjð
Dz, dzD\256Dz
d\276dz
Ss, ss\251SS©
\271ss¹
ZZ, zz\256ZZ, Zh®
\276zz, zh¾

Evo i nekoliko primjera:

Vodite računa da
  1. ako želite da u inputu imate oktalne kodove, riječi moraju biti u navodnim znacima.
  2. da bi enkodiranje slova učinili nedvosmislenim, promijenili smo standardnu notaciju Dj, dj u Đ i đ. Ovo se ne odnosi na pokazivanje rezultata, koje je prema standardu. Drugim riječima, tražite Đe u vašem upitu, ali ćete vidjeti Dje ako ste odabrali all-ASCII način.
  3. čak i ako unesete ta slova kao niz slova, bosanska slova se smatraju kao jedno slovo, osim slova Dzz, dzz, koje se smatra kao D d iza kojeg slijedi ZZ, zz. S obzirom da u CQP sintaksi "." predstavlja jedno, bilo koje slovo, to znači da će na pr. stra.no biti jednako kao strašno, dok .amijskih neće biti jednako kao džamijskih.
[Pretraživanje korpusa] [Početna stranica Laboratorije za obradu tekstova] [Vrh stranice]

Tehničke informacije

IMS Corpus Workbench

Ovo je front-end za CQP, Corpus Query Processor, u okviru programa IMS Corpus Workbench koji su razvili Oliver Christ i Bruno Maximilian Schulze na Institut fur Maschinelle Sprachverarbeitung na Univerzitetu u Štutgartu. Možete konsulrirati njihov spisak često postavljanih pitanja (FAQ) na adresi http://www.ims.uni-stuttgart.de/CorpusToolbox/FAQ.html.

Izražavamo zahvalnost za odobrenje da koristimo CQP u svrhe istraživanja.

Oni koji poznaju CQP query sintaksu mogu koristiti (gotovo) sav njen potencijal. Određena ograničenja su opisana u nastavku.

[Pretraživanje korpusa] [Početna stranica Laboratorije za obradu tekstova] [Vrh stranice]

Struktura korpusa i enkodiranje

Korpus je enkodiran u ISO-8859-2 setu slova. Uputstva o tome kako da prilagodite svoj browser za neke od najuobičajenijih platformi mogu se pročitati ovdje.

Pošto se ne može očekivati da će svaki korisnik imati pristup browseru koji omogućava ispravan prikaz na ekranu ISO-8859-2 enkodiranih dokumenata, all-ASCII display opcija je dostupna u postavljanju upita, što omogućava standardni prikaz specifičnih slova u formi dva slova, kao što je opisano gore.

Korpus je kreiran skeniranjem knjiga i drugog štampanog materijala koristeći uređaj za optičko prepoznavanje slova (OCR); u rijetkim slučajevima, dijelovi korpusa su već bili u elektronskom formatu. Nekoliko redaktorskih korekcija je uvršteno:

Korpus je automatski izveden u CQP formatu iz Word tekst fajli sa meta-informacijom u zaglavlju, i iz sadržaja koji je uključio korektan tekst identifikator koji je kao Word fajl kreirala Gordana Vranić. Korpus nije manuelno revidiran nakon konverzije, tako da je moguće da se zbog toga pojave neki problemi.

Molimo vas da nas izvjestite o svakom takvom problemu, kao i o opštim problemima, sugestijama za poboljšanje, itd., na našu adresu.

Korisnici sistema moraju obratiti pažnju na sljedeće:

[Pretraživanje korpusa] [Početna stranica Laboratorije za obradu tekstova] [Vrh stranice ]

Informacije o interfejsu za pretraživanje

Interfejs za pretraživanje vam omogućava: Output se dobije sa naznakom upita koji je korisnik postavio, datumom upita, i brojem nađenih oblika.

Ako je nađen jedan ili više oblika, a tražila se konkordanca, biće prikazan broj primjera koji su pronađeni, kao i broj primjera koji će se moći vidjeti na ekranu. Iza toga će slijediti nađeni primjeri sa istaknutim oblikom koji se tražio. Ako je tražena distribucija, output će biti u jednostavnom tabelarnom formatu, prema opadajućem redu frekvencije.

U nekim slučajevima, upozorenje ili ponuda pomoći će biti upućeni. Na ovaj način se želi ponuditi pomoć svima koji prvi put koriste sistem. Na primjer,

Ograničenja

Da bi spriječili korisnike da preuzmu cijele tekstove, primijenjena su ova ograničenja:

Poređenje sa direktnim korištenjem CQP-a

U poređenju sa standardnim karakteristikama CQP sistema, neka njegova obilježja se ovdje ne mogu koristiti, prvenstveno Ograničenja koja su gore opisana ne važe ako imate direktan pristup CQP-u i korpus u vašem kompjuteru.

Međutim, identifikacija izvora uz svaki primjer je unapređenje u poređenju sa CQP i Xkwic programima.

Planirana poboljšanja

U budućnosti planiramo dodati sljedeće mogućnosti Web interfejsu: Sugestije za druge mogućnosti, kao i argumentovane pritužbe, uvijek su dobro došle.

[Pretraživanje korpusa] [Početna stranica Laboratorije za obradu tekstova] [Vrh stranice ]

Dostupne publikacije o korpusu

Browne 98
Browne, Wayles. Agreement with infinitive subjects in Slavic; with a note on Corbett's notion of `real distance'. (Paper given at workshop on Comparative Slavic Morphosyntax, Bloomington, Indiana, 5-7 June 1998)
Jakopin 99
Jakopin, Primož. Upper bound of entropy in Slovenian literary texts (paper written in Slovenian; English abstract here). Ph.D thesis, Ljubljana University.
Leko 98a
Leko, Nedzad. Compiling word frequency lists: problems of homonymy. Ms. University of Sarajevo and University of Oslo.
Leko 98b
Leko, Nedzad. Some lexical doublets in the Oslo Corpus of Bosnian Tex ts: A comparison with a previous study of doublets. Ms. University of Sarajevo and University of Oslo.
Leko 98c
Leko, Nedzad. Some problems in compiling a frequency dictionary from the Oslo Corpus of Bosnian Texts. Ms. University of Sarajevo and University of Oslo.
Leko 98d
Leko, Nedzad. Polarity Items in Bosnian. Ms. University of Sarajevo and University of Oslo.
Leko 98e
Leko, Nedzad. Recent changes in the Bosnian language as reflected by and documente d from the Oslo Corpus of Bosnian Texts. Ms. University of Sarajevo and University of Oslo.
Santos 98
Santos, Diana. Providing access to language resources through the World Wide Web: the Oslo Corpus of Bosnian Texts. Proceedings of The First International Conference on Language Resources and Evaluation (Granada, 28-30 May 1998), rtf
Szucsich 2002
Szucsich, Luka. Nominale Adverbiale im Russischen. Syntax, Semantik und Informationsstruktur. Otto Sagner Verlag: München (Munich).
Hellman 2005
Hellman, Matias. Znati and um(j)eti in Serbian, Croatian and Bosnian.Grammaticalisation of Habitual Auxiliaries. Slavica Helsingiensia 25. PDF

Obavijestite nas o novim publikacijama rađenim uz korištenje korpusa, kako bi ih eventualno učinili dostupnim na ovoj stranici.

[Pretraživanje korpusa ] [Početna stranica Laboratorije za obradu tekstova] [Vrh stranice ]

Verzija

Ovo je verzija korpusa 1.1 i verzija interfejsa 2.1, kreirana 20.aprila 1998.

[Pretraživanje korpusa ] [Početna stranica Laboratorije za obradu tekstova] [Vrh stranice ]

Ostalo

Zzelimo izraziti zahvalnost Helge Hauglinu za njegovu pomoć prilikom "debugging" CGI programa, i Kjetil Rĺ Haugeu za informaciju o vrstama slova i povratnu informaciju iz ugla dobro obaviještenog korisnika, kao i ljudima sa Univerziteta u Štutgartu za generalnu tehničku podršku vezanu za CQP.

Nedžad Leko je bio prvi korisnik našeg korpusa i zahvalni smo mu zbog pomoći i sugestija, kao i zbog ustupanja radova rađenih uz korištenje korpusa, uključujući i prvu listu hiljadu najfrekventnijih riječi i oblika.

[Pretraživanje korpusa ] [Početna stranica Laboratorije za obradu tekstova] [Vrh stranice ]

Kako nas možete kontaktirati

Kontaktirajte profesora Sveina Moenneslanda ako je vaša poruka na bosanskom, svein.monnesland@east.uio.no.

Svein Moennesland
Institute for Central European and Oriental Studies,
University of Oslo,
Postboks 1030
Blindern, N-0315 Oslo
Norway

+47-2285 6702

+47-2285 4140

Kontaktirajte Laboratoriju za obradu tekstova na adresi tekstlab-post@iln.uio.no ako je vaša poruka na engleskom. Za detaljnije informacije možete pogledati kontaktnu stranicu Laboratorije za obradu tekstova.

[Pretraživanje korpusa ] [Početna stranica Laboratorije za obradu tekstova] [Vrh stranice ]

Posljednji put modificirano 28. aprila 1998.: DMS. Kontaktirajte nas.