Nyheter fra Tekstlaboratoriet

KAL-korpuset
Vi har nå gjort offentlig tilgjengelig for nedlasting 3300 elevtekster som ble samlet inn og digitalisert av KAL-prosjektet (Kvalitetssikring av læringsutbyttet i norsk skriftlig). Tekstene er kategorisert etter årstall (1998-2001), karakter, klasse, oppgavetype, region, urbaniseringsgrad og skolens hovedmål. Alle disse kan kombineres. Ethvert søk resulterer i en liste av elevtekster man kan kikke på eller laste ned. Et par eksempler:

• Vis meg de tekstene fra 1998 som fikk karakteren Lite Godt.
• Vis meg de tekstene i 1998-2001 som fikk Særdeles for oppgaven om de ti bud.
• Vis meg de tekstene fra 2000 som var fra region vest og besvarte oppgaven om brev til en forfatter. 

KAL-korpuset er faktisk den største samlingen av elevtekster i europeisk sammenheng. Prosjektet ble ledet av Lars Sigfred Evensen ved NTNU, og besto ellers av Kjell Lars Berge, Wenche Vagle, Frøydis Hertzberg (alle UiO) og Sissel Anderson (Det nasjonale læringssenteret). Prosjektet resulterte i en tobinds artikkelsamling Ungdommers skrivekompetanse 1+2, Universitetsforlaget 2005.  Denne rapporten ligger til grunn for den utredningen som i dag gjøres for etableringen av et norsk skrivesenter. Les mer om korpuset her.

Nytt fransk korpus
Vi har laget et effektivt søkegrensesnitt for et stort fransk nyhetskorpus som vi kjøpte fra Linguistic Data Consortium for noen år siden. Dette korpuset inneholder hele 115 millioner ord. Med dette korpuset kan man enkelt søke etter interessante kombinasjoner av ord og grammatiske kategorier, og etterbehandle resultatene. Noen eksempler på mulige søk:

• Gi meg alle forekomster av ordet "comment".
• Sorter treffene etter høyrekontekst.
• Gi meg alle tilfeller av ord som begynner på "c".
• Tell alle treffene, og visi et søylediagram hvor mange det er av hvert ord.

Les mer om korpuset her.

JBJ