Korpusi

Besedilni korpusi so premišljeno grajene zbirke realnih (digitalnih ali digitaliziranih) besedil določene vrste. Besedila so izbrana in urejena na način, da predstavljajo avtentično jezikovno rabo. Korpusna besedila tipično vsebujejo strojno ali ročno pripisane oznake, npr. osnovno obliko besede, besedno vrsto in druge jezikovne informacije, ki omogočajo lažje oz. bolj usmerjeno iskanje po korpusu. Za raziskovanje besedilnih korpusov so besedila umeščena v posebne programe (konkordančnike), ki omogočajo napredno iskanje po besedilih, razvrščanje, filtriranje, izvažanje podatkov in podobno.

Besedilni korpusi se uporabljajo za izvedbo jezikoslovnih raziskav, služijo pa tudi kot podstat za pripravo jezikovnih priročnikov, virov in gradiv: z analizo velike količine besedil ugotovimo, kakšne so značilnosti jezika v rabi, in na osnovi empiričnih podatkov in realnih zgledov to stanje opišemo.

V tem smislu so predvsem pomembni referenčni korpusi, ki predstavljajo vzorec sodobnega splošnega jezika v vsakdanji rabi – vsebujejo denimo besedila dnevnega časopisja, revij, leposlovne in strokovne literature in podobno. V preteklosti so bili referenčni korpusi za pisno slovenščino Fida (1999) oz. FidaPLUS (2006) ter Nova beseda (1999), nato sta nastala korpusa Gigafida (2012) in njen uravnoteženi podkorpus Kres (2012). Najsodobnejša različica je Gigafida 2.0 (2019). Za govorjeno slovenščino je na voljo referenčni korpus Gos (2011). Referenčne korpuse poleg jezikoslovcev uporabljajo tudi mnogi lektorji, učitelji, novinarji in drugi, ki se ukvarjajo z jezikom oz. jih jezik zanima.

Poleg referenčnih korpusov so za slovenščino na voljo tudi številni specializirani korpusi. Ti običajno nastajajo v sklopu projektov, ki se posvečajo točno določenem segmentu ali funkciji jezika. Na voljo so denimo:

Šolar (2012): korpus pisnih izdelkov, ki so jih učenci slovenskih OŠ in SŠ napisali pri pouku
MAKS (2020): korpus mladinske književnosti
Lektor (2013): korpus besedil odraslih piscev, ki vsebuje lektorske popravke
Korp (2007): korpus besedil s področja odnosov z javnostmi
DSI (2006): korpus besedil s področja informatike in računalništva
IMP (2011): korpus starejše slovenščine
Signor (2014): korpus slovenskega znakovnega jezika
Janes (2014): korpus računalniško posredovane komunikacije
Kas (2016): korpus znanstvenih besedil
siParl 2.0 (2020): korpus parlamentarnih razprav Državnega zbora Republike Slovenije 1990-2018

Posebna vrsta korpusov so učni korpusi. Ti se uporabljajo kot podatkovne množice, s pomočjo katerih razvijamo programe za strojno obdelavo naravnih jezikov in jezikovne tehnologije za slovenski jezik. Med temi gre izpostaviti npr. korpus ssj500k.

Ker so korpusi podatkovna osnova za številne naloge in aktivnosti, je nujno zagotavljati njihovo prosto dostopnost. Številni korpusi so na voljo kot podatkovne zbirke pod odprto licenco na repozitoriju CLARIN.SI. Na voljo so tudi v različnih konkordančnikih. V konkordančnikih noSketchEngine in Kontext, ki ju vzdržuje CLARIN.SI, je na voljo več kot 100 korpusov za različne namene - tako slovenskih kot za nekatere druge jezike. Nekateri korpusi, zlasti referenčni, so na voljo tudi v konkordančnikih za širšo javnost, ki jih vzdržuje Center za jezikovne vire in tehnologije Univerze v Ljubljani.

Kako so referenčni korpusi povezani z opisi jezika, zlasti slovarskimi?
Referenčni korpus vsebuje veliko količino besedil, predvsem iz časopisov in revij oz. novičarsk...
Kaj pomenijo kratica Fida in podobna imena jezikovnih korpusov?
Kratica FIDA je sestavljena iz prvih črk ustanov, ki so sodelovale pri gradnji korpusa: Filozof...
Kakšno vlogo imajo korpusi pri normiranju knjižnega jezika?
Pri oblikovanju jezikovnih pravil je nujno upoštevati sodobno, realno jezikovno rabo v različni...

NA VRH

Korpusi

Kako so referenčni korpusi povezani z opisi jezika, zlasti slovarskimi?

Kaj pomenijo kratica Fida in podobna imena jezikovnih korpusov?

Kakšno vlogo imajo korpusi pri normiranju knjižnega jezika?

Iščite po oznakah:

Išči po vprašanjih: