- Jezikovna Slovenija
- Izobraževanje
- Opremljenost
- Slovenščina v EU
- Ustanove in dokumenti
- Vprašanja | odgovori
- Videozgodbe
- Jezikovna misel
Besedilni korpusi so premišljeno grajene zbirke realnih (digitalnih ali digitaliziranih) besedil določene vrste. Besedila so izbrana in urejena na način, da predstavljajo avtentično jezikovno rabo. Korpusna besedila tipično vsebujejo strojno ali ročno pripisane oznake, npr. osnovno obliko besede, besedno vrsto in druge jezikovne informacije, ki omogočajo lažje oz. bolj usmerjeno iskanje po korpusu. Za raziskovanje besedilnih korpusov so besedila umeščena v posebne programe (konkordančnike), ki omogočajo napredno iskanje po besedilih, razvrščanje, filtriranje, izvažanje podatkov in podobno.
Besedilni korpusi se uporabljajo za izvedbo jezikoslovnih raziskav, služijo pa tudi kot podstat za pripravo jezikovnih priročnikov, virov in gradiv: z analizo velike količine besedil ugotovimo, kakšne so značilnosti jezika v rabi, in na osnovi empiričnih podatkov in realnih zgledov to stanje opišemo.
V tem smislu so predvsem pomembni referenčni korpusi, ki predstavljajo vzorec sodobnega splošnega jezika v vsakdanji rabi – vsebujejo denimo besedila dnevnega časopisja, revij, leposlovne in strokovne literature in podobno. V preteklosti so bili referenčni korpusi za pisno slovenščino Fida (1999) oz. FidaPLUS (2006) ter Nova beseda (1999), nato sta nastala korpusa Gigafida (2012) in njen uravnoteženi podkorpus Kres (2012). Najsodobnejša različica je Gigafida 2.0 (2019). Za govorjeno slovenščino je na voljo referenčni korpus Gos (2011). Referenčne korpuse poleg jezikoslovcev uporabljajo tudi mnogi lektorji, učitelji, novinarji in drugi, ki se ukvarjajo z jezikom oz. jih jezik zanima.
Poleg referenčnih korpusov so za slovenščino na voljo tudi številni specializirani korpusi. Ti običajno nastajajo v sklopu projektov, ki se posvečajo točno določenem segmentu ali funkciji jezika. Na voljo so denimo:
Posebna vrsta korpusov so učni korpusi. Ti se uporabljajo kot podatkovne množice, s pomočjo katerih razvijamo programe za strojno obdelavo naravnih jezikov in jezikovne tehnologije za slovenski jezik. Med temi gre izpostaviti npr. korpus ssj500k.
Ker so korpusi podatkovna osnova za številne naloge in aktivnosti, je nujno zagotavljati njihovo prosto dostopnost. Številni korpusi so na voljo kot podatkovne zbirke pod odprto licenco na repozitoriju CLARIN.SI. Na voljo so tudi v različnih konkordančnikih. V konkordančnikih noSketchEngine in Kontext, ki ju vzdržuje CLARIN.SI, je na voljo več kot 100 korpusov za različne namene - tako slovenskih kot za nekatere druge jezike. Nekateri korpusi, zlasti referenčni, so na voljo tudi v konkordančnikih za širšo javnost, ki jih vzdržuje Center za jezikovne vire in tehnologije Univerze v Ljubljani.