Besedilni korpusi so premišljeno grajene zbirke realnih (digitalnih ali digitaliziranih) besedil določene vrste. Besedila so izbrana in urejena na način, da predstavljajo avtentično jezikovno rabo. Korpusna besedila tipično vsebujejo strojno ali ročno pripisane oznake, npr. osnovno obliko besede, besedno vrsto in druge jezikovne informacije, ki omogočajo lažje oz. bolj usmerjeno iskanje po korpusu. Za raziskovanje besedilnih korpusov so besedila umeščena v posebne programe (konkordančnike), ki omogočajo napredno iskanje po besedilih, razvrščanje, filtriranje, izvažanje podatkov in podobno.

Besedilni korpusi se uporabljajo za izvedbo jezikoslovnih raziskav, služijo pa tudi kot podstat za pripravo jezikovnih priročnikov, virov in gradiv: z analizo velike količine besedil ugotovimo, kakšne so značilnosti jezika v rabi, in na osnovi empiričnih podatkov in realnih zgledov to stanje opišemo.

V tem smislu so predvsem pomembni referenčni korpusi, ki predstavljajo vzorec sodobnega splošnega jezika v vsakdanji rabi – vsebujejo denimo besedila dnevnega časopisja, revij, leposlovne in strokovne literature in podobno. V preteklosti so bili referenčni korpusi za pisno slovenščino Fida (1999) oz. FidaPLUS (2006) ter Nova beseda (1999), nato sta nastala korpusa Gigafida (2012) in njen uravnoteženi podkorpus Kres (2012). Najsodobnejša različica je Gigafida 2.0 (2019). Za govorjeno slovenščino je na voljo referenčni korpus Gos (2011). Referenčne korpuse poleg jezikoslovcev uporabljajo tudi mnogi lektorji, učitelji, novinarji in drugi, ki se ukvarjajo z jezikom oz. jih jezik zanima.

Poleg referenčnih korpusov so za slovenščino na voljo tudi številni specializirani korpusi. Ti običajno nastajajo v sklopu projektov, ki se posvečajo točno določenem segmentu ali funkciji jezika. Na voljo so denimo:

  • Šolar (2012): korpus pisnih izdelkov, ki so jih učenci slovenskih OŠ in SŠ napisali pri pouku
  • MAKS (2020): korpus mladinske književnosti
  • Lektor (2013): korpus besedil odraslih piscev, ki vsebuje lektorske popravke
  • Korp (2007): korpus besedil s področja odnosov z javnostmi
  • DSI (2006): korpus besedil s področja informatike in računalništva
  • IMP (2011): korpus starejše slovenščine
  • Signor (2014): korpus slovenskega znakovnega jezika
  • Janes (2014): korpus računalniško posredovane komunikacije
  • Kas (2016): korpus znanstvenih besedil
  • siParl 2.0 (2020): korpus parlamentarnih razprav Državnega zbora Republike Slovenije 1990-2018

Posebna vrsta korpusov so učni korpusi. Ti se uporabljajo kot podatkovne množice, s pomočjo katerih  razvijamo programe za strojno obdelavo naravnih jezikov in jezikovne tehnologije za slovenski jezik. Med temi gre izpostaviti npr. korpus ssj500k.

Ker so korpusi podatkovna osnova za številne naloge in aktivnosti, je nujno zagotavljati njihovo prosto dostopnost. Številni korpusi so na voljo kot podatkovne zbirke pod odprto licenco na repozitoriju CLARIN.SI. Na voljo so tudi v različnih konkordančnikih. V konkordančnikih noSketchEngine in Kontext, ki ju vzdržuje CLARIN.SI, je na voljo več kot 100 korpusov za različne namene - tako slovenskih kot za nekatere druge jezike. Nekateri korpusi, zlasti referenčni, so na voljo tudi v konkordančnikih za širšo javnost, ki jih vzdržuje Center za jezikovne vire in tehnologije Univerze v Ljubljani.

Sort By: Direction:
  • Center za jezikovne vire in tehnologije (CJVT)

    Interdisciplinarna enota Univerze v Ljubljani, ki je namenjena znanstvenemu raziskovanju, vzpostavljanju in vzdrževanju temeljnih digitalnih jezikovnih virov in jezikovnotehnoloških orodij za sodobni slovenski jezik.
  • Clarin.si

    Raziskovalna infrastruktura, katere cilj je raziskovalnim skupnostim zagotavljati jezikovne vire, tehnologije in strokovno znanje.
  • Gigafida

    Korpus Gigafida je korpus slovenskih pisnih besedil, ki vsebuje skoraj 1,2 milijarde besed iz besedil, ki so nastala v letih 1990-2011.
  • Gigafida 2.0

    Referenčni korpus pisne standardne slovenščine, ki vsebuje 1.134.693.933 besed iz 38.310 besedil, nastalih v letih 1990-2018.
  • GOS

    Referenčni korpus govorjene slovenščine, ki obsega okrog 120 ur posnetkov govora v najrazličnejših situacijah.
  • IMP

    Korpus starejših slovenskih besedil (od konca 16. stoletja do 1918). Korpus je dostopen v konkordančniku NoSketch Engine.
  • Kontext

    Vstopna točka do spletnega konkordančnika, v katerem lahko raziskujemo korpuse slovenskega in drugih jezikov.
  • KoRP

    Specializirani korpus besedil s področja odnosov z javnostmi. Povezava je na korpus v konkordančniku NoSketch Engine.
  • Korpus informatike DSI

    Specializirani korpus besedil s področja informatike. Korpus je dostopen v konkordančniku NoSketch Engine.
  • Kres

    Korpus KRES je uravnoteženi podkorpus Gigafide, ki vsebuje skoraj 100 milijonov besed.
  • Lektor

    Obširna zbirka lektoriranih avtorskih besedil in prevodov, ki je namenjena raziskovanju procesa lektoriranja.
  • NoSketch Engine

    Vstopna točka do spletnega konkordančnika, v katerem lahko raziskujemo korpuse slovenskega in drugih jezikov.
  • Nova beseda

    318 milijonov besed obsegajoča besedilna zbirka Inštutita za slovenski jezik Frana Ramovša ZRC SAZU.
  • Signor

    Korpus Signor je uravnoteženi in reprezentativni korpus označenih video posnetkov slovenskega znakovnega jezika.
  • Šolar

    Korpus besedil, ki so jih učenci slovenskih osnovnih in srednjih šol samostojno tvorili pri pouku, vsebuje 1.638.229 besed iz 5485 besedil.
NA VRH