Besedilni korpusi so obsežne zbirke realnih besedil v elektronski obliki. Besedila so zbrana in urejena na način, da predstavljajo jezikovno rabo določene vrste. Korpusna besedila tipično vsebujejo programsko ali ročno pripisane oznake, npr. osnovno obliko besede, besedno vrsto in druge lastnosti besede, kar omogoča lažje oz. bolj usmerjeno iskanje po korpusu. Za raziskovanje besedilnih korpusov so besedila umeščena v specializirane programe, ki omogočajo napredno iskanje po besedilih, razvrščanje, filtriranje, izvažanje podatkov in podobno.
Besedilni korpusi se uporabljajo kot gradivo za izvedbo jezikoslovnih raziskav, služijo pa tudi kot podstat za pripravo jezikovnih priročnikov, virov in gradiv: z analizo velike količine besedil ugotovimo, kakšne so značilnosti sodobne slovenščine v rabi, in na osnovi empiričnih podatkov in realnih zgledov to stanje opišemo. V tem smislu so predvsem pomembni referenčni korpusi, ki predstavljajo vzorec splošnega jezika v vsakdanji rabi – vsebujejo denimo besedila dnevnega časopisja, revij, leposlovne in strokovne literature in podobno. V preteklosti so bili referenčni korpusi za pisno slovenščino Fida (1999) oz. FidaPLUS (2006) ter Nova beseda (1999), nato sta nastala korpusa Gigafida (2012) in njen uravnoteženi podkorpus Kres (2012). Najsodobnejša različica je Gigafida 2.0 (2019). Za govorjeno slovenščino je na voljo referenčni korpus Gos (2011). Aktualni referenčni korpusi so prosto na voljo na spletu in poleg jezikoslovcev jih za svoje delo uporabljajo tudi mnogi lektorji, učitelji, novinarji in drugi, ki se ukvarjajo z jezikom oz. jih jezik zanima.
Poleg referenčnih korpusov so za slovenščino na voljo tudi številni specializirani korpusi. Ti običajno nastajajo v sklopu projektov, ki se posvečajo točno določenem segmentu ali funkciji jezika. Na voljo so denimo:
Posebna vrsta korpusov so učni korpusi. Ti se uporabljajo kot podatkovne množice, s pomočjo katerih statistično učimo programe za obdelavo naravnih jezikov ali razvoj jezikovnih tehnologij. Učni korpusi in ostale primerljive podatkovne zbirke so dostopni v spletnem repozitoriju Clarin.si.