Besedilni korpusi so obsežne zbirke realnih besedil v elektronski obliki. Besedila so zajeta iz različnih virov na način, da predstavljajo vzorec jezikovne rabe določene vrste. Korpusna besedila tipično vsebujejo programsko ali ročno pripisane oznake, npr. osnovno obliko besede, besedno vrsto in druge lastnosti besede. Za raziskovanje besedilnih korpusov so besedila umeščena v specializirane programe, ki omogočajo napredno iskanje po besedilih, razvrščanje, filtriranje, izvažanje podatkov in podobno.
Besedilni korpusi se uporabljajo kot gradivo za izvedbo jezikoslovnih raziskav, služijo pa tudi kot podstat za pripravo jezikovnih priročnikov, virov in gradiv. V tem smislu so predvsem pomembni referenčni korpusi, ki predstavljajo vzorec splošnega jezika v vsakdanji rabi. V preteklosti so bili referenčni korpusi za pisno slovenščino Fida (1999) oz. FidaPLUS (2006) ter Nova beseda (1999), danes sta to Gigafida (2012) in njen uravnoteženi podkorpus Kres (2012). Za govorjeno slovenščino je na voljo referenčni korpus Gos (2011). Aktualni referenčni korpusi so prosto na voljo na spletu in poleg jezikoslovcev jih za svoje delo uporabljajo tudi mnogi lektorji, učitelji, novinarji in drugi, ki se ukvarjajo z jezikom oz. jih jezik zanima.
Poleg referenčnih korpusov so za slovenščino na voljo tudi številni specializirani korpusi. Ti običajno nastajajo v sklopu projektov, ki se posvečajo točno določenem segmentu ali funkciji jezika. Na voljo so denimo:
Posebna vrsta korpusov so učni korpusi. Ti se uporabljajo kot podatkovne množice, s pomočjo katerih statistično učimo programe za obdelavo naravnih jezikov ali razvoj jezikovnih tehnologij. Učni korpusi in ostale primerljive podatkovne zbirke so dostopni v spletnem repozitoriju Clarin.si.