Referenčni korpus vsebuje veliko količino besedil, predvsem iz časopisov in revij oz. novičarskih portalov, strokovnih in leposlovnih del in podobno. Korpusno gradivo s strojnimi postopki najprej ustrezno uredimo, nato jezikoslovno analiziramo, da ugotovimo, kaj je v sodobnem jeziku tipično, katere so njegove značilnosti oz. preprosto rečeno, kako se sodobna slovenščina v rabi obnaša. Ko pripravljamo slovarje, nas denimo zanima, s katerimi oblikami, v katerih pomenih, zvezah, besedilnih žanrih se določena beseda pojavlja. Te informacije pridobimo iz korpusnih besedil, ki so torej empirična podlaga za slovarska gesla. Korpusni podatki so lahko v slovarje tudi neposredno vključeni, npr. v obliki slovarskih zgledov, ki ponazarjajo tipično rabo besed in zvez v sobesedilu. V digitalnem okolju je slovarski opis mogoče povezati s korpusnimi vmesniki, da lahko uporabnik slovarja s klikom dostopa do večje količine jezikovnih podatkov. Takšno vračanje h gradivnemu viru omogočajo npr. odzivni slovarji (npr. Slovar sopomenk sodobne slovenščine ali Kolokacijski slovar sodobne slovenščine), za katere je značilno tudi, da v prvem koraku nastanejo povsem avtomatsko s strojno obdelavo korpusnih besedil, njihov ročni pregled pa poteka naknadno in po korakih.
(Objavljeno 12. 3. 2021)