Euskararen Erreferentzia Corpusa sortu du Euskaltzaindiak, euskararen eguneroko erabileraren berri izateko eta hizkuntza teknologiek ekarri dituzten erronka berriei aurre egiteko. "Corpus orekatua, irekia eta kolektiboa da", zehaztu zuen Andres Urrutia euskaltzainburuak, astelehenean corpusa aurkezteko Bilbon egindako agerraldian. Corpus hori osatzeko, besteak beste, Gukaren testuak ere erabili ditu Euskaltzaindiak. Tresna herritarren eskura dago jada.
Hizkuntza corpus bat "datu bilduma handi bat da, egituratua, erabilera errealetan oinarritua eta linguistikoki prozesatua, hizkuntzaren atal baten erakusgarri gisa erabiltzen dena", azaldu zuen Miriam Urkia euskaltzain oso eta Euskaltzaindiaren Hiztegia egitasmoko arduradunak. Era berean, erreferentzia corpusa hizkuntza corpus mota bat da, "hizkuntza baten garai zehatz baten erakusgarri ahalik eta xeheena eta, aldi berean, zabalena izateko" sortu dena. "Hautatu den garaiaren argazkia da", erantsi du Urkiak.
Proiektu berriak helburu argi bat du: "Analisi linguistikorako, ikasketa automatikorako edo hizkuntza ikerketetan hipotesiak baliozkotzeko erabili ahal izatea". Horrez gain, "hizkuntza, literatura edo ikerketa helburuetarako" erreferente izan dadila nahi dute. Gainera, "egungo egoera" islatuko duenez, "erabilgarria" izango da hainbat lanbidetan ari direnentzat, "lexiko eta gramatika zalantzak argi" ditzaten. "Hizkuntzaren irakaskuntzan jarduten dutenek, zuzentzaileek... erabilgarri izango dute corpusa".
Era guztietako gaiak, euskalki guztietako adibideak eta testu iturri desberdinetako edukiak jaso dituzte. Aurkeztu duten lehenengo bertsio honetan, 2000. urtetik 2023ra bitarteko testuak jaso dituzte, baina euren asmoa da corpusa eguneratzen joatea. Azken 25 urteetako testuak jasoko ditu beti tresna berriak. Behin epe hori igarota, testu zaharrak beste corpus batean gordeko dituzte, testu berriei leku egiteko.
Euskaltzaindiak Euskal Herriko 68 erakunde pribatu eta publikorekin batera ondu du corpusa. Testuen %48 liburuetatik jaso dituzte, beste hainbeste aldizkako argitalpenetatik eta %4 sarerako berariaz sortutako materialetik. Oro har, 123.124 dokumentu jaso dituzte lehen bertsioan, 154,21 milioi testu hitz eta 129.817 lema desberdin.