O Corpus de Referencia do Galego Actual (CORGA) presentou a súa nova versión 4.0. Unha versión con máis de 43 millóns de palabras en galego. O CORGA, que abrangue dende 1975 ata a actualidade, ten como obxectivo fornecer datos para o estudo da lingua galega actual dende múltiples perspectivas: léxica, morfolóxica, sintáctica, fraseolóxica, terminolóxica ou comunicativa, entre outras.
A versión 4.0 presentada este xoves, consta de 43.162.364 palabras ortográficas e presenta utilidades como a recuperación de información pola modalidade inventario, o recoñecemento automático mediante regras lingüísticas dos apreciativos en -iño, os elativos en -ísimo, e unha boa parte das formas con gheada.
“Trátase dunha ferramenta potente, flexible, amigable e tamén innovadora, de suma utilidade para extraer datos da lingua galega actual”, explicou María Sol López Martínez, investigadora principal do proxecto xunto a Guillermo Rojo.
A codificación practicada afecta principalmente á información bibliográfica e á estruturación do documento, e posibilita realizar consultas, con ou sen expresións regulares, por palabra completa, parte dunha palabra, partes contiguas ou non, segundo diversos criterios que poden combinarse dependendo das necesidades do usuario.
O corpus enriqueceuse coa etiquetaxe automática de todos os documentos que o integran, e mais coa incorporación de transcricións ortográficas de programas de radio nas que se aliña o texto coa voz, co que na recuperación de información é posible reproducir o fragmento sonoro que corresponde ao resultado que se amosa.
Engádese ademais nesta versión a posibilidade de procurar nunha obra específica e por un certo autor ou polo sexo deste e, así mesmo, ofrécese un sistema de consulta da nómina de autores e obras que conforman o corpus e mais unha primeira versión para a procura de coaparicións.