Ir ao contido Ir á barra lateral Ir ao pé de páxina

Protexer o legado do idioma galego na rede. O Proxecto Nós con intelixencia artificial

A intelixencia artificial chegou para quedarse, é unha realidade e xa está entre nós, aínda que nos resistamos a vela. Os algoritmos de contidos recomendados das redes sociais, os asistentes de voz que moitos temos nas casas ou a capacidade automática do noso móbil para mellorar as fotografías que sacamos son só algúns exemplos. Nos últimos anos, dende a irrupción de Chat GPT na contorna social, todos os proxectos derivados da interpretación e xeración de contido de forma automática experimentaron un enorme pulo. Hoxe por hoxe existen unha infinidade de modelos de linguaxe que, a través da nosa propia aprendizaxe, van aprendendo tamén, autocorrexindo erros e perfeccionándose máis e máis.

Pablo Gamallo, investigador do CiTIUS e lingüista, explica cales son as súas características no encontro ‘Intelixencia Artificial. A electricidade do século XXI?‘, que se está a celebrar esta semana en Santiago. “O coñecemento destes modelos de tecnoloxía lingüística a nivel do público xeral deuse coa aparición de Chat GPT, que non é máis que o refinamento doutro gran modelo, o GPT“, explica Gamallo, que asegura que “no momento en que saltou ao gran público a través dos medios de comunicación de masas e se soubo das súas posibilidades supuxo un antes e un despois para todo o desenvolvemento de proxectos vinculados á intelixencia artificial“. O experto fai referencia a un tuit publicado por Sam Altman, CEO da empresa Open AI, creadora de Chat GPT, que aseguraba que “en tan só cinco días conseguiron superar o millón de usuarios”.

Pablo Gamallo, investigador do CiTIUS e lingüista, asegura que Chat GPT “supuxo un antes e un despois para o desenvolvemente de todos os proxectos vinculados á intelixencia artificial”. En cinco días chegou ao millón de usuarios. O Proxecto Nós pretende lograr que o galego non se quede á cola das linguas e non se vexa en risco de desaparecer polo auxe desta intelixencia artificial que só fala en idiomas maioritarios.

Para contextualizar este fito é importante comparalo co tempo que lle levou a outro tipo de plataformas chegar a ese millón de usuarios, é dicir, ao público ‘mainstream‘: Chat GPT tardou cinco días, Netflix tardou tres anos (habería que ter en conta neste caso que se trata dunha plataforma de pago), Facebook tardou dez meses e Instagram tardou dous. De aí que, como asegura o lingüista, “o de Chat GPT fose un evento absolutamente espectacular, sobre todo porque se trata dunha ferramenta lingüística”, non de vídeo ou de fotografía, como os outros casos de plataformas con contido multimedia ou redes sociais.

Deste xeito, pode afirmarse sen temor a equivocarse que Chat GPT cambiou a área de traballo de todos aqueles investigadores que estaban naquel momento traballando e desenvolvendo modelos de intelixencia artificial. “Creáronse moitísimas expectativas e agora temos que traballar cunha presión moi alta para crear modelos parecidos a Chat GPT, porque se non facemos cousas semellantes non conseguimos convencer á xente e ás administracións e entidades privadas para que nos financie“, pois, á fin e ao cabo, é o que máis coñecen, advirte Gamallo.

PROXECTO NÓS: LOITAR PARA QUE O GALEGO NON SE QUEDE ATRÁS NA IA

O Proxecto Nós busca conseguir que o galego non se quede á cola das linguas e se poida ver en risco de desaparecer polo auxe desta intelixencia artificial, que só fale en idiomas maioritarios. Simplificadamente, a idea sería crear un sistema de intelixencia artificial que empregase o galego para comunicarse e que, desde logo, o entendese. Entre os retos que presenta este proxecto, como detalla Gamallo, atópase “a creación dos medios dixitais necesarios para que o galego prospere como lingua viva na era dixital” e “a creación dun ecosistema galego ao redor da intelixencia artificial”.

E para poder afrontar eses desafíos, é imprescindible “desenvolver recursos, modelos e ferramentas para o galego con licenzas libres, elaborando tamén demostradores que os fagan visibles e que se faciliten ás empresas e institucións para que se desenvolvan con eles en empresas en uso“. Durante o 2022, no Proxecto Nós estiveron traballando con intelixencia artificial na parte de voz e texto, comezando a pensar un pouco tamén nos sistemas de diálogo e de xeración automática, pero máis a modo de ‘background‘. Tamén estiveron contactando con empresas que lles puidesen fornecer de datos, como o propio Galicia Confidencial, ou o Parlamento de Galicia e o Consello da Cultura Galega, chegando a un total de 40 entidades contactadas e 17 acordos de cesión asinados en diferentes sectores.

Agora, os recursos do Proxecto Nós e os seus modelos están en libre acceso. No CiTIUS enfocáronse na parte do  texto, traballando moito na parte de tradución automática, como explica Gamallo, para o que usaron unha arquitectura de tradución neuronal que lles permitise traducir o galego ao español e ao inglés, e agora atópanse no mesmo proceso co euskera e o catalán. A parte da tradución foi desenvolvida polo CiTIUS e a parte da xeración textual foi feita no Instituto da Lingua Galega (ILG), que traballou máis no que tiña que ver coa voz, con darlle son ás traducións xeradas. Para poder realizar a tradución automática, tamén foron precisos moitos datos e, por iso, unha das estratexias que usaron dende o CiTIUS foi coller moitos textos traducidos do portugués ao inglés e do portugués ao español, sobre todo procedentes do Parlamento europeo, e adaptalos ao galego oficial. “Esa foi unha estratexia que nos permitiu ter datos suficientes para entrenar estes grandes modelos”, afirma Gamallo.

Entón, cales serán os próximos pasos do Proxecto Nós? Nestes momentos atópanse traballando no chamado proxecto Ilenia, no que tamén están metidas institucións lingüísticas do País Vasco, de Cataluña e da Comunidade Valenciana, que ten o obxectivo de crear grandes modelos lingüísticos, do tipo GPT-3 e GPT-4, e eses modelos multilingües teñen que ter, como mínimo, as linguas ibéricas oficiais e, probablemente, tamén o portugués. Agora mesmo os tradutores existentes gozan dunha gran presenza de texto en inglés, máis da metade, e dunha porcentaxe moi pequeniña, inferior ao 1 %, de texto en galego. “A idea co proxecto Ilenia é crear modelos multilingües con maior equilibrio no reparto de linguas, para que os tradutores poidan funcionar tan ben en inglés como en castelán, en galego ou en euskera”.

“Temos un prototipo dun modelo de 1,3 millóns de parámetros con máis de 2,2 millóns de ‘tokens‘ (de palabras), o que supón o cómputo máis grande en galego, con moita diferenza, e xa hai algúns resultados que se van obtendo, porque lle vamos facendo preguntas e o modelo máis ou menos é capaz de responder de forma coherente, tendo ademais unha cualidade de lingua bastante grande, moito mellor que moita xente, que non escribe tan ben como o fai este modelo en galego, porque o certo é que todos escribimos bastante mal en galego”, expón este investigador, que bromea con que “non sei como é capaz de escribir tan ben en galego sendo tan malos os datos que lle damos entre todos”.Ç

Toda a info en Galicia Confidencial

Deixe un comentario

Este sitio emprega Akismet para reducir o spam. Aprende como se procesan os datos dos teus comentarios.