Un reciente informe elaborado por BID Lab (el brazo de innovación del Banco Interamericano de Desarrollo) junto con la firma global LLYC y Microsoft, evidencia las limitaciones actuales de los modelos de inteligencia artificial generativa al interactuar con lenguas indígenas americanas.
La publicación titulada “El desempeño de la inteligencia artificial en el uso de lenguas indígenas americanas”, analiza con un enfoque técnico y cultural los errores sistemáticos que presentan estos sistemas al traducir, generar texto o responder preguntas en idiomas originarios.
El estudio se centró en siete lenguas indígenas: náhuatl, quechua, guaraní, aymara, mapuche, quiché y moqoit. Estas lenguas fueron elegidas por su relevancia geográfica en Latinoamérica y por contar con un volumen relativamente significativo de documentación digital, en comparación con otras más amenazadas.
Los modelos evaluados incluyeron opciones de acceso abierto y comerciales ampliamente utilizados en el mercado, como ChatGPT, Claude, Gemini y Mistral.
Poco más de la mitad de las respuestas tenían errores
Según el estudio, 54% de las respuestas generadas por los modelos tenían errores, combinaban idiomas y mostraron ser cuatro veces más breves y menos informativas que sus equivalentes en español.
En términos cualitativos, los textos obtenidos en lenguas indígenas alcanzaron puntuaciones promedio de 2,4 sobre 10 en expresión y de 2,3 sobre 10 en comprensión, según una metodología que involucró a hablantes nativos como evaluadores.
El documento también advierte que estas deficiencias no solo se explican por la escasa disponibilidad de datos lingüísticos en lenguas indígenas, sino por sesgos estructurales en la arquitectura de los modelos. La mayoría de las IA generativas están entrenadas principalmente con contenido en inglés, español o portugués, lo que deja fuera estructuras gramaticales, vocabulario y referencias culturales propias de los pueblos originarios.
Además, se detectaron múltiples errores de contexto: uso incorrecto de palabras, frases traducidas literalmente sin sentido, referencias occidentales ajenas al universo cultural indígena e incluso invención de términos inexistentes. Todo esto no solo compromete la calidad de las respuestas, sino que perpetúa formas de exclusión digital hacia las comunidades que hablan estos idiomas.
Lenguas indígenas podrían beneficiarse de la IA
Uno de los puntos más relevantes del informe es la correlación directa entre el volumen de contenido digital disponible en una lengua y el desempeño de la IA.
Aquellas con mayor presencia en internet, como el quechua y el guaraní, obtienen mejores resultados, aunque limitados. Por el contrario, idiomas menos documentados digitalmente, como el moqoit o el quiché, presentan niveles de desempeño muy bajos o nulos.
De hecho, 38% de las lenguas indígenas de la región están en riesgo. Si la IA no las incorpora, se pierden saberes sobre medicina tradicional o ecología.
A partir de este diagnóstico, el estudio propone un total de 21 estrategias para cerrar la brecha digital en contextos indígenas. Entre ellas se incluyen el desarrollo de corpus multilingües, tecnologías de traducción automática y voz, protección de archivos digitales comunitarios, estímulo a la creación de contenido por influencers indígenas y adopción de políticas públicas que incentiven la justicia lingüística en entornos digitales.
El informe concluye que la inteligencia artificial puede ser una herramienta poderosa para preservar y revitalizar las lenguas originarias, siempre que se reconozca su diversidad y se integre con enfoque intercultural. De lo contrario, el avance tecnológico corre el riesgo de reproducir esquemas de exclusión ya existentes, afectando el acceso a servicios, educación y derechos fundamentales para millones de personas en Latinoamérica.
La imagen principal fue creada con IA por Mobile Time.