Skip to main content
SearchLoginLogin or Signup

Alexa, amënyï*. Algunas consideraciones sobre la inclusión de las lenguas indígenas en las tecnologías del habla

Tajëëw Díaz Robles comparte su trayectoria como activista digital de lenguas indígenas y enseña esfuerzos de activistas que están tratando de ir contracorriente.

Published onJul 08, 2023
Alexa, amënyï*. Algunas consideraciones sobre la inclusión de las lenguas indígenas en las tecnologías del habla

Una versión de este texto fue compartida durante el Taller de tecnologías del habla para las lenguas indígenas de América que tuvo lugar el 6 de mayo de 2022 en las instalaciones de la UNAM y que fue co-convocado por Common Voice de Mozilla y otras instituciones.

Por fortuna, crecí en una comunidad mixe en Oaxaca, en un periodo en el que en muchos espacios se promovía el orgullo por los elementos propios de la cultura. Aunque en mi familia el español y algunas palabras de cariño en zapoteco estaban presentes, la lengua mixe era la predominante. A muy temprana edad, aprendí que el mixe podía escribirse, en la primaria no tuve clases de mixe pero la mayoría de mis maestros eran de la misma comunidad y eran hablantes de la lengua. Durante mi educación secundaria tuve mi primer acercamiento a una computadora con internet, todavía recuerdo con cuánta curiosidad creamos nuestra primera cuenta de correo electrónico, además de las clásicas iniciales combinadas con fechas de nacimiento o signos zodiacales, recuerdo que al menos tuve un correo con una palabra en mixe, [email protected], no recuerdo haberme sentido mal por usar mi lengua en esas computadora, tampoco era consciente de las limitaciones. Durante el bachillerato teníamos una gran sala de cómputo, cada vez que tomábamos una clase de computación podíamos utilizar una computadora con acceso a internet, comencé a ser una gran usuaria de los foros de chat y del correo electrónico, en español, eso sí. Paralelamente, participaba de espacios multianuales que tenían lugar durante los periodos vacacionales en diferentes comunidades de la Región Mixe para aprender a escribir y leer en mixe, en esos espacios coincidimos con personas jóvenes y adultas de otras comunidades mixes. Este pequeño recuento escolar y tecnológico para establecer mi lugar de enunciación, comparando el mayor acceso que tuve en mi comunidad a estas tecnologías y una actitud positiva hacia mi lengua, se diferencia de comunidades en las que la discriminación y por tanto el rechazo por la lengua indígena está muy presente y la brecha digital aún es muy grande. 

Una vez establecido el contexto desde el que enuncio estas reflexiones, quisiera focalizar el modo en el que la pandemia evidenció de una manera muy clara la brecha de conectividad y de acceso a plataformas y dispositivos digitales. A pesar de los esfuerzos de clases por televisión y por radio, fue imposible garantizar el derecho de la educación (oficial) a la mayor parte de la población que habita las zonas rurales e indígenas y seguramente a muchas zonas de las periferias de las grandes urbes. 

Desde el 2019, el proyecto Endless Oaxaca Multilingüe de la Fundación Alfredo Harp Helú Oaxaca A.C. inició sus actividades en Oaxaca. Se trata de un proyecto piloto para conocer el impacto del uso de un sistema operativo robusto en zonas con poca o nula conectividad, a la vez que se incorpora contenido digital en lenguas indígenas de las comunidades. En abril de 2022, realizamos una presentación de libros en una comunidad mixe, Santa María Ocotepec, y a la pregunta de cuántos libros en mixe tenían, algunos respondían que ninguno y otros más recordaron que en sus computadoras tenían algunos. Somos conscientes de que incluir libros digitales en una computadora no revitaliza ni mucho menos salva lenguas. Sin embargo, requerimos de todos los esfuerzos posibles para poder apoyar los esfuerzos locales y comunitarios para que una lengua minorizada y discriminada no muera. De ahí que las herramientas digitales pueden ayudar en esta tarea. 

Muchas veces hemos escuchado decir que las lenguas indígenas son orales, que no se escriben o que en todo caso no necesitan escribirse. Si bien podemos tener largas conversaciones sobre esos supuestos, prefiero solo afirmar que una lengua viva, una lengua sana, no solo debería poder hablarse, debería también tener la posibilidad de escribirse, grabarse, visibilizarse, disfrutarse, es decir: USARSE en sus diferentes formas y soportes. 

Cuando vemos una película de ciencia ficción, o re-visitamos las películas que hace 20 años nos hablaban de estos años, nos sorprendemos (o tal vez no tanto) de los avances tecnológicos que ha tenido la humanidad. En un contexto con una crisis ambiental y humanitaria, al parecer irreversible, siempre está la pregunta de qué puede hacer la ciencia y tecnología para revertir guerras y la escasez de agua. Poco o nada hasta ahora. Pareciera que las rutas que transitan, por un lado, los desarrollos tecnológicos, son paralelas pero independientes de la mayor parte del resto, del destino hacia el que va caminando la humanidad.

Mientras en un contexto de un capitalismo más salvaje cada vez, las lenguas indígenas, pero más que las lenguas, las hablantes de las lenguas indígenas, están siendo cada vez más empobrecidas y asesinadas, pues cada vez son menos funcionales al sistema imperante, nos preguntamos sobre el papel de las tecnologías de la información y ahora en particular en las tecnologías del habla y su papel en esta resistencia por la supervivencia de las personas hablantes de estas lenguas, en los procesos y luchas por la existencia de nuestras lenguas. 

“Google, pon la alarma a las 6 de mañana”

Hace unos meses escuché por primera vez a mi mamá pedirle a un aparato que le programara el despertador a las 6 a.m. Mi primera reacción fue decirle: “¿sabes que ese aparato registra todo lo que escucha?”

Esos dispositivos obviamente no son comunes en las comunidades, pero tampoco son completamente ajenos. La migración y en general, la movilidad social, ha permitido un mayor acceso a dispositivos y también ha creado mayores necesidades de conectividad, por lo que muchas comunidades han buscado, por su cuenta o con el apoyo de organizaciones externas, lograr acuerdos con particulares para tener servicios telefónicos o de internet. Por eso no sabemos cuántos “googles” o “alexas” estén haciendo corto circuito o estén almacenando horas de lenguas no hegemónicas en sus bases de datos. 

Recientemente en la prensa mexicana se difundieron noticias sobre las filtraciones de millones de datos de contribuyentes del SAT1. ¿Quiénes son esas 49 000 personas/empresas que tienen esos datos y cómo los están usando o los usarán? Desde mi muy incipiente conocimiento sobre las tecnologías del lenguaje y en particular de las del habla, entiendo que para que un modelo funcione, requiere de una cantidad considerable de datos, lo que implica que haya voces grabadas o un corpus escrito por lo menos.2

Durante el hackaton organizado por Common Voice y la UNAM durante abril de 2022, uno de los equipos presentó un juego del gato3 de voz, que para poder identificar los números del 1 al 9 en náhuatl ingresó más de 300 datos para su entrenamiento. Esto nos da una idea de cuántos datos se requerirán para tener una aplicación más compleja que nos pueda resolver problemas en la vida cotidiana y que podrían ayudar a las personas que hablan lenguas indígenas. Con un ejercicio aparentemente tan sencillo, podemos ver qué tan grandes pueden ser las desventajas en cuanto a recopilación de datos que tienen, por ejemplo, las lenguas en alto grado de desaparición, que cuentan con un número limitado de hablantes y que probablemente no han tenido mucha documentación. No ahondaré más porque no conozco a detalle ningún caso. Pero sí puedo hablar de mi lengua, el mixe. 

Según datos del último Censo de población4, alrededor de 130 mil personas mayores de 3 años hablan alguna de las variantes de la lengua mixe. Viendo en detalle los datos del Censo, hemos visto que el desplazamiento en las nuevas generaciones es, por decir lo menos, preocupante en todas las comunidades.5 Ya no hay transmisión generacional garantizada. Ante esta realidad nos preguntamos ¿quiénes van a aportar los datos para que la inteligencia artificial funcione en mixe? ¿Deberíamos ya comenzar una campaña intensiva de documentación de nuestra lengua imaginándonos lo peor?

Para la lengua mixe, existen varios esfuerzos de personas mixes que utilizan tecnologías digitales para visibilizar y apoyar su enseñanza-aprendizaje. Podemos identificar aplicaciones como la promovida por el equipo de Kumoontun, una app para Android6 y Apple del mismo nombre, que nos ofrece una serie de datos: texto y audio, para aprender nombres de cosas, comunidades y otras palabras para familiarizarnos con la lengua ayöök, variante de Santa María Ocotepec. Una de sus principales ventajas es que una vez instalada, se puede utilizar sin necesidad de internet. 

También podemos encontrar una serie de aplicaciones web desarrolladas por el programador mixe Luis Balbuena Gómez en su página tlahuitoltepec.com7, que concentra una gran cantidad de información y la presenta de manera interactiva en formato de juegos. Una de sus desventajas es que no se puede utilizar sin internet. 

Hay algunos otros esfuerzos como la aplicación para Android “Mixe ëyuujk” desarrollada para mixe de Tamazulapam y otra creada por el equipo Yalam, que desarrolla diversas aplicaciones para lenguas indígenas, incluido el mixe. 

Además de estas aplicaciones web y móviles, existe contenido en plataformas como Facebook y Youtube, que son difundidas por redes sociales y que tienen un alto grado de difusión entre hablantes de mixe. Quiero resaltar especialmente JE Yin-ET, una de las páginas que desde hace más de 10 años crea contenido diverso, entre ellos, el doblaje de escenas de películas.8

Finalmente, quiero mencionar el trabajo desarrollado por el colectivo al que pertenezco, el Colmix, un espacio en el que hemos desarrollado diversos materiales, sobre todo textuales, que se pueden descargar de manera libre en nuestra página9 y se pueden consultar en nuestras redes sociales. En los últimos años hemos contribuido, utilizado y promovido la plataforma StoryWeaver10 para la creación de material de lectura ilustrada, actualmente se pueden leer al menos 100 libros en 6 variantes de lengua mixe en la plataforma. 

La mayor parte de los recursos digitales que mencioné es desarrollada y/o promovida por personas que hablan la lengua mixe y que están utilizando diversos recursos digitales para difundir y promover nuestra lengua. Somos conscientes de que estas acciones tienen poco impacto real en la transmisión generacional de la lengua. Sin embargo, sí tienen un impacto en el estatus que tiene nuestra lengua entre las nuevas generaciones, que ven el mixe en plataformas en las que estamos acostumbradas a solo leer, escuchar o ver español u otras lenguas hegemónicas como el inglés. Sabemos que las tecnologías del habla van más allá de estas aplicaciones y plataformas y claro que si nos preguntan, quisiéramos que nuestra lengua, en tanto lengua viva, también pudiera estar disponible en esas tecnologías, la pregunta es ¿cómo queremos que nuestra lengua sea incluida en esas tecnologías? 

Soberanía de datos11

Hemos establecido que para cualquier tecnología de la lengua es necesario recopilar datos y sistematizarlos para que puedan ser utilizados para las aplicaciones. Un traductor necesita mucha información para poder realmente ser útil.  También se ha establecido que estos datos, por ejemplo la grabación de voces, tiene que provenir de una diversidad de voces, para que pueda ser más precisa, es decir, necesitamos no solo voces de hombres jóvenes, que podría ser el sector de la población con más acceso a la tecnología, también necesitamos voces más adultas y más jóvenes, y por supuesto, también de mujeres. Por tanto, la lengua que queramos incluir en estas tecnologías deberá contar con hablantes, es decir deberán ser lenguas vivas.12

En este punto una pregunta importante es ¿dónde se almacenan esos datos? y esto nos lleva a otras como ¿quién promueve esas tecnologías? ¿quién utiliza estos datos? La mayoría de las iniciativas que conocemos son promovidas por investigadores o investigadoras de universidades o centros de investigación, pues son los espacios que pueden acceder a ciertas tecnologías. Incluso algunas aplicaciones más sencillas han sido promovidas desde centro universitarios que desarrollan proyectos de titulación y que una vez concluida su formación, abandonan y dejan sin actualización y mantenimiento las aplicaciones. No se tiene certeza de dónde se quedan almacenadas esas listas de palabras y las grabaciones que son utilizadas para desarrollar esas tecnologías. 

En el caso de las universidades, asumimos que los datos se almacenan en los servidores de las instituciones, sin mucha claridad de quién tiene acceso y qué diferentes usos se puede hacer de los datos. Quisiera puntualizar aquí que el hecho de que una plataforma o institución mencione que sus datos son abiertos o disponibles por sí mismo no garantiza el acceso a las personas que hablan estas lenguas o que aportaron estos datos. Primero por el conocimiento de las bases de datos y después por lo complejo que puede ser el acceso o por los recursos necesarios para hacerlo.

Algunos investigadores y estudiantes han comentado sobre el celo que tienen los hablantes con su información, algunas veces puede tratarse de un asunto monetario por ciertas prácticas previas, pero también se trata de un asunto de confianza. ¿A dónde se llevan mi voz? Si con las fotos existen creencias de que se llevan el alma ¿qué se llevan con la voz? Estos planteamientos son válidos, pues vienen de las vivencias y creencias de las comunidades, por lo que deben ser consideradas para cualquier investigación que realicen. El cuidado que se tiene con los datos y el posterior acceso a ellos deben ser prioridad en cualquier proyecto de recopilación de datos, para establecer confianza con las personas que hablan estas lenguas. Estos protocolos deben ser considerados tanto para gente externa como para gente de las mismas comunidades. 

Hemos conocido de protocolos que otros pueblos indígenas en el mundo han desarrollado para el manejo de sus datos, esto nos inspira para promover poco a poco estas conversaciones en nuestras propias comunidades, no solo para el uso de datos para el desarrollo de tecnologías del habla, sino también para proyectos cinematográficos y de otra índole que involucre alguna forma de extracción de datos de la comunidad. De otra manera estaríamos atestiguando el extractivismo de datos, práctica que esperaríamos se pudiera combatir, no solo desde las comunidades sino también desde los centros de investigación en los procesos de formación de sus estudiantes. 

Las lenguas, sus variantes y sus hablantes

Las lenguas vivas cambian, tanto por el contacto con otras lenguas como por los nuevos conocimientos que se incorporan y los cuáles se van nombrando, ya sea con préstamos o con neologismos. En este sentido, nos preguntamos cómo se define, en una tecnología del habla, qué variante será la que se utilizará. ¿Será la que tenga más hablantes? ¿La que tenga una comunidad organizada que promueva un proyecto en particular? ¿La comunidad de una persona hablante que colabora con algún proyecto? Esa decisión será importante e impactará directamente en procesos regionales y locales que tenga la lengua. En el caso del mixe, sería interesante ver cómo se transcribirá un texto en un programa, que conjunto de grafías será elegido, si lo que coloquialmente llamamos ptkero o el bodeguero. 

En realidad aquí lo que las tecnologías deberán atender serán las necesidades de los hablantes de la lengua, retomar los procesos que de por sí se estén desarrollando de manera local y hacer el proceso lo más colaborativo posible y atendiendo los protocolos comunitarios que para tal fin existan. 

Como referencia, presento el caso de las Semanas de Vida y Lengua Mixe, un espacio itinerante que desarrolla actividades de enseñanza-aprendizaje de la lectura y escritura de la lengua mixe, que en los años recientes ha dado un giro en sus actividades para centrarse en la planificación lingüística del mixe y así atender los retos que tenemos en el presente. En el marco de estos esfuerzos, desarrollamos actualmente un Seminario Permanente de Didáctica de la Lengua Mixe y uno de los grandes retos es el desarrollo de diversos materiales didácticos para la enseñanza de la lengua. Aquí tenemos una oportunidad de desarrollar aplicaciones que puedan impactar directamente en actividades concretas que llevan a cabo hablantes de la lengua mixe.

Hasta ahora, lo común es que las personas que hablamos las lenguas indígenas seamos promotores entusiastas de ciertas tecnologías y plataformas, y aunque, al menos en las ciencias sociales, ya sea políticamente incorrecto decir informantes, seguimos jugando ese rol de solo ser personas que proveen cierta información que extraen personas especializadas. Poco a poco, las nuevas generaciones hablantes de las lenguas indígenas están accediendo a carreras tecnológicas más especializadas, por lo que deberíamos promover que esas mismas personas sean las que se involucren en el desarrollo de todas aquellas tecnologías del lenguaje que deseemos en las comunidades. El hecho de que una persona hable la lengua no garantizará una perspectiva comunitaria o un respeto por ciertos protocolos comunitarios, pero tendremos la ventaja de que al ser parte del colectivo, podremos tener una comunicación más directa e incluso tener mecanismos de rendición de cuentas que nos permitan garantizar nuestra soberanía en las decisiones que tomemos. 

Finalmente, me gustaría reiterar que no queremos estar al servicio de bases de datos de los desarrollos tecnológicos, queremos co-crear o mejor, tener la capacidad para crear nuestras propias tecnologías, siendo conscientes siempre de sus implicaciones y alcances, sin dejarnos llevar por la lógica del desarrollo por el desarrollo sin considerar las implicaciones que puede tener el uso de un dispositivo o de una herramienta, no solo para nuestras comunidades sino también para otros pueblos del mundo. 

Aunque no sé si en algún momento podremos decidir si Alexa logrará descifrar algo en mixe, quiero pensar que si eso pasa, también tendremos la posibilidad de callarla, de decirle: Alexa amënyï13. 

Comments
0
comment
No comments here
Why not start the discussion?