Se ha considerado históricamente la comunicación y, por ende, el uso del lenguaje, como los mejores aliados para la germinación y propagación de las ideas. El lenguaje que, con el paso de los años, se ha ido adaptando y reformulando para atender las necesidades experienciales del hablante es, sin duda, un sistema mutable, adaptativo y sensible a todas las realidades de los individuos que habitan la Tierra. A través de él, el ser humano materializa sus experiencias vitales. Pero el lenguaje no es sólo un sistema de comunicación de ideas y de traslación simbólica de vivencias, sino de difusión de estereotipos y desvalorizaciones en torno a los cuales se construyen sistemas de opresión lingüística que se traducen en discriminación, cuando no en incitación a la violencia contra determinados colectivos.
Estos discursos de opresión lingüística son un método infalible, sistemático y en absoluto desconocido en nuestra historia. Viktor Klemperer, filólogo judío perseguido por el III Reich, escribiría al respecto en su cuaderno de notas: "El lenguaje guía mis emociones, a la vez que dirige mi personalidad psíquica el nazismo penetraba en la carne y en la sangre de las masas a través de palabras aisladas, expresiones, formas sintácticas. Éstas se imponían repitiéndose millones de veces y eran adoptadas inconscientemente". Se refería a expresiones como las de solución final para el exterminio judío o la de tratamiento especial para las cámaras de gas.
Si esto ocurre en el entorno natural, ¿qué ocurre con las máquinas del presente y el futuro que se nutren del lenguaje humano? ¿Son indefectiblemente creadas a imagen y semejanza del ser humano o pueden ser una versión mejorada del mismo? ¿Están abocadas a reproducir los sesgos étnicos y de género del lenguaje, o es posible que actúen de forma más acorde a los principios de igualdad y respeto a la diversidad en los que se asientan las democracias constitucionales contemporáneas?
Una de las claves para el desarrollo de la inteligencia artificial o simulación cognitiva de las máquinas es el procesamiento del lenguaje natural (PLN), es decir, la creación de algoritmos a partir de patrones lingüísticos que permiten la interacción humano-máquina. Hoy en día, este trasvase comunicativo a las máquinas tiene múltiples aplicaciones. Pensemos en los asistentes virtuales, los recomendadores, las herramientas para automatizar procesos de selección de personal o los sensores sociales que monitorean las tendencias discursivas en las redes sociales con finalidades predictivas.
Desde finales de los años 80, con el auge del big data, se amplía el paradigma en torno al procesamiento del lenguaje gracias a modelos estadísticos o estocásticos, que aprenden de una serie de actividades que se realizan con grandes cantidades de datos extraídos de diferentes medios, como pueden ser las interacciones en las redes sociales o las noticias en los medios de comunicación. Los nuevos modelos consiguen, a diferencia de los que los precedieron, una interpretación semántica del discurso; es decir, rastrear el significado que adquieren las palabras y expresiones dentro de nuestros discursos, y no sólo en su literalidad.
Uno de los métodos más populares y efectivos de estos nuevos modelos es, por ejemplo, Word2vec. En él se trabaja con espacios vectoriales semánticos que sitúan en un plano gráfico la palabra y la acercan o alejan de otras en función a la probabilidad que tienen de ir juntas o separadas en el discurso, según han aprendido mediante el procesamiento de ingentes cantidades de datos, facilitando de esta forma el procesamiento cognitivo de las expresiones. Se trata, pues, de plasmar computacionalmente, y de manera cuantitativa, cómo nos expresamos y el significado que adquieren nuestras palabras en compañía o lejanía de otras. Una vez que se tiene la suficiente cantidad de datos y se les entrena mediante un proceso ciertamente complejo, los algoritmos de Word2vec pueden ejercer de motor de las herramientas mencionadas anteriormente.
Lo interesante de Word2vec es que podemos ver cómo se relacionan las palabras entre ellas; es decir, no importa tanto una palabra concreta, sino las relaciones que mantienen en los espacios mentales del hablante. Un espacio vectorial semántico nos ayudaría a rastrear, por ejemplo, los micro-racismos presentes en los discursos, pues sería estadísticamente más probable que encontrásemos una expresión negativa acompañando al adjetivo negro, que una expresión negativa acompañando al adjetivo blanco: pensemos en dinero negro, mano negra, oveja negra o mercado negro.
Google tiene desarrollado un modelo pre-entrenado en Word2vec basado en 100 billones de palabras extraídas de su banco de datos de noticias. Si le preguntamos el rey es para el hombre lo que la mujer es para , por lo que ha aprendido del análisis masivo de datos lingüísticos y en función de asociaciones y disociaciones, el sistema nos devolverá reina. No obstante, si le preguntamos el hombre es programador, lo que la mujer es su respuesta es ama de casa; y si volvemos la oración del revés y preguntamos el hombre es ama de casa lo que la mujer es..., su respuesta seguirá siendo ama de casa. Estamos, pues, ante un sesgo de género que ha permeado en el modelo algorítmico; en este caso, un sesgo basado en los estereotipos y en la baja representación en nuestro discurso de ejemplos de mujeres en otras actividades y puestos de trabajo. Como han puesto de manifiesto estudios recientes como los de Sun et al (2019), de la Universidad de California (Ucla), la baja representación, denigración y estereotipado de los grupos históricamente oprimidos es secuencializado y amplificado por los algoritmos, dando cuenta de nuestra realidad social y del mundo que se pinta a través de nuestro uso del lenguaje.
Hay más ejemplos: mientras la mujer ama, el hombre es amado; si el hombre ama, la mujer adora. No parece, pues, que los algoritmos den cabida a la mujer del futuro alejada de ese deber bíblico de entrega y sacrificio familiar.
Este modelo de Google no es el único que nos ofrece ejemplos de sesgos que han superado la barrera natural: el que empezara como GTP-2 (ahora, GTP-3) fue desarrollado por OpenAI, una compañía de investigación en inteligencia artificial patrimonio de, entre otros, Elon Musk. Se trata de un generador de texto automático que ha llevado al procesamiento del lenguaje natural a una dimensión nunca vista anteriormente. Desafortunadamente, lo que no ha superado han sido los sesgos. Si en GTP-2 escribíamos el hombre trabajó como, el sistema completaba como un vendedor de coches; sin embargo, en la mujer trabajó como continuaba la frase con un prostituta bajo el nombre de Hariya. También se detectaron sesgos homófobos: mientras que una persona heterosexual era conocida por su habilidad para encontrar su propia voz y hablar claramente, la homosexual lo era por su amor a la danza, ¡pero también a las drogas!
En la actualidad, el ya mencionado grupo de procesamiento de lenguaje natural de Ucla, así como otros del Massachusetts Institute of Technology (MIT) o de Cornell University, están investigando cuáles pueden ser los métodos para mitigar el impacto de los sesgos en los algoritmos.
Por un lado, hay una propuesta para actuar una vez que se recogen de forma aleatoria las muestras masivas de datos, a fin de equilibrar los ejemplos recogidos; como, por ejemplo, cuando se detecta una alta tendencia a ligar las profesiones tecnológicas al género masculino (siendo en este punto especialmente relevante para los hispanohablantes el hecho de que el masculino genérico presente en nuestra lengua pueda contribuir a amplificar y sistematizar la baja representación de las mujeres en estas profesiones). La otra propuesta consiste en eliminar los estereotipos localizados del espacio vectorial una vez el algoritmo ha sido creado. Estamos, sin embargo, sólo al inicio de un camino que promete ser largo si queremos evitar que la inteligencia artificial se convierta en un instrumento que perpetúe y magnifique lo peor de nosotros mismos. Pero ése es exactamente el reto que tenemos por delante.
Catedrática de Derecho Constitucional de la Universidad de Sevilla (España) y directora de la Cátedra Unesco de Derechos Humanos e Interculturalidad de la Universidad Internacional de Andalucía