La inteligencia artificial (IA) generativa de audio ha experimentado un avance asombroso, creando sonidos de alta calidad para diversos usos, desde melodías hasta la asistencia para personas con discapacidad visual. Sin embargo, este progreso tecnológico ha revelado un lado oscuro: los datos utilizados para entrenar a la IA a menudo contienen sesgos, lenguaje ofensivo y material con derechos de autor, planteando serios desafíos éticos y legales.
El problema de los sesgos en la IA de audio
Un estudio realizado por investigadores de la Universidad Carnegie Mellon analizó 680.000 horas de audio de diversas plataformas, incluyendo AudioSet, Free Music Archive y YouTube. Los resultados revelaron la presencia de sesgos de género y raza, similares a los encontrados en bases de datos de texto e imágenes. Por ejemplo, la palabra “hombre” se asoció con conceptos como “guerra” o “historia”, mientras que “mujer” se relacionó con “tienda” o “mamá”, perpetuando estereotipos tradicionales.
Además, se detectaron miles de términos racistas y discriminatorios hacia la diversidad sexual, especialmente en Free Music Archive y LibriVox. Robin Netzorg, investigadora del habla en la Universidad de California, señala que la falta de representación de voces “queer” en los conjuntos de datos es una de las causas de este problema.
Estos sesgos, si no se abordan, pueden perpetuar e incluso amplificar prejuicios en la sociedad. Julia Barnett, de la Universidad Northwestern, advierte sobre la importancia de ser conscientes de la composición de los conjuntos de datos para evitar la generación de “efectos negativos” a gran escala.
Infracciones de derechos de autor: la propiedad intelectual en riesgo
El estudio de Carnegie Mellon también reveló que al menos el 35% de los audios analizados contenían material protegido por derechos de autor. Este hallazgo plantea serias preocupaciones sobre la propiedad intelectual en el ámbito de la IA generativa de audio.
Borja Adsuara, abogado experto en derecho digital, explica que la voz es un dato biométrico con la misma protección legal que la huella dactilar o el iris del ojo. Su uso sin consentimiento constituye una violación de la privacidad y los derechos de imagen.
Casos como el de la actriz Scarlett Johansson, cuya voz fue imitada por un chatbot de OpenAI, o la simulación de canciones interpretadas por artistas como Bad Bunny y Bad Gyal, ilustran las implicaciones legales de la IA en la vulneración de derechos de autor e imagen.
El reto ético y la necesidad de regulación
Andrés Masegosa, experto en IA de la Universidad de Aalborg, señala que la IA replica los patrones existentes en los datos, comparándola con el aprendizaje humano: “Si expones a un niño a un comportamiento machista, él va a reproducir ese sesgo de forma inconsciente”.
La solución no es simple. Intentar eliminar los sesgos puede reducir la capacidad de los modelos de IA. Existe un debate en la comunidad científica sobre cómo equilibrar la innovación con la responsabilidad ética.
Sauvik Das, del Instituto de Interacción Humano-Computadora de Carnegie Mellon, destaca la necesidad de “más datos para tener modelos de mayor calidad”, pero también reconoce el alto coste de auditar y procesar grandes cantidades de información de audio.
El desafío radica en crear conjuntos de datos más inclusivos y representativos, al tiempo que se garantiza el respeto a los derechos de autor. La regulación y la autorregulación en la industria de la IA son cruciales para mitigar los riesgos éticos y legales.
La discusión sobre la ética en la IA generativa de audio apenas comienza. Es imperativo abordar estos problemas con urgencia para asegurar un desarrollo tecnológico responsable y equitativo, que beneficie a la sociedad en su conjunto sin perpetuar prejuicios ni vulnerar derechos fundamentales.