La actriz de cine Allegra Clark estaba navegando por TikTok cuando se encontró con un vídeo en el que aparecía Beidou, un capitán de barco de capa y espada del videojuego Genshin Impact a quien le había dado voz. Pero Beidou estaba participando en una escena sexualmente sugerente y dijo cosas que Clark nunca había grabado, a pesar de que la voz ronca sonaba exactamente igual a la de ella. El creador del vídeo tomó la voz de Clark y la clonó usando una herramienta de inteligencia artificial generativa llamada ElevenLabs, y a partir de ahí, la hicieron decir lo que quisieran.
Clark, quien ha expresado más de 100 personajes de videojuegos y docenas de comerciales, dijo que interpretó el video como una broma, pero le preocupaba que su cliente pudiera verlo y pensar que ella había participado en él, lo que podría ser una violación de su contrato.
"Esto no sólo puede meternos en muchos problemas si la gente piensa que dijimos [estas cosas], sino que, francamente, también es muy violatorio escucharte a ti mismo hablar cuando en realidad no eres tú", escribió en un correo electrónico a ElevenLabs que fue revisado por Forbes. Le pidió a la startup que eliminara el clip de audio subido y evitara la futura clonación de su voz, pero la compañía dijo que no había determinado que el clip se hubiera hecho con su tecnología. Dijo que sólo tomaría medidas inmediatas si el clip fuera “incitación al odio o difamatorio” y afirmó que no era responsable de ninguna violación de los derechos de autor. La empresa nunca dio seguimiento ni tomó ninguna medida. “Es una mierda que no tengamos propiedad personal sobre nuestras voces. Todo lo que podemos hacer es señalar la situación”, dijo Clark a Forbes .
En respuesta a preguntas sobre la experiencia de Clark, el cofundador y director ejecutivo de ElevenLabs, Mati Staniszewski, dijo a Forbes en un correo electrónico que sus usuarios necesitan el "consentimiento explícito" de la persona cuya voz están clonando si el contenido creado podría ser "dañino o difamatorio". Meses después de la experiencia de Clark, la empresa lanzó una herramienta de “captcha de voz” que requiere que las personas graben una palabra generada aleatoriamente y esa voz debe coincidir con la voz que están intentando clonar.
La empresa, valorada en unos 100 millones de dólares y respaldada por Andreessen Horowitz y el cofundador de Google DeepMind, Mustafa Suleyman, es una de las empresas de inteligencia artificial de voz más populares del momento. Su tecnología sólo requiere entre 30 segundos y 10 minutos de audio para crear lo que suena como una réplica casi idéntica de la voz de alguien. Junto con sitios como FakeYou y Voice AI, que ofrecen una biblioteca gratuita de voces digitales, también está en el centro del impacto de la IA generativa en los actores de doblaje.
Las entrevistas con 10 actores de doblaje revelaron una industria ya precaria al borde de un cambio generalizado a medida que los empleadores comienzan a experimentar con estas herramientas de conversión de texto a voz. Un actor de doblaje con el que habló Forbes dijo que un empleador le dijo que no la contratarían para terminar de narrar una serie de audiolibros el día después de que anunció una asociación con ElevenLabs, lo que la llevó a temer que sería reemplazada por IA. Otra dijo que su empleador le dijo que querían usar la IA de ElevenLabs para acelerar las sesiones de repetición, una parte estándar de la grabación de audio por la que se les paga a los actores de doblaje. Cuando le dijo a su empleador que no daba su consentimiento para que su voz se subiera a ningún sitio de IA, el empleador estuvo de acuerdo, pero dijo que no la habían llamado para volver a tomarla.
La comunidad de actores de doblaje notó por primera vez una afluencia de voces generadas por IA después de que Apple Books lanzara la narración digital de audiolibros con un conjunto de voces de soprano y barítono en enero de 2023, dijo Tim Friedlander, presidente de NAVA. Los actores comenzaron a descubrir miles de archivos de audio de voces familiares que los fanáticos subían a varios sitios, en su mayoría, dijo. Más recientemente, el famoso actor Stephen Fry dijo que su voz fue extraída de su narración de los libros de Harry Potter y clonada usando IA. En una charla en el festival CogX, Fry dijo que la experiencia lo “conmocionó”.
En una hoja de cálculo pública, cientos de actores de doblaje han solicitado que sus voces sean eliminadas de los generadores de voz de IA Uberduck y FakeYou.ai, que han dicho que eliminarán las voces de sus sitios si el propietario de la voz se acerca. Si bien FakeYou.ai todavía ofrece miles de voces populares como las de John Cena y Kanye West que cualquiera puede usar, Uberduck eliminó de su plataforma las voces aportadas por los usuarios en julio. Uberduck y FakeYou.ai no respondieron a múltiples solicitudes de comentarios.
Uno de los actores de doblaje que ha solicitado públicamente que se elimine su voz de los generadores de voz es Jim Cummings, la voz detrás de personajes como Winnie-the-Pooh y Taz de Looney Tunes. Le dijo a Forbes que solo aceptaría que los usuarios usaran su voz como plantilla si él y su familia recibieran regalías por ello. “Mantén tus garras alejadas de mi voz”, dijo.
Al igual que los actores de cine sorprendentes, que están haciendo sonar la alarma sobre la llegada de la IA y cómo podría afectar sus trabajos, los actores de doblaje están en la primera línea del cambio tecnológico. Pero a diferencia de otros campos creativos, donde autores y artistas se están uniendo en demandas colectivas para rechazar el uso de su trabajo protegido por derechos de autor para entrenar modelos de inteligencia artificial, los actores de doblaje son singularmente vulnerables. Aunque las voces son inherentemente distinguibles, no están protegidas como propiedad intelectual. "No existe una protección legal para la voz como la que existe para la cara o las huellas dactilares", dijo Jennifer Roberts, la voz detrás de varios personajes de videojuegos. "Tenemos las manos atadas".
Sin embargo, una grabación de voz puede tener derechos de autor y, según Jeanne Hamburg, abogada del bufete de abogados Norris McLaughen, el uso de una voz con fines comerciales puede protegerse mediante "derechos de publicidad", lo que impide que se exploten las imágenes de las celebridades. . Sin embargo, eso es en teoría: la mayoría de los contratos firmados por actores de voz no impiden que las grabaciones de sus voces se utilicen para entrenar sistemas de inteligencia artificial. Durante más de una década, los contratos han establecido que los productores "poseen la grabación a perpetuidad, en todo el universo conocido, en cualquier tecnología actualmente existente o por desarrollar", dijo Cissy Jones, actriz de doblaje que forma parte del equipo fundador de National Association of Voice Actors (NAVA), un sindicato recién formado de actores de doblaje.
Esos contratos se redactaron y firmaron en gran medida antes de la llegada de los sistemas de inteligencia artificial "Los actores de doblaje no han dado su consentimiento informado para el uso futuro de una grabación de audio y no han recibido una compensación justa por ello", dijo Scott Mortman, abogado de NAVA. "Y por eso es necesario reforzar significativamente las protecciones a raíz de la IA".
Es por eso que NAVA y el sindicato de actores SAG-AFTRA están trabajando para eliminar la palabrería de los contratos que permita a los empleadores usar la voz de un actor para crear un “doble digital” o “sintetizar” su voz a través del aprendizaje automático. Las organizaciones también han desarrollado un nuevo lenguaje estándar para agregarlo a los contratos que protegerían a los actores de voz de perder los derechos de sus voces.
Al igual que Clark, numerosos actores de doblaje han experimentado que sus fanáticos manipularan sus voces utilizando herramientas de inteligencia artificial generativa para crear contenido pornográfico , racista y violento . Incluso cuando los fanáticos usan voces de IA para crear memes inofensivos u otro tipo de contenido para fanáticos, los actores de doblaje han hablado en las redes sociales, prohibiendo a las personas fabricar sus voces.
Jones, miembro de NAVA, cuya voz ha aparecido en programas de Disney y documentales de Netflix, encontró videos de TikTok en los que los fanáticos habían usado Uberduck para crear clones de su voz diciendo cosas inapropiadas. "No sólo mi voz dice algo que yo nunca diría, sino que esas cosas están ahí en el mundo", dijo Jones a Forbes . "Si los compradores potenciales escuchan nuestras voces diciendo eso, ¿cómo afectará eso a mi trabajo futuro?" Después de que ella se acercó, Uberduck eliminó su voz de la plataforma, dijo Jones.
Las voces generadas por IA también se han convertido en un nuevo medio de acoso. Abbey Veffer, cuya voz ha aparecido en juegos como Genshin Impact y The Elder Scrolls, dijo que alguien que había creado un clon de su voz la había engañado en febrero. La persona creó una cuenta de Twitter con su dirección como nombre de usuario, generó un clon de IA de la voz de Veffer y luego hizo que el clon dijera cosas racistas y violentas. El usuario anónimo envió directamente la grabación a Veffer y la fijó en la parte superior de la cuenta de Twitter. Afirmaron haber utilizado la tecnología de ElevenLabs. La experiencia, dijo Veffer a Forbes , fue "intensa" y "muy perturbadora".
Pero cuando Veffer contactó a ElevenLabs con sus preocupaciones, la compañía dijo que el clon no fue creado usando su software y era parte de una "campaña de desprestigio organizada" contra la startup, según mensajes revisados por Forbes. Tres días después de que Veffer se comunicara con Twitter, la cuenta fue suspendida y el video fue eliminado, pero su dirección residencial permaneció en el sitio durante tres meses, dijo.
Después de que ElevenLabs lanzara la versión beta de su herramienta de inteligencia artificial de texto a voz en enero, la startup anunció que estaba luchando con personas que hacían mal uso de su tecnología. Un día después, la placa base de Vice descubrió que carteles anónimos de 4Chan utilizaban la entonces herramienta de clonación gratuita de ElevenLabs para generar comentarios racistas, transfóbicos y violentos con las voces de celebridades como Joe Rogan y Emma Watson.
La capacidad de la IA para imitar fielmente las voces de las personas también ha creado oportunidades para los estafadores. La FTC ha emitido advertencias este año de que los delincuentes están utilizando clones de voz de IA para hacerse pasar por sus seres queridos como una forma de convencer a sus objetivos de que les envíen dinero. Un periodista pudo utilizar la herramienta de ElevenLabs para crear una versión de su voz generada por IA que inició sesión con éxito en su propia cuenta bancaria.
ElevenLabs no hizo comentarios sobre ninguno de estos casos específicos, pero el CEO Staniszewski dijo en un correo electrónico: "Si alguien está usando nuestra herramienta para clonar voces para las cuales no tiene permiso y que contravienen los casos de uso legítimo, prohibiremos la cuenta y evitar que se configuren nuevas cuentas con los mismos detalles”. Junto con una herramienta de “captcha de voz” para garantizar que las personas tengan ese permiso, la compañía dice que también ha desarrollado un clasificador de voz con IA que puede detectar con más del 90% de precisión si un clip de audio que contiene IA se creó utilizando sus herramientas.
En respuesta al uso indebido, los sitios de generación de voz están añadiendo medidas restrictivas para controlar sus tecnologías. Speechify, que otorga licencias para las voces de narradores famosos como Snoop Dog y Gwyneth Paltrow (con permiso total), no permite que las personas carguen contenido para crear voces personalizadas sin la participación activa de la persona cuya voz desean usar. Al igual que ElevenLabs, presenta un texto único que el usuario, o alguien que esté físicamente presente con él, debe leer en voz alta con su propia voz. "Creo que es miope tomar atajos y mi objetivo es poner a los propietarios de contenido en el asiento del conductor", dijo el fundador Cliff Weitzman, quien inició Speechify para convertir sus libros de texto en audiolibros utilizando el aprendizaje automático en 2012.
Y en Resemble AI, que promociona clientes empresariales como Netflix y el Grupo del Banco Mundial, las personas solo pueden crear una voz personalizada generada por IA después de grabar una declaración de consentimiento en la voz que desean generar. El fundador y director ejecutivo de Resemble AI, Zohaib Ahmed, dijo que implementar formas seguras de implementar la tecnología ha sido parte integral de su startup porque cree que la responsabilidad de prevenir el uso indebido debería recaer en los proveedores que fabrican las herramientas y no en el usuario final.
Sin embargo, este tipo de controles de verificación no abordan cuestiones éticas de nivel superior en torno al consentimiento. Los actores, por ejemplo, no tienen realmente control sobre cómo se utilizarán sus voces póstumamente. Los actores de doblaje se enfurecieron cuando el estudio de juegos Hi-Rez Studios agregó una cláusula que le permitiría clonar una voz usando IA después de que el propietario de la voz muriera (la cláusula fue eliminada después del revuelo). "Si un actor fallece, es mejor reemplazarlo con otro humano que crear alguna actuación artificial porque no es él y no lo trae de vuelta", dijo el actor de doblaje Clark.
La gran preocupación que se cierne sobre todo esto es si hay futuro para los actores de doblaje. Ahora que los empleadores y los fanáticos recurren a las voces sintetizadas, muchos están preocupados por encontrar su próximo concierto o conservar los que tienen. "Para nosotros es muy importante controlar cómo se utiliza nuestra voz y dónde se utiliza, y cuánto nos pagan por ese uso", dijo Friedlander de NAVA.
Fuente: Forbes