Voice Engine de OpenAI promete la capacidad de clonar voces con solo 15 segundos de audio

Empresas como Age of Learning, HeyGen y Dimagi tienen acceso a esta herramienta innovadora. Anteriormente, la creación de voces sintéticas y la clonación de voces estaban reservadas para grandes estudios, pero ahora estas tecnologías están volviéndose más accesibles y ampliamente utilizadas.

Recientemente, OpenAI anunció el lanzamiento de Voice Engine, una nueva herramienta de IA diseñada para crear voces personalizadas. Aunque los resultados aún están en una etapa preliminar, la versión preliminar del modelo impresionó por su calidad. Con solo 15 segundos de audio y un texto de entrada sencillo, Voice Engine es capaz de generar voces emotivas y realistas que se asemejan mucho a la voz original.

Esta capacidad tiene implicaciones significativas, permitiendo a cualquier persona utilizar la voz de individuos famosos para diferentes fines, como crear contenido humorístico, falsificar grabaciones o incluso cometer fraudes. Considerando el potencial uso indebido de esta tecnología, la herramienta está siendo probada inicialmente por un grupo restringido de usuarios para garantizar su seguridad e integridad.

Aunque el sintetizador de voz asociado a Voice Engine se utilizó anteriormente para alimentar las funciones de audio de ChatGPT, ahora se presenta como una herramienta independiente, ofreciendo nuevas posibilidades para la creación y personalización de voces.

Entre las empresas con acceso a Voice Engine se encuentran Age of Learning, especializada en tecnología educativa, la plataforma de narrativa visual HeyGen, el fabricante de software de salud Dimagi, el creador de la aplicación de comunicación de IA Livox y el sistema de salud Lifespan. Estas empresas, que ya trabajan con voces sintéticas, ahora tienen la oportunidad de explorar nuevas posibilidades con esta avanzada tecnología.

La publicación en el blog de OpenAI presenta varias muestras de Voice Engine en acción. En una de ellas, a partir de una lectura realizada por una persona, se generaron versiones del mismo texto en diferentes idiomas, como español, mandarín, alemán, francés y japonés. Sorprendentemente, en cada muestra generada por la IA, se preservaron el tono y el acento del locutor original, demostrando la precisión del sistema.

Esta demostración revela el potencial diverso del generador de voz. En el ámbito de la accesibilidad, por ejemplo, una persona que perdió la capacidad de hablar en un accidente podría tener su voz clonada y usada en dispositivos, permitiendo una comunicación más natural. Aunque este uso ya existía, generalmente se asociaba a voces genéricas. En el campo del entretenimiento y la producción de contenido, la capacidad de tener videos en varios idiomas puede transformar a influenciadores locales en figuras globales con poco esfuerzo.

Sin embargo, el potencial de esta tecnología también plantea preocupaciones significativas, especialmente en relación con la desinformación, los crímenes, fraudes y estafas. OpenAI es consciente de estas preocupaciones y espera iniciar un diálogo sobre el uso responsable de voces sintéticas con esta divulgación y sus usuarios iniciales. Por esta razón, el lanzamiento público de Voice Engine solo ocurrirá después de implementar medidas de seguridad que impidan la falsificación de audio. Imaginar el impacto de esta herramienta siendo liberada en un año electoral en varios países evidencia los potenciales desafíos que deben ser considerados y enfrentados.

Además, es crucial contar con la colaboración de diversos sectores, incluidos el gobierno, los medios, el entretenimiento, la educación, la sociedad civil y otros, para probar la herramienta y ofrecer comentarios que puedan contribuir a la construcción de una plataforma más segura, aunque exista cierta desconfianza sobre esta posibilidad.

Como se destaca en el texto de la empresa, ya se han implementado varias medidas de seguridad. Esto incluye términos de uso que prohíben el uso de la voz de cualquier persona sin su consentimiento o derecho legal. Además, se requiere que se divulgue que las voces fueron generadas por Voice Engine, y cada archivo contiene una marca de agua para rastrear su origen. La herramienta también se monitorea para verificar cómo está siendo utilizada.

OpenAI reconoce la necesidad de grandes cambios a medida que el audio generado por IA se vuelve más ampliamente disponible. Por ejemplo, se considera la eliminación progresiva de la autenticación basada en voz para cuentas bancarias. La empresa destaca que cualquier implementación a gran escala de tecnología de voz sintética debe ir acompañada de experiencias de autenticación de voz, que garanticen que el locutor original esté agregando conscientemente su voz al servicio. Además, es esencial contar con una lista de voces prohibidas que detecte e impida la creación de voces muy similares a las de figuras prominentes.

Comunicado de OpenAI

Las consideraciones mencionadas destacan la incertidumbre en torno a la disponibilidad de la herramienta para el público en general y resaltan la importancia de la simultaneidad entre el desarrollo técnico y el marco ético-legal para garantizar la integridad de cualquier contenido. Queda por determinar cómo se entrenó el modelo.

La generación de audio a partir de textos es un área de la IA generativa que sigue evolucionando. Otras empresas que utilizan esta técnica incluyen Podcastle y ElevenLabs. Una herramienta que atrajo mucha atención a principios del año pasado fue VALL-E, que, con solo 3 segundos de audio, logra capturar todas las sutilezas de la voz, preservando el tono emocional y el entorno acústico del locutor y simulando cualquier otra conversación, incluso si cambian ligeramente las condiciones y el tono emocional.

Todo esto refuerza la idea de que, en un futuro próximo, las personas deberán desarrollar la habilidad de cuestionar e investigar si algo es “real” entre comillas o no. Es probable que pronto los niños tengan materias que enseñen técnicas de verificación, incluso mediante códigos, para evitar ser engañados por metadatos manipulados.

Conclusión

Si anteriormente Spotify necesitaba asociarse con empresas de IA para producir música de cantantes fallecidos, como ocurrió en 2016 cuando crearon una nueva canción del rapero brasileño Sabotage, fallecido en 2003, ahora cualquier persona puede crear música de cantantes famosos, vivos o no. Esto se evidenció con la canción “Heart On My Sleeve”, que simula las voces de Drake y The Weeknd, y que causó gran impacto el año pasado.

Es innegable la revolución que la Inteligencia Artificial Generativa (GenAI) puede traer, especialmente para la industria audiovisual y, más específicamente, para la industria musical. La influencia en la música será significativa, no solo con computadoras escribiendo canciones, sino también estimulando nuevas formas de síntesis de audio, masterización de pistas, creación de instrumentos antes imposibles y replicación de voz.

Sin embargo, al abstraer la parte creativa, es evidente que los riesgos involucrados son considerables. Por ello, es crucial exigir que los desarrolladores hagan pública la base de datos con la que se entrenó la solución, garantizando transparencia en el proceso.

Simultáneamente, necesitamos mecanismos éticos y legales para protegernos, ya que incluso la grabación de una reunión puede utilizarse para fines indebidos. Mientras GenAI puede abrir nuevas formas de creación y posibilidades de alcance antes inimaginables en la industria creativa, en nuestro día a día enfrentamos más riesgos que ventajas. El desafío radica en comprender hacia dónde nos llevará esta evolución.

Voice Engine de OpenAI promete la capacidad de clonar voces con solo 15 segundos de audio

ADVERTENCIA:

DIFUSIÓN DEL ANUNCIANTE:

NOTA EDITORIAL: