Voice Engine de OpenAI promete la capacidad de clonar voces con solo 15 segundos de audio – VP

Voice Engine de OpenAI promete la capacidad de clonar voces con solo 15 segundos de audio

Empresas como Age of Learning, HeyGen y Dimagi tienen acceso a esta herramienta innovadora. Anteriormente, la creación de voces sintéticas y la clonación de voces estaban reservadas para grandes estudios, pero ahora estas tecnologías están volviéndose más accesibles y ampliamente utilizadas.

Recientemente, OpenAI anunció el lanzamiento de Voice Engine, una nueva herramienta de IA diseñada para crear voces personalizadas. Aunque los resultados aún están en una etapa preliminar, la versión preliminar del modelo impresionó por su calidad. Con solo 15 segundos de audio y un texto de entrada sencillo, Voice Engine es capaz de generar voces emotivas y realistas que se asemejan mucho a la voz original.

Esta capacidad tiene implicaciones significativas, permitiendo a cualquier persona utilizar la voz de individuos famosos para diferentes fines, como crear contenido humorístico, falsificar grabaciones o incluso cometer fraudes. Considerando el potencial uso indebido de esta tecnología, la herramienta está siendo probada inicialmente por un grupo restringido de usuarios para garantizar su seguridad e integridad.

Aunque el sintetizador de voz asociado a Voice Engine se utilizó anteriormente para alimentar las funciones de audio de ChatGPT, ahora se presenta como una herramienta independiente, ofreciendo nuevas posibilidades para la creación y personalización de voces.

Entre las empresas con acceso a Voice Engine se encuentran Age of Learning, especializada en tecnología educativa, la plataforma de narrativa visual HeyGen, el fabricante de software de salud Dimagi, el creador de la aplicación de comunicación de IA Livox y el sistema de salud Lifespan. Estas empresas, que ya trabajan con voces sintéticas, ahora tienen la oportunidad de explorar nuevas posibilidades con esta avanzada tecnología.

La publicación en el blog de OpenAI presenta varias muestras de Voice Engine en acción. En una de ellas, a partir de una lectura realizada por una persona, se generaron versiones del mismo texto en diferentes idiomas, como español, mandarín, alemán, francés y japonés. Sorprendentemente, en cada muestra generada por la IA, se preservaron el tono y el acento del locutor original, demostrando la precisión del sistema.

Esta demostración revela el potencial diverso del generador de voz. En el ámbito de la accesibilidad, por ejemplo, una persona que perdió la capacidad de hablar en un accidente podría tener su voz clonada y usada en dispositivos, permitiendo una comunicación más natural. Aunque este uso ya existía, generalmente se asociaba a voces genéricas. En el campo del entretenimiento y la producción de contenido, la capacidad de tener videos en varios idiomas puede transformar a influenciadores locales en figuras globales con poco esfuerzo.

Sin embargo, el potencial de esta tecnología también plantea preocupaciones significativas, especialmente en relación con la desinformación, los crímenes, fraudes y estafas. OpenAI es consciente de estas preocupaciones y espera iniciar un diálogo sobre el uso responsable de voces sintéticas con esta divulgación y sus usuarios iniciales. Por esta razón, el lanzamiento público de Voice Engine solo ocurrirá después de implementar medidas de seguridad que impidan la falsificación de audio. Imaginar el impacto de esta herramienta siendo liberada en un año electoral en varios países evidencia los potenciales desafíos que deben ser considerados y enfrentados.

Además, es crucial contar con la colaboración de diversos sectores, incluidos el gobierno, los medios, el entretenimiento, la educación, la sociedad civil y otros, para probar la herramienta y ofrecer comentarios que puedan contribuir a la construcción de una plataforma más segura, aunque exista cierta desconfianza sobre esta posibilidad.

Como se destaca en el texto de la empresa, ya se han implementado varias medidas de seguridad. Esto incluye términos de uso que prohíben el uso de la voz de cualquier persona sin su consentimiento o derecho legal. Además, se requiere que se divulgue que las voces fueron generadas por Voice Engine, y cada archivo contiene una marca de agua para rastrear su origen. La herramienta también se monitorea para verificar cómo está siendo utilizada.

OpenAI reconoce la necesidad de grandes cambios a medida que el audio generado por IA se vuelve más ampliamente disponible. Por ejemplo, se considera la eliminación progresiva de la autenticación basada en voz para cuentas bancarias. La empresa destaca que cualquier implementación a gran escala de tecnología de voz sintética debe ir acompañada de experiencias de autenticación de voz, que garanticen que el locutor original esté agregando conscientemente su voz al servicio. Además, es esencial contar con una lista de voces prohibidas que detecte e impida la creación de voces muy similares a las de figuras prominentes.

Comunicado de OpenAI

Las consideraciones mencionadas destacan la incertidumbre en torno a la disponibilidad de la herramienta para el público en general y resaltan la importancia de la simultaneidad entre el desarrollo técnico y el marco ético-legal para garantizar la integridad de cualquier contenido. Queda por determinar cómo se entrenó el modelo.

La generación de audio a partir de textos es un área de la IA generativa que sigue evolucionando. Otras empresas que utilizan esta técnica incluyen Podcastle y ElevenLabs. Una herramienta que atrajo mucha atención a principios del año pasado fue VALL-E, que, con solo 3 segundos de audio, logra capturar todas las sutilezas de la voz, preservando el tono emocional y el entorno acústico del locutor y simulando cualquier otra conversación, incluso si cambian ligeramente las condiciones y el tono emocional.

Todo esto refuerza la idea de que, en un futuro próximo, las personas deberán desarrollar la habilidad de cuestionar e investigar si algo es “real” entre comillas o no. Es probable que pronto los niños tengan materias que enseñen técnicas de verificación, incluso mediante códigos, para evitar ser engañados por metadatos manipulados.

Conclusión

Si anteriormente Spotify necesitaba asociarse con empresas de IA para producir música de cantantes fallecidos, como ocurrió en 2016 cuando crearon una nueva canción del rapero brasileño Sabotage, fallecido en 2003, ahora cualquier persona puede crear música de cantantes famosos, vivos o no. Esto se evidenció con la canción “Heart On My Sleeve”, que simula las voces de Drake y The Weeknd, y que causó gran impacto el año pasado.

Es innegable la revolución que la Inteligencia Artificial Generativa (GenAI) puede traer, especialmente para la industria audiovisual y, más específicamente, para la industria musical. La influencia en la música será significativa, no solo con computadoras escribiendo canciones, sino también estimulando nuevas formas de síntesis de audio, masterización de pistas, creación de instrumentos antes imposibles y replicación de voz.

Sin embargo, al abstraer la parte creativa, es evidente que los riesgos involucrados son considerables. Por ello, es crucial exigir que los desarrolladores hagan pública la base de datos con la que se entrenó la solución, garantizando transparencia en el proceso.

Simultáneamente, necesitamos mecanismos éticos y legales para protegernos, ya que incluso la grabación de una reunión puede utilizarse para fines indebidos. Mientras GenAI puede abrir nuevas formas de creación y posibilidades de alcance antes inimaginables en la industria creativa, en nuestro día a día enfrentamos más riesgos que ventajas. El desafío radica en comprender hacia dónde nos llevará esta evolución.

Picture of Emily Grace
Emily Grace

Redactor en VP desde 2024.

ADVERTENCIA:

Bajo ninguna circunstancia estarás obligado a pagar por acceder a cualquier producto, incluyendo tarjetas de crédito, préstamos u otras ofertas. Si esto sucede, te pedimos que nos contactes de inmediato. Siempre asegúrate de leer los términos y condiciones del proveedor de servicios con el que estás en contacto. Generamos ingresos a través de anuncios y recomendaciones de algunos, pero no todos, los productos presentados en este sitio web. Todo lo que publicamos aquí se basa en investigaciones cuantitativas y cualitativas, y nuestro equipo se esfuerza por ser lo más objetivo posible al comparar opciones competitivas.

DIFUSIÓN DEL ANUNCIANTE:

Somos un sitio editorial independiente, objetivo y financiado por anuncios. Para apoyar nuestra capacidad de ofrecer contenido gratuito a nuestros usuarios, las recomendaciones que aparecen en nuestro sitio pueden proceder de empresas de las que recibimos una compensación como afiliados. Esta compensación puede influir en la forma, lugar y orden en que las ofertas aparecen en nuestro sitio. Otros factores, como nuestros propios algoritmos y datos de primera mano, también pueden influir en la forma y el lugar en que se colocan los productos/ofertas. No listamos en nuestro sitio todas las ofertas financieras o de crédito que actualmente están disponibles en el mercado.

NOTA EDITORIAL:

Las opiniones expresadas aquí son únicamente del autor y no representan a ningún banco, emisor de tarjetas de crédito, hotel, aerolínea ni a ningún otro ente. Este contenido no ha sido revisado, aprobado ni respaldado por ninguna de las entidades mencionadas en el comunicado. Sin embargo, la compensación que recibimos de nuestros socios afiliados no influye en las recomendaciones ni en los consejos dados por nuestro equipo editorial en nuestros artículos, ni afecta de ninguna manera el contenido de este sitio web. Aunque trabajamos arduamente para proporcionar información precisa y actualizada que creemos es relevante para nuestros usuarios, no podemos garantizar que toda la información proporcionada sea completa ni hacer ninguna declaración o garantía sobre su exactitud o aplicabilidad.