¿Son peligrosos los generadores de voz por IA?



7 min



29.7.23

La inteligencia artificial (IA) es una tecnología poderosa con el potencial de revolucionar nuestras vidas. Cualquiera que tenga una conexión a internet tiene acceso a herramientas poderosas.

Entre estas herramientas, hay una categoría que destaca. Se trata de los generadores de voz de IA, programas sofisticados capaces de imitar el habla humana. Funcionan tan bien que a veces puede ser difícil distinguirlos. Pero, ¿cómo puede ser esto peligroso?

¿Cómo funcionan los generadores de voz de IA?

La síntesis de voz, o la producción artificial del habla humana, ha existido durante muchos años. Y como cualquier tecnología, ha evolucionado significativamente en los últimos 5 años.

Los usuarios de Windows 2000 y XP quizás recuerden a Microsoft Sam, la voz masculina utilizada por defecto para la síntesis de voz en estos sistemas operativos. Microsoft Sam cumplía su propósito, pero los sonidos que generaba eran artificiales, rígidos y robóticos. Las herramientas de hoy son mucho más sofisticadas, en parte gracias al aprendizaje profundo.

Las redes neuronales artificiales están en la base del aprendizaje profundo. Estas redes neuronales permiten a la IA procesar datos de una manera bastante similar a cómo las neuronas del cerebro humano interpretan la información. En otras palabras, la IA imita el comportamiento humano.

Así es como funcionan los actuales generadores de voz de IA. Imitan mejor el habla humana cuando se exponen a un gran número de muestras vocales. Las herramientas modernas de síntesis de voz pueden prácticamente reproducir instantáneamente los sonidos que se les proporcionan.

¿Por qué pueden ser peligrosos los generadores de voz de IA?

No es sorprendente que esta poderosa tecnología haya atraído a elementos indeseables. Y no solo a los cibercriminales, sino también a los trolls, estafadores, especialistas en marketing y agentes de desinformación.

Trolls de extrema derecha en el foro 4chan comenzaron a explotar una versión beta del programa de síntesis de voz de ElevenLabs tan pronto como estuvo disponible en enero de 2023. Imitaron las voces de personalidades como David Attenborough y Emma Watson con la IA avanzada, dando la impresión de que las celebridades se lanzaban a diatribas odiosas y viciosas.

ElevenLabs reconoció que los usuarios estaban abusando de sus herramientas, en particular la clonación de voz, como informó Vice en su momento. Cualquiera puede "clonar" la voz de otra persona con esta herramienta; basta con subir una grabación de un minuto y dejar que la IA se encargue del resto. La calidad del resultado debería aumentar con la duración de la grabación.

Un video de TikTok muy popular llamó la atención del New York Times en marzo de 2023. Una bebida con cafeína "que estimula la libido" fue mencionada por el famoso podcaster Joe Rogan y el Dr. Andrew Huberman, quien frecuentemente es invitado al show The Joe Rogan Experience. El video daba la impresión de que Huberman y Rogan estaban promocionando sin ambigüedades la mercancía. Sus voces eran reproducidas artificialmente en la realidad.

Durante el mismo periodo, el gobierno rescató al Silicon Valley Bank, con sede en Santa Clara, California, después de su quiebra debido a una mala gestión de riesgos y otros factores. Esta es la mayor quiebra bancaria en los Estados Unidos desde la crisis financiera de 2008 y tuvo un profundo impacto en los mercados de todo el mundo.

Fue una cinta de audio falsa del presidente estadounidense Joe Biden la que causó el pánico. Según el video, se escucha a Joe Biden pidiendo a sus colaboradores "usar toda la fuerza de los medios para calmar al público" y prediciendo la inminencia de un "colapso". Aunque PolitiFact y otros verificadores de hechos se apresuraron a desmentir el video, millones de personas probablemente ya lo habían escuchado en ese momento.

Los cibercriminales han comenzado a hacerse pasar por personas comunes utilizando generadores de voz basados en IA, al igual que pueden ser utilizados para imitar a las superestrellas. Cada año, miles de personas son víctimas de intentos de phishing o vishing vocal. En 2023, una llamada telefónica del "nieto" de una pareja de ancianos, que afirmaba estar en prisión y pedía dinero, fue noticia en los periódicos nacionales.

Tú o tus seres queridos podrían estar en peligro si alguna vez has publicado un video en YouTube (o has aparecido en uno), si has participado en una llamada grupal con extraños, o si has publicado tu voz en línea de cualquier otra manera. ¿Qué impediría a un estafador copiar tu voz, cargarla en un generador de inteligencia artificial y llamar a tu familia?

Los generadores de voz de IA están haciendo ruido

No es necesario ser un profesional de la ciberseguridad para entender cuán peligrosa puede ser la inteligencia artificial cuando se usa incorrectamente. Aunque esto puede decirse de todas las tecnologías, la IA representa una amenaza particular debido a varios factores.

En primer lugar, está en sus primeras etapas, por lo que realmente no sabemos qué esperar. Utilizando técnicas de IA avanzadas, los hackers pueden ampliar y automatizar sus actividades de manera sin precedentes, aprovechando la relativa ignorancia del público en general sobre este tema. Los actores de amenazas ahora pueden enviar correos electrónicos de phishing, crear sitios web fraudulentos, realizar gráficos realistas, producir un número ilimitado de horas de contenido falso de audio y video, y crear código malicioso con IA generativa. Para rematar, requiere poco conocimiento y experiencia.

Es importante señalar que este fenómeno es recíproco: en las próximas décadas, es probable que la IA se utilice para proteger los sistemas. Dado que las capacidades defensivas y ofensivas de estas tecnologías son igualmente poderosas por naturaleza, no sería descabellado deducir que lo que nos espera es una especie de carrera armamentística de IA entre los cibercriminales y el sector de la ciberseguridad.

El uso generalizado de la IA generativa requiere una reevaluación fundamental de los procedimientos de seguridad para el público en general. Aunque la IA puede ser interesante y útil, también puede, al menos, confundir las líneas entre lo que es auténtico y lo que no lo es y, en el peor de los casos, agravar los problemas de seguridad actuales y abrir nuevos espacios de acción para los actores de amenazas.

Los generadores de voz ilustran el potencial peligroso de la IA

El debate sobre la regulación de la IA se aceleró tan pronto como se lanzó ChatGPT al mercado. Es poco probable que se realicen intentos para limitar esta tecnología.

Lo único que podemos hacer ahora es adaptarnos al hecho de que el genio ya no está contenido. Sólo podemos esperar que el sector de la ciberseguridad se adapte de manera adecuada.

Con el impresionante progreso de los chatbots de IA, algunas personas ya están esperando la fecha de lanzamiento de GPT-5.