Para clonar una voz convincente bastan unos tres segundos de audio 1.
Con ese material, un sistema de inteligencia artificial puede reproducir el tono y la cadencia de cualquier persona con un 85 % de coincidencia.
En enero de 2024 un empleado de la consultora Arup transfirió 25,6 millones de dólares tras una videollamada en la que todos sus interlocutores —incluido el supuesto director financiero— eran un deepfake 2.
No sospechó nada: veía sus caras y oía sus voces. Esta ficha explica qué es exactamente un deepfake, cómo funciona, qué riesgos plantea y qué dice la ley en España, sin alarmismo y con datos.
Resumen
- Un deepfake es un contenido audiovisual sintético —vídeo, audio o imagen— creado con inteligencia artificial para falsificar el rostro, la voz o los gestos de una persona real con un realismo difícil de distinguir del original.
- Se apoya en el deep learning; sus arquitecturas clave son las GAN (redes generativas antagónicas), los autoencoders y, cada vez más, los modelos de difusión, que han eliminado las señales que antes delataban un montaje.
- Ya no es solo un problema de desinformación: las pérdidas por fraude con deepfake alcanzaron unos 1.000 millones de dólares en 2025. Europa lo regula con el AI Act y España, con la Ley de IA aprobada en mayo de 2026, que prohíbe los deepfakes sexuales y multa hasta con 35 millones de euros.
Un deepfake es un contenido audiovisual sintético —vídeo, audio o imagen— generado con inteligencia artificial para sustituir o falsificar el rostro, la voz o los gestos de una persona real, con un realismo difícil de distinguir del original 3.
El término, surgido en 2017, combina deep learning (aprendizaje profundo, la técnica que lo hace posible) y fake (falso). Es la cara más conocida de los medios sintéticos (synthetic media, contenido creado o alterado por una máquina); en español también se traduce como ultrafalso.
La idea que lo distingue de un simple montaje es el aprendizaje. Un retoque tradicional recorta y pega; un deepfake aprende cómo se mueve un rostro o cómo suena una voz y genera fotogramas o sonido nuevos que nunca existieron. Por eso resulta tan creíble: no copia, recrea.

Un deepfake funciona entrenando redes neuronales artificiales (capas de nodos que procesan información imitando, de forma muy simplificada, al cerebro) —la base del aprendizaje profundo, una rama del machine learning— con muchas imágenes o grabaciones de una persona, hasta que el sistema aprende a reproducir sus rasgos y los genera de cero 4. Tres arquitecturas concentran la mayoría de casos.
La más conocida son las GAN (redes generativas antagónicas), introducidas por Ian Goodfellow en 2014 5. Funcionan con dos redes que compiten: un generador fabrica imágenes falsas y un discriminador intenta detectarlas.
El generador mejora hasta que el discriminador ya no distingue lo falso de lo real. Los autoencoders se usan sobre todo para el intercambio de caras: comprimen un rostro en sus rasgos esenciales y lo reconstruyen sobre otro cuerpo.
La novedad reciente son los modelos de difusión —la misma familia de la IA generativa que está detrás de Stable Diffusion o Flux—, que parten de ruido y lo "limpian" paso a paso hasta formar la imagen 4.
Importan por una razón práctica: han borrado las firmas forenses que antes permitían cazar un deepfake, lo que complica la detección.
No todos los deepfakes manipulan lo mismo ni con la misma técnica. Estas son las modalidades más habituales 48:
| Tipo | Qué falsifica | Uso típico |
|---|---|---|
| Intercambio de caras (face swap) | Sustituye el rostro de una persona por otro | Vídeos virales, pornografía no consentida |
| Recreación / sincronización labial (lip-sync) | Pone palabras nuevas en boca de alguien real | Desinformación, declaraciones falsas |
| Clonación de voz (audio deepfake) | Imita la voz de una persona | Estafas telefónicas, fraude al CEO |
| Imagen sintética | Crea rostros o cuerpos de personas inexistentes | Perfiles falsos, suplantación |
| Deepfake en tiempo real | Falsifica un rostro o voz en directo | Videollamadas fraudulentas |
La modalidad que más ha crecido en impacto económico es la clonación de voz, precisamente por lo poco que necesita para funcionar: segundos de audio que cualquiera deja en un vídeo público o una nota de voz.
La tecnología no es maligna por sí misma. Tiene usos legítimos en cine y doblaje (rejuvenecer actores, traducir con sincronía labial), en educación, accesibilidad o sátira.
El problema es que la misma capacidad de recrear a una persona abre la puerta a usos dañinos, y ahí es donde están creciendo las cifras.
El fraude corporativo es el caso de uso malicioso que más rápido escala, y los ejemplos más conocidos comparten un patrón: una petición urgente de dinero respaldada por una cara o una voz de confianza.
Además del caso Arup, en julio de 2024 unos atacantes intentaron suplantar al consejero delegado de Ferrari, Benedetto Vigna, con una voz clonada en una llamada de WhatsApp 9.
Ya en 2019, una empresa energética británica perdió 220.000 euros tras una llamada de alguien que sonaba exactamente como su director general 4.
No son anécdotas aisladas: el fraude al directivo (CEO fraud) mediante deepfake se ha convertido en una de las modalidades de ataque de mayor crecimiento contra las empresas 11.
Los números acompañan la sensación:

Aquí conviene la honestidad que falta en muchos titulares.
El mito más extendido es que un deepfake siempre se detecta a simple vista; en realidad, las personas solo aciertan el 24,5 % de las veces ante un vídeo falso de alta calidad, y el 70 % reconoce no confiar en su capacidad de distinguir una voz clonada de una real 4.
Las señales clásicas —parpadeo antinatural, bordes borrosos, iluminación incoherente— han desaparecido con los modelos de difusión.
De esa verosimilitud nacen los principales riesgos:
Reconocer estos riesgos no es tecnofobia: es la condición para responder con criterio en lugar de con pánico.
Detectar un deepfake combina hoy tres vías, porque ninguna basta por sí sola.
La primera, la inspección visual, es cada vez menos fiable: aún pueden ayudar las incoherencias en manos, dientes, reflejos de los ojos o la sincronía entre voz y labios, pero no hay que confiar en ellas con material reciente 4.
La segunda son los detectores automáticos, modelos de IA entrenados para reconocer rastros de generación.
Funcionan, pero van por detrás de los generadores en una carrera constante.
La vía más prometedora es la tercera: la procedencia verificable. Aquí destacan dos estándares:
| Método | Qué hace | Límite |
|---|---|---|
| Inspección visual | Buscar incoherencias en cara, manos, audio | Casi inútil con difusión moderna |
| Detectores de IA | Reconocer rastros de generación | Siempre por detrás del generador |
| Marca de agua (SynthID) | Insertar una señal invisible al crear el contenido | Solo si la herramienta la aplica |
| Procedencia (C2PA) | Certificar origen y ediciones del archivo | La ausencia de credencial no prueba nada |
La clave práctica: la ausencia de marca de agua o de credenciales no demuestra que un contenido sea auténtico 4.
La procedencia certifica lo verificado, no descarta lo no verificado.
Ante un mensaje urgente con dinero de por medio, el mejor detector sigue siendo verificar por un segundo canal.
En España, quien sufra una suplantación o tenga dudas puede recurrir al INCIBE (Instituto Nacional de Ciberseguridad) y a su línea de ayuda gratuita 017 19.
En Europa, los deepfakes están regulados por el Reglamento (UE) 2024/1689, conocido como AI Act, que impone obligaciones de transparencia: el contenido generado o manipulado artificialmente debe señalarse como tal 20.
España ha dado un paso más. El Consejo de Ministros aprobó el 26 de mayo de 2026 el proyecto de Ley para el buen uso y la gobernanza de la inteligencia artificial, que adapta el reglamento europeo y añade un régimen sancionador propio 4.
La norma española prohíbe expresamente los deepfakes sexuales sin consentimiento —con disposiciones específicas en el Código Penal— y obliga a advertir cuando un contenido ha sido manipulado con IA 423.
Las sanciones van de los 6.000 euros a los 35 millones para las infracciones más graves, o hasta el 7 % de la facturación mundial de la empresa infractora si esa cifra es mayor 4.
Para particulares y empresas, el mensaje es claro: crear o difundir un deepfake dañino ha dejado de ser un vacío legal.
Un deepfake no es magia ni un montaje cualquiera: es un sistema que aprende a recrear a una persona y produce material nuevo casi indistinguible del real.
Esa misma potencia explica sus usos legítimos y sus fraudes millonarios. La defensa no es la paranoia, sino el criterio: saber qué es posible hoy, desconfiar de la urgencia y verificar la procedencia.
La próxima vez que un vídeo o una llamada te pida algo importante, la pregunta útil no es si parece real, sino cómo puedes comprobar que lo es. ¿Sabrías hacerlo?
Este artículo tiene carácter informativo y divulgativo y no constituye asesoramiento legal. Para casos concretos, consulta a un profesional o a las autoridades competentes.
Es un vídeo, audio o imagen falso creado con inteligencia artificial que imita a una persona real. La IA aprende cómo es su cara o su voz a partir de material existente y genera contenido nuevo tan realista que cuesta distinguirlo del original. El nombre une deep learning y fake.
Combinando inspección visual, detectores automáticos y, sobre todo, la procedencia del archivo. Las señales a simple vista (manos, dientes, sincronía labial) ya no son fiables con la tecnología actual. Lo más sólido es verificar marcas de agua como SynthID o credenciales C2PA, y ante peticiones de dinero, confirmar por un segundo canal.
Depende del uso: los deepfakes sexuales sin consentimiento están prohibidos y el contenido manipulado debe etiquetarse. La Ley de IA aprobada en mayo de 2026 sanciona los usos dañinos con multas de hasta 35 millones de euros e incluye disposiciones penales específicas. Usos legítimos como la sátira o el doblaje no son delito, pero la difusión engañosa sí puede serlo.
Los principales son el intercambio de caras, la clonación de voz, la sincronización labial, la imagen sintética y el deepfake en tiempo real. Cada uno falsifica un elemento distinto —rostro, voz, palabras o presencia en directo— y se asocia a usos diferentes, desde vídeos virales hasta el fraude en videollamadas.
Verifica siempre por un segundo canal cualquier petición urgente de dinero o datos. Como bastan segundos de audio para clonar una voz, no te fíes solo de reconocerla. Acuerda con tu familia o tu empresa una palabra clave de seguridad y desconfía de la urgencia, que es la herramienta favorita del estafador.