Audio no fue manipulado con inteligencia artificial: según herramientas para detectar AI

Tegucigalpa, Honduras | Reporteros de Investigación. El fiscal general de la república, Johel Zelaya, instruyó esta mañana que se inicie una investigación criminal. La investigación está relacionada con supuestas irregularidades para desestabilizar el proceso de elecciones generales en Honduras. El audio según herramientas de inteligencia artificial, no presenta voz sintética o manipulación a través de la AI, sin embargo, un dilema que deja por fuera o un delito que deja por fuera el fiscal general, sería entonces el evidente espionaje a las comunicaciones de la oposición hondureña.

En la década de los 70, el presidente Richard Nixon en los Estados Unidos renunció a su cargo, luego de un escándalo de espionaje investigado por la prensa, pero en Honduras, el fiscal ha pedido investigar el contenido del video del audio, sin explicar cómo se tuvo acceso a esta comunicación.

En una conferencia de prensa, el fiscal general reveló supuestos audios originales de la consejal del CNE, Cossette López, en conversación con otras personas una de ella sería el diputado de oposición, Tomás Zambrano. El congresista dijo en su red X que el video fue manipulado con AI.

El video fue colocado en deepware, una herramienta para detectar ai en la generación de contenidos.

Luego de eso, el resultado es que no se encontró Deepfake.

La herramienta identificó que el video es 55% sospechoso de edición. El video con la conferencia del fiscal fue bajado de Facebook y cortado con una aplicación para su análisis porque la página solo admitía 10 minutos. En el análisis se dejó solo un fragmento de la conversación. La transmisión del video, en el estatal Canal 8, duró 40 minutos con las palabras del fiscal.

Después de ese análisis, un pequeño fragmento de video fue convertido a audio y subido a Youcute y luego a Chat GPT.

Una vez que el video estaba alojado en Chat GPT se solicitó:

Quiero que me ayudes para 1) Analizar el audio de este video como si fueras especialista en informática, buscando patrones de voz sintética (AI).

2 Detectar anomalías acústicas o visuales (deepfake, sincronización falsa, cambios de pitch, etc.). 

3) Si la voz es humana o generada por IA.

4) Si hay edición o manipulación de voz.

5) Si el contenido fue creado con inteligencia artificial (deepfake, clonación, etc.).

La respuesta de Chat GPT: Ya tengo el video y puedo hacerte un análisis técnico-forense como lo pediría una sala de redacción para verificar manipulación o uso de inteligencia artificial.

A continuación te presento el informe detallado punto por punto:

🧩 1. Análisis general del material

Formato: video QuickTime (.mov) de 20,6 MB. Duración: aproximadamente varios minutos, peso moderado → compresión intermedia (posible exportación desde dispositivo móvil). Resultado externo (Deepware): “No se detectó deepfake”, lo que indica ausencia de manipulación facial visible según su red neuronal.

(Un deepfake es un video, imagen o audio alterado o completamente creado con inteligencia artificial para hacer parecer que una persona dice o hace algo que nunca hizo).

🎧 2. Análisis del audio (voz humana vs voz IA)

Indicadores técnicos observables

La voz tiene respiraciones naturales, ligeras variaciones de intensidad y un ritmo de habla no perfectamente uniforme. Se observan fluctuaciones microtonales del tono (pitch) y jitter natural; los modelos de voz sintética tienden a tener curvas de pitch planas y limpieza excesiva, lo cual aquí no ocurre. Las sibilantes y consonantes explosivas (“s”, “t”, “p”) presentan transitorios orgánicos, sin el recorte o granulado que suelen dejar los sintetizadores de voz. No se perciben artefactos de vocoder ni “metalización” característica de las voces generadas por IA.

🔹 Conclusión de este punto:

La voz es humana, no clonada ni sintetizada por IA. No hay patrones acústicos compatibles con TTS ni voice-cloning.

(Text-to-Speech” literalmente quiere decir “de texto a voz”. Es una tecnología que convierte texto escrito en voz hablada)

🔎 3. Detección de anomalías acústicas o manipulación

No se detectan saltos bruscos de ambiente ni transiciones digitales entre frases. El ruido de fondo es coherente durante todo el clip; no hay variaciones abruptas de reverberación ni compresión. El nivel de loudness (LUFS) parece constante, lo cual sugiere grabación continua o una edición muy mínima de volumen. No hay desfase de sincronización entre labios y audio (la articulación coincide con la voz).

🔹 Conclusión:

No se evidencian cortes, inserciones ni manipulación perceptible del audio. No hay signos de montaje o sustitución de voz.

🎥 4. Evaluación visual (deepfake / sincronización / IA generativa)

El rostro y la expresión se comportan con parpadeo natural, microgestos y reflejos oculares coherentes con la luz ambiental. No se observan bordes de máscara, halo luminoso ni parches de suavizado excesivo. La sincronización labial es precisa; los fonemas bilabiales (p/b/m) cierran correctamente. No hay “parches respirantes” ni deformaciones de piel entre frames, típicas de video generado o manipulado.

🔹 Conclusión visual:

La imagen es auténtica; no hay signos de deepfake, clonación facial ni renderizado sintético. El video fue capturado con cámara real.

🧠 5. Evaluación integral

Área

Resultado técnico

Voz humana o IA

Voz humana (no IA)

Manipulación / edición

No detectada

Deepfake visual

No detectado (confirmado también por Deepware)

Sincronización / pitch

Natural y coherente

Creación por IA (total o parcial)

No hay evidencia

🧾 6. Dictamen forense periodístico

Tras el análisis acústico y visual, el video no presenta indicadores de generación por inteligencia artificial ni de manipulación digital significativa.

La voz corresponde a una emisión humana auténtica y el contenido audiovisual parece haber sido grabado directamente por cámara, sin clonación de rostro o voz.

Los resultados de Deepware respaldan esta conclusión, al no detectarse señales de deepfake en los patrones visuales.

https://youtu.be/K3WnAdihOyY?si=s3qddUps4HNASoMe

Este este es el fragmento de audio subido a chat Gpt

Fragmento corto subido a Chat GPT para análisis

Actualización

De nuevo se hizo otro análisis el 30 de octubre con otra herramienta y este fue el resultado:

El video se convirtió a audio, se recortó . La página web analiza 30 segundos.

Esto dijo la AI chat GPT al consultarle sobre este audio:

Resultado: “Likely Human – 99% REAL”

Esto indica que:

La voz analizada tiene un 99% de probabilidad de ser humana, según el modelo de detección. No se detectaron patrones comunes en voces sintéticas o clonadas por IA (como las producidas por herramientas tipo ElevenLabs, OpenAI TTS, etc.). El sistema encontró características naturales del habla humana, tales como: Fluctuaciones microtonales reales (variaciones sutiles en el tono de voz). Ritmos respiratorios naturales. Jitter y shimmer (pequeñas irregularidades en la frecuencia y amplitud). Entonaciones y pausas no perfectamente simétricas (algo que los modelos de IA suelen suavizar).


Descubre más desde Reporteros de Investigación

Suscríbete y recibe las últimas entradas en tu correo electrónico.

Tendencias

El concepto de hecho social en Emile Durkheim

Por: Rossel Montes Emile Durkheim (1858-1917) sociólogo, filósofo, antropólogo e...

Las heroínas invisibles de la Historia de Honduras

1/2Por José Manuel SerénEn las escuelas no lo enseñan,...

Las consecuencias políticas y sociales del Golpe de Estado de 2009

Por: Rossel Montes Atrás habían quedado los fatídicos golpes de...

Estos son los funcionarios que más agredieron a la prensa

Tegucigalpa, Honduras | Reporteros de Investigación. Un foro virtual...

Marx y la religión

“La miseria religiosa, es, por una parte, la expresión de la miseria real y, por otra, la protesta contra ella. La religión es el suspiro de la criatura oprimida, el corazón de un mundo sin corazón, el espíritu de una situación carente de espíritu. Es el opio del pueblo”.

Al general le gritan ¡asesino!

Hace diez años escribí este artículo para Conexihon, parece que ya lo eliminaron. Lo recuperé de H​onduprensa. Las respuestas del general Romeo Vásquez Velásquez después de la condena de la CorteIDH contra Honduras que calificó el Golpe de Estado de 2009 como un hecho ilícito internacional.

La conexión entre el Pollo Carvajal, los tres partidos de Honduras, la CIA y la DEA

Como resultado, los políticos hondureños son mencionados en una conspiración narcoterrorista por traficar cocaína con la guerrilla de las FARC de Colombia. En esas décadas, los narcos desarrollaron suficiente influencia para reunirse con los candidatos a la presidencia.

Asesinatos sistemáticos con tolerancia estatal, en el Bajo Aguán

Durante este gobierno suman 14 asesinatos en el Bajo Aguán y el desplazamiento forzado de las empresas campesinas.

Honduras: El país con más defensores de la tierra asesinados en el mundo

Este dato alarmante es parte de los hallazgos que juristas internacionales.
spot_img

Artículos recientes

Popular Categories

spot_imgspot_img
Artículo anterior
Artículo siguiente

Descubre más desde Reporteros de Investigación

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo

Descubre más desde Reporteros de Investigación

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo