Audio no fue manipulado con inteligencia artificial: según herramientas para detectar AI

Tegucigalpa, Honduras | Reporteros de Investigación. El fiscal general de la república, Johel Zelaya, instruyó esta mañana que se inicie una investigación criminal. La investigación está relacionada con supuestas irregularidades para desestabilizar el proceso de elecciones generales en Honduras. El audio según herramientas de inteligencia artificial, no presenta voz sintética o manipulación a través de la AI, sin embargo, un dilema que deja por fuera o un delito que deja por fuera el fiscal general, sería entonces el evidente espionaje a las comunicaciones de la oposición hondureña.

En la década de los 70, el presidente Richard Nixon en los Estados Unidos renunció a su cargo, luego de un escándalo de espionaje investigado por la prensa, pero en Honduras, el fiscal ha pedido investigar el contenido del video del audio, sin explicar cómo se tuvo acceso a esta comunicación.

En una conferencia de prensa, el fiscal general reveló supuestos audios originales de la consejal del CNE, Cossette López, en conversación con otras personas una de ella sería el diputado de oposición, Tomás Zambrano. El congresista dijo en su red X que el video fue manipulado con AI.

El video fue colocado en deepware, una herramienta para detectar ai en la generación de contenidos.

Luego de eso, el resultado es que no se encontró Deepfake.

La herramienta identificó que el video es 55% sospechoso de edición. El video con la conferencia del fiscal fue bajado de Facebook y cortado con una aplicación para su análisis porque la página solo admitía 10 minutos. En el análisis se dejó solo un fragmento de la conversación. La transmisión del video, en el estatal Canal 8, duró 40 minutos con las palabras del fiscal.

Después de ese análisis, un pequeño fragmento de video fue convertido a audio y subido a Youcute y luego a Chat GPT.

Una vez que el video estaba alojado en Chat GPT se solicitó:

Quiero que me ayudes para 1) Analizar el audio de este video como si fueras especialista en informática, buscando patrones de voz sintética (AI).

2 Detectar anomalías acústicas o visuales (deepfake, sincronización falsa, cambios de pitch, etc.).

3) Si la voz es humana o generada por IA.

4) Si hay edición o manipulación de voz.

5) Si el contenido fue creado con inteligencia artificial (deepfake, clonación, etc.).

La respuesta de Chat GPT: Ya tengo el video y puedo hacerte un análisis técnico-forense como lo pediría una sala de redacción para verificar manipulación o uso de inteligencia artificial.

A continuación te presento el informe detallado punto por punto:

🧩 1. Análisis general del material

Formato: video QuickTime (.mov) de 20,6 MB. Duración: aproximadamente varios minutos, peso moderado → compresión intermedia (posible exportación desde dispositivo móvil). Resultado externo (Deepware): “No se detectó deepfake”, lo que indica ausencia de manipulación facial visible según su red neuronal.

(Un deepfake es un video, imagen o audio alterado o completamente creado con inteligencia artificial para hacer parecer que una persona dice o hace algo que nunca hizo).

🎧 2. Análisis del audio (voz humana vs voz IA)

Indicadores técnicos observables

La voz tiene respiraciones naturales, ligeras variaciones de intensidad y un ritmo de habla no perfectamente uniforme. Se observan fluctuaciones microtonales del tono (pitch) y jitter natural; los modelos de voz sintética tienden a tener curvas de pitch planas y limpieza excesiva, lo cual aquí no ocurre. Las sibilantes y consonantes explosivas (“s”, “t”, “p”) presentan transitorios orgánicos, sin el recorte o granulado que suelen dejar los sintetizadores de voz. No se perciben artefactos de vocoder ni “metalización” característica de las voces generadas por IA.

🔹 Conclusión de este punto:

La voz es humana, no clonada ni sintetizada por IA. No hay patrones acústicos compatibles con TTS ni voice-cloning.

(Text-to-Speech” literalmente quiere decir “de texto a voz”. Es una tecnología que convierte texto escrito en voz hablada)

🔎 3. Detección de anomalías acústicas o manipulación

No se detectan saltos bruscos de ambiente ni transiciones digitales entre frases. El ruido de fondo es coherente durante todo el clip; no hay variaciones abruptas de reverberación ni compresión. El nivel de loudness (LUFS) parece constante, lo cual sugiere grabación continua o una edición muy mínima de volumen. No hay desfase de sincronización entre labios y audio (la articulación coincide con la voz).

🔹 Conclusión:

No se evidencian cortes, inserciones ni manipulación perceptible del audio. No hay signos de montaje o sustitución de voz.

🎥 4. Evaluación visual (deepfake / sincronización / IA generativa)

El rostro y la expresión se comportan con parpadeo natural, microgestos y reflejos oculares coherentes con la luz ambiental. No se observan bordes de máscara, halo luminoso ni parches de suavizado excesivo. La sincronización labial es precisa; los fonemas bilabiales (p/b/m) cierran correctamente. No hay “parches respirantes” ni deformaciones de piel entre frames, típicas de video generado o manipulado.

🔹 Conclusión visual:

La imagen es auténtica; no hay signos de deepfake, clonación facial ni renderizado sintético. El video fue capturado con cámara real.

🧠 5. Evaluación integral

Área

Resultado técnico

Voz humana o IA

Voz humana (no IA)

Manipulación / edición

No detectada

Deepfake visual

No detectado (confirmado también por Deepware)

Sincronización / pitch

Natural y coherente

Creación por IA (total o parcial)

No hay evidencia

🧾 6. Dictamen forense periodístico

Tras el análisis acústico y visual, el video no presenta indicadores de generación por inteligencia artificial ni de manipulación digital significativa.

La voz corresponde a una emisión humana auténtica y el contenido audiovisual parece haber sido grabado directamente por cámara, sin clonación de rostro o voz.

Los resultados de Deepware respaldan esta conclusión, al no detectarse señales de deepfake en los patrones visuales.

https://youtu.be/K3WnAdihOyY?si=s3qddUps4HNASoMe

Este este es el fragmento de audio subido a chat Gpt

Fragmento corto subido a Chat GPT para análisis

Actualización

De nuevo se hizo otro análisis el 30 de octubre con otra herramienta y este fue el resultado:

El video se convirtió a audio, se recortó . La página web analiza 30 segundos.

Esto dijo la AI chat GPT al consultarle sobre este audio:

Resultado: “Likely Human – 99% REAL”

Esto indica que:

La voz analizada tiene un 99% de probabilidad de ser humana, según el modelo de detección. No se detectaron patrones comunes en voces sintéticas o clonadas por IA (como las producidas por herramientas tipo ElevenLabs, OpenAI TTS, etc.). El sistema encontró características naturales del habla humana, tales como: Fluctuaciones microtonales reales (variaciones sutiles en el tono de voz). Ritmos respiratorios naturales. Jitter y shimmer (pequeñas irregularidades en la frecuencia y amplitud). Entonaciones y pausas no perfectamente simétricas (algo que los modelos de IA suelen suavizar).

Relacionado

Descubre más desde Reporteros de Investigación

Suscríbete y recibe las últimas entradas en tu correo electrónico.

Audio no fue manipulado con inteligencia artificial: según herramientas para detectar AI

Me gusta esto:

Relacionado

Descubre más desde Reporteros de Investigación

Amparo, figura que sirve a los corruptos

El concepto de hecho social en Emile Durkheim

Inversiones seguras: Cinco opciones reales de inversión en Honduras

Las heroínas invisibles de la Historia de Honduras

Las consecuencias políticas y sociales del Golpe de Estado de 2009

Actualidad

El Estado espía: entre 2014 y 2023 compraron tecnología que puede usarse en forma intrusiva

Tres agentes presionan a periodistas de Criterio.hn para revelar sus fuentes

Estos son los funcionarios que más agredieron a la prensa

Marx y la religión

Al general le gritan ¡asesino!

La conexión entre el Pollo Carvajal, los tres partidos de Honduras, la CIA y la DEA

Asesinatos sistemáticos con tolerancia estatal, en el Bajo Aguán

Honduras: El país con más defensores de la tierra asesinados en el mundo

Artículos recientes

Tres agentes presionan a periodistas de Criterio.hn para revelar sus fuentes

Estos son los funcionarios que más agredieron a la prensa

Marx y la religión

Al general le gritan ¡asesino!

La conexión entre el Pollo Carvajal, los tres partidos de Honduras, la CIA y la DEA

Nelyi Larice entre los 23 candidatos a diputados

Audio no fue manipulado con inteligencia artificial: según herramientas para detectar AI

Comparte esto:

Me gusta esto:

Relacionado

Descubre más desde Reporteros de Investigación

Actualidad

Artículos recientes

Descubre más desde Reporteros de Investigación

Descubre más desde Reporteros de Investigación