IKAR Lab 3

Sistema de hardware y software para el análisis forense de grabaciones de voz

IKAR Lab 3

Aplicación

IKAR Lab 3 Cumple con los requisitos globales de los principales expertos forenses: proporciona una alta confiabilidad de la base de evidencias, automatiza, acelera y simplifica el trabajo al máximo.

Todas las operaciones se realizan en un mismo puesto de trabajo, en una única interfaz fácil de usar. Esto les permite a los expertos centrarse en la toma de decisiones y proporcionar una evaluación experta de manera operativa.

SIS

SIS

 

SIS

Editor de sonido

Es un componente central e incluye potentes herramientas de estudio de señales de voz, excelentes capacidades de visualización y análisis de habla visible, segmentación y reconocimiento de habla, herramientas de identificación automáticas y semiautomáticas, y muchas otras funciones?

 

Métodos:

  • Visualización
  • Edición y procesamiento
  • Detección de voz y ruido
  • Reconocimiento y segmentación de habla
  • Diarización de locutores en el diálogo o polílogo
  • Interfaz de múltiples ventanas
  • Comparación de señales
  • Cálculo de las características de la señal
  • Gestión de proyectos y elaboración de informes
  • Identificación
  • Comparación automática
  • Comparación de formantes
  • Comparación de tono
  • «Asistente para identificación»
  • Conclusión final
  • Análisis de la grabación de voz extraída del archivo de video
  • EdiTracker y módulo de diagnóstico


Visualización

Los algoritmos utilizados para la representación espectral de la señal garantizan la máxima calidad y claridad de habla visible. El usuario selecciona sobre la marcha los parámetros de visualización óptimos o utiliza ajustes preestablecidos para varios tipos de análisis espectral.

  • Oscilogramas
  • Espectogramas de FFT y CPL
  • Espectro medio e instantáneo
  • Cepstrograma
  • Autocorrelograma
  • Extracción de tono
  • Extracción de formantes
  • Energía
  • Histograma y correlación de histogramas

Edición y procesamiento

SIS proporciona a los expertos una amplia gama de herramientas de edición y procesamiento de señales para mejorar la legibilidad y preparar grabaciones de voz para futuros estudios.

  • Normalización de amplitude
  • Transformación lineal
  • Correсción de desplazamiento de corriente continua
  • Mezcla
  • Modulación
  • Corrección de tempo*
  • Remuestreo
  • Cambio de resolución
  • División de una señal estéreo en dos monos y fusión de dos señales mono en una estéreo
  • Cambio de fase
  • Filtro inverso adaptativo
  • Filtro tonal adaptativo
  • Filtro de banda ancha adaptativo

Detección de voz y ruido

El detector de voz marca automáticamente la grabación de voz en fragmentos adecuados para la identificación. El módulo también se puede configurar para detectar áreas de ruido: timbres telefónicos, clipping, clics.

Reconocimiento y segmentación de habla

El plugin de habla en texto permite obtener automáticamente el contenido de texto de la voz en la grabación en ruso, inglés, español, kazajo y árabe. Además, el reconocimiento se acompaña de la segmentación que indica la ubicación de las palabras habladas. Esta funcionalidad les permite a los expertos trabajar eficazmente con grandes volúmenes de grabaciones de voz.

En el modo manual, el fragmento de audio seleccionado se puede marcar con un grupo de marcas (por ejemplo, locutor, sonido, ruido) con comentarios de texto, y el texto general se puede exportar a MS Word. Si hay una transcripción de texto para dos archivos, el programa busca automáticamente todas las palabras coincidentes en las grabaciones de voz comparadas.



Diarización de locutores en el diálogo o polílogo


El módulo marca automáticamente las réplicas de acuerdo a los interlocutores que participan en la conversación. La confiabilidad de su funcionamiento alcanza el 95%, si la relación señal/ruido es de al menos 20 dB y la duración del habla de cada locutor en una grabación de audio es de al menos 16 segundos.

Interfaz de múltiples ventanas

SIS le permite abrir muchos archivos con diferente presentación de señal en una o varias ventanas. Las ventanas se pueden organizar de manera conveniente y rápida para diferentes tareas: verticalmente para la identificación y horizontalmente para comparar copias de grabaciones de audio u opciones de cancelación de ruido. Las señales se pueden abrir en varias capas en una ventana, y sus colores y transparencia se pueden cambiar para una mejor percepción.



Comparación de señales

Las ventanas se pueden vincular en dominios de tiempo y frecuencia para facilitar la medición con el cursor vertical y horizontal. Los espectros instantáneos con formantes se pueden superponer para realizar una comparación visual. También es posible comparar visual o numéricamente los histogramas del tono de los locutores por valores de mínimo, máximo, mediana, asimetría y correlación general.

Cálculo de las características de la señal

SIS calcula automáticamente las características de la señal, basándose en las cuales los expertos estiman la idoneidad de las grabaciones de audio para la identificación.

  • Respuesta en frecuencia
  • Relación señal/ruido
  • Tiempo de reverberación
  • Presencia de clipping e interferencia tonal
  • Duración del habla pura

Gestión de proyectos y elaboración de informes

IKAR Lab 3 organiza efectivamente el flujo de trabajo de los expertos. El proyecto ejecuta archivos relacionados con el análisis (audio, texto, foto y video) desde la interfaz de SIS, almacena estos archivos de manera estructurada, así como los resultados de identificación, y crea informes en formato MS Word. El informe se puede complementar con la información sobre la configuración del habla visible e ilustraciones: capturas de pantalla o su área.

Identificación

La herramienta única se basa en algoritmos biométricos y módulos expertos que automatizan y formalizan los procesos de estudio de identificación fonoscópico: búsqueda de palabras o sonidos idénticos, selección de fragmentos de sonido y melodía comparados, comparación de locutores por formantes y tono, análisis de voz. Los resultados se presentan como indicadores numéricos de la conclusión de identificación final.

Comparación automática

El módulo le permite comparar señales de voz 1:1 (“uno-a-uno”), utilizando ciertos métodos dependiendo de las características de las señales de voz de las grabaciones estudiadas. Los resultados de la comparación se basan en la selección de características que son significativas para la identificación y el cálculo de una medida de la proximidad de los conjuntos de características obtenidos entre sí.
Se utilizan más métodos de comparación: cxvector (desarrollado a partir de xvector) es el principal, además de él se usan smart-speaker y gen6-V3 (cuando la duración del habla pura en la grabación es de 1,5 a 5 segundos). La nueva funcionalidad proporciona una identificación rápida y confiable.
El módulo se entrenó en una gran muestra de grabaciones de voz: decenas de miles de locutores de diferentes géneros, edades, etnicidades e idiomas, varios canales y muchas sesiones de grabación de sonido, varios tipos de material de voz. Hoy en día, las pruebas del NIST confirman la alta fiabilidad del motor biométrico.

Comparación de formantes

El proceso de identificación mediante el módulo de comparación de formantes se lleva a cabo en dos etapas.

1. Búsqueda y selección de fragmentos de sonido de referencia para locutores conocidos y desconocidos:

  • por el diagrama de dispersión con el triángulo vocálico de Fant resaltando el área de búsqueda
  • especificando los rangos de frecuencia de la búsqueda de formantes
  • según las marcas horizontales establecidas con tolerancia en hercios y porcentajes
  • por todos los sonidos vocálicos comparados

2. Comparación experta. El módulo calcula automáticamente FR, FA y LR para los sonidos seleccionados y toma una decisión de identificación positiva/negativa o da un resultado indefinido.

Funcionalidades adicionales del módulo:

  • Comparación visual de la distribución de sonidos seleccionados en el scatterograma
  • Comparación de los valores de formantes promediados para sonidos seleccionados de dos locutores
  • Comentarios de texto para fragmentos de referencia con posibilidad de especificar una palabra o una tríada
  • Exportación de tablas de referencia y resultados a MS Word

Comparación de tono

El módulo automatiza el proceso de identificación de los locutores mediante el método de análisis de contorno melódico. Se proporcionan 18 tipos de elementos de contorno y 15 parámetros de su descripción (valores de mínimo y máximo, valor medio, valor de la velocidad de cambio de tono, curtosis, oblicuidad, etc.).
El módulo devuelve los resultados de la comparación como un porcentaje de coincidencia para cada uno de los parámetros y toma una decisión de identificación positiva/ negativa o da un resultado indefinido. Todos los datos se pueden exportar a un informe de texto.

“Asistente para identificación”
El módulo sistematiza el procedimiento de trabajo de los expertos durante las pruebas de identificación: muestra las etapas del estudio y los resultados de cada una.

Conclusión final
Los expertos pueden guardar los resultados de cada método de investigación en un proyecto. Sobre la base de los resultados de los módulos, el programa permite tomar una decisión de identificación final. En este caso, la aplicabilidad de cada uno de los métodos se ajusta por el usuario que puede cambiar su influencia en la conclusión final, o se establece automáticamente según los resultados del cálculo de las características cualitativas y cuantitativas de las grabaciones de voz comparadas. A partir de los resultados del estudio realizado, los expertos pueden generar automáticamente un informe detallado.

Análisis de la grabación de voz extraída del archivo de video

Usando el nuevo método de SIS, los expertos obtienen acceso rápido a la pista de audio que acompaña al archivo de video sin usar ningún editor adicional. Para hacer esto, debe cargar el archivo de video como cualquier otra grabación. Entonces SIS seleccionará automáticamente la pista de audio del video y la cargará en una ventana separada. El módulo proporciona la capacidad de trabajar en paralelo con el video en el reproductor de video y con la grabación de audio en el editor: el video y el sonido se sincronizan, y al editar la grabación de audio, el video se corrige automáticamente.

 

Sound Cleaner

Sound Cleaner. Noise reduction and audio enhancement software


Sound Cleaner

Software de cancelación de ruido

La mayoría de los materiales de audio en el análisis requieren contenido textual, es decir, transcripción de la grabación de voz. Dado que las grabaciones de voz obtenidas de forma operativa se pueden grabar en condiciones difíciles y, a menudo, no son muy legibles, la etapa preparatoria es la cancelación de ruido. Para hacer esto, IKAR Lab 3 se completa opcionalmente con Sound Cleaner, que incluye algoritmos modernos de procesamiento de señales y suprime con éxito el ruido de banda ancha, la interferencia tonal, los pulsos, realiza la corrección de la respuesta en frecuencia, ecualiza la amplitud de la señal, etc.

Para determinar las características de ruido e interferencia, es posible construir espectrogramas, incluso en formato 3D FFT. Esto mejora la velocidad y la precisión de la cancelación de ruido.
Todos los filtros funcionan en tiempo real: el resultado se escucha inmediatamente después de que el filtro se incluye en la cadena de procesamiento y el usuario puede seleccionar los parámetros óptimos de oído.

  • Filtro automático
    Reduce significativamente el nivel de los tipos de ruido más comunes con un solo regulador.
  • Filtro de banda ancha
    Reduce el nivel de ruido de las habitaciones y las calles, la interferencia de los canales de comunicación o el equipo de grabación. Este ruido suena como un murmullo y no se elimina por otros métodos, ya que el espectro de la interferencia se cruza/coincide con el espectro de la señal útil.
  • Supresor tonal
    Suprime las interferencias estacionarias y regulares de banda estrecha (vibraciones, líneas de alta tensión, ruidos de electrodomésticos, música lenta, sonido de un automóvil que pasa, ruido de agua o sala, reverberación, etc.)
  • Supresor de impulsos
    Restaura automáticamente señales de voz o música distorsionadas por interferencias de impulsos (clics, interferencias de radio, golpes, crujidos, etc.).
  • Ecualizador
    Ecualizador gráfico de 4096 bandas con espectrógrafo integrado para una corrección detallada del espectro en grabaciones de audio distorsionadas
  • Cancelador de ruido de referencia
    Elimina del canal principal los ruidos que están presentes en el canal de referencia (por ejemplo, televisión o radio, música).
  • Supresor de ruido GSM
    Reduce la interferencia de las llamadas entrantes de teléfonos móviles con sonidos intermitentes característicos
  • Filtro inverso
    Ecualiza la respuesta en frecuencia del canal de comunicación en el que se realizó la grabación de audio. Dos configuraciones: amplificación de los componentes espectrales débiles de la señal y atenuación de los potentes (aproximando el espectro promedio al plano).
  • Dereverberación
    Aumenta la legibilidad del habla, reduce el nivel de reverberación en las grabaciones de audio y la fatiga del usuario debido a la percepción cómoda de una señal de voz reverberada útil en presencia de ruido aditivo
  • Control dinámico de rango
    Aumenta la legibilidad con grandes cambios en la intensidad de la señal. Por ejemplo, amplifica una señal débil y atenúa una señal fuerte para igualar la amplitud de la señal de salida.
  • Corrección de clipping
    Restaura fragmentos sobrecargados de grabación de audio reconstruyendo la forma de onda de estas áreas.
  • Supresor de DTMF
    Procesa señales de marcación telefónica, es decir, secuencias de pulsos rectangulares cortos con relleno de doble frecuencia

Sound Cleaner guarda los resultados de procesamiento en formato WAV y crea automáticamente un protocolo de texto con toda la información sobre el procesamiento de la señal realizado. Además, el programa es compatible con cualquier editor de sonido en formato VST 3.

Caesar

Caesar. Audio recording transcription module

Caesar

Herramienta de transcripción

El módulo está diseñado para obtener el contenido textual de las grabaciones de voz. El texto se escribe en el editor de texto MS Word y luego se vincula automáticamente con el sonido de la grabación de voz. Esto facilita la búsqueda posterior del segmento de audio correspondiente para el texto y la corrección del texto. Por lo tanto, el modo de reproducción y transcripción sin conexión en una sola interfaz simplifica el trabajo de los expertos.

STC-H246

 

STC-H246

STC-H246

Dispositivo USB de E/S de sonido

Para obtener una alta calidad garantizada de las señales de entrada y salida, IKAR Lab 3 está equipado con un dispositivo profesional de entrada y salida de señales STC-H246.

El STC-H246 es ideal para organizar una estación de trabajo de digitalización de grabaciones de voz analógicas, ya que es un dispositivo para medir características y formar señales eléctricas en el rango de frecuencia de audio.

Características técnicas

Parámetro Valor
Frecuencias de muestreo soportadas 8–200 kHz
Formato de conversión de datos, bits por muestra 16, 24 bit
Relación señal/ruido en el canal de extremo a extremo, en la banda de frecuencia de 20 a 20 kHz 105 dB
Tipos de conector de canal de entrada/salida XLR, RCA, S/PDIF, TRS 6.3
Número de canales 2
Alimentación 110/220 V 60/50 Hz
Caja Metal
Tamaño 111×166×190 mm
Sistemas operativos Windows 7,8,10

EdiTracker

EdiTracker


EdiTracker

El módulo realiza un diagnóstico rápido de la autenticidad de las grabaciones de voz analógicas y digitales, junto con SIS simplifica enormemente el análisis experto, proporcionando a los usuarios métodos de análisis manuales y automáticos.

Métodos de análisis de EdiTracker

  • Análisis de las características técnicas del dispositivo de grabación
  • Detección de rastros de preprocesamiento digital
  • Detección de armónicos estacionarios y escaneo de su fase
  • Escaneo de ruido de fondo
  • Análisis auditivo

Análisis de las características técnicas del dispositivo de grabación

Cada grabadora de audio analógica tiene sus propias características técnicas, como respuesta en frecuencia, distorsión armónica, detonación, rango de frecuencia efectivo, desviación de velocidad, etc. Usando una señal de prueba, EdiTracker evalúa automáticamente las características del dispositivo de grabación. Si los parámetros del dispositivo de grabación de sonido no coinciden con las características de la señal de audio que supuestamente se grabó en él, esto puede ser un rastro de montaje de audio.


Detección de rastros de preprocesamiento digital

El procesamiento digital de señales analógicas siempre implica una cierta frecuencia de muestreo. Al digitalizar la señal analógica, se puede observar un efecto de aliasing: los componentes de alta frecuencia se superponen a los de baja frecuencia, es decir, la señal de audio se distorsiona. Para evitar esto, la mayoría de los conversores analógicosdigitales utilizan filtros antialiasing. EdiTracker analiza automáticamente el espectro de la señal y busca rastros de la aplicación de filtros antialiasing, lo que puede indicar un procesamiento digital previo de la señal.

Detección de armónicos estacionarios y escaneo de su fase

EdiTracker escanea automáticamente la señal de audio en busca de señales estacionarias de banda estrecha: armónicos, que generalmente se producen por la red eléctrica, baterías recargables, aparatos eléctricos. Después de detectar este tipo de señales, el módulo escanea su fase en busca de continuidad. Una ruptura de fase armónica injustificada puede interpretarse como un posible rastro de edición de grabación de audio.

Escaneo de ruido de fondo

El escaneo puede detectar cambios abruptos en el espectro del ruido de fondo. Estos cambios pueden justificarse situacionalmente o ser rastros de montaje. Además, este método analiza la corriente continua de la señal y marca los lugares de un cambio brusco en su valor.

Análisis auditivo

Mientras suena la señal de audio original, el conjunto de circunstancias comunicativas forma una imagen integral de los eventos de sonido y habla mutuamente coordinados (comportamiento verbal y no verbal de los locutores, características del sonido de fuentes de sonido adicionales). Análisis auditivo de los datos de eventos, teniendo en cuenta las características del equipo utilizado conocidas por los expertos y los métodos de grabación de sonido, permite detectar violaciones de esta integridad y revelar los lugares, hechos y métodos de tales violaciones. EdiTracker incluye una lista ampliada de rastros auditivos y lingüísticos de violación de la autenticidad de las grabaciones de voz, que se puede utilizar en el informe de texto de los expertos.

Diagnóstico

Este es un nuevo módulo de SIS para una evaluación más confiable de la autenticidad y la aplicabilidad de la grabación de voz para el análisis. El módulo revela una variedad de características en la señal que explican la naturaleza de su origen o los posibles métodos de procesamiento, que a su vez pueden ser desconocidos u ocultos intencionalmente. Complementando EdiTracker, detecta el uso de ciertas operaciones con una señal usando los siguientes métodos:

  • detección de falsificación (Spoofing Detector)
  • análisis de desnivel de CC (Constant Component)
  • análisis de rastros de A/μ-codificación (Codecs)
  • análisis de rastros de codificación de MP3 (MP3 Coding).

Detección de falsificación (Spoofing Detector)

El módulo analiza la grabación de voz en busca de rastros del uso de ataques de falsificación: reproducción repetida, síntesis de voz, conversión de voz. El algoritmo de trabajo se basa en el uso de una red neuronal entrenada sobre la base de ataques de falsificación de identidad de diversa naturaleza. Como resultado de la operación del algoritmo, se concluye si la grabación de voz es un intento de suplantar la grabación auténtica del locutor o no.

Análisis de desnivel de CC (Constant Component)

El módulo analiza las grabaciones de voz para identificar áreas con cambios bruscos y significativos en la corriente continua, que puede ser uno de los rastros de una violación de la autenticidad. Si se detectan, el módulo marca estas áreas.

Análisis de rastros de A/μ-codificación (Codecs)

El módulo examina las grabaciones de voz para identificar áreas con rastros de codificación mediante códecs de A/μ. El formato de las grabaciones de voz estudiadas no indica la posibilidad de procesamiento por estos códecs. En caso de detectarlos, el módulo devuelve las áreas marcadas o toda la grabación.

Análisis de rastros de codificación de MP3 (MP3 Coding)

El módulo analiza las grabaciones de voz para detectar rastros de codificación mediante códec de MP3. El formato de las grabaciones de voz estudiadas no indica la posibilidad de procesamiento por este códec. Al finalizar el análisis, el módulo devuelve un mensaje informativo sobre la presencia o ausencia de signos de codificación MP3. Además, se muestran espectrogramas, gráficos e histogramas que ilustran la decisión tomada por el algoritmo.