Tecnología rusa de reconocimiento del habla recibe grandes elogios en la competencia internacional del Instituto Nacional de Estándares y Tecnología (NIST, por sus siglas en inglés)

27.01.2022

Moscú, 27 de enero de 2022 — Speech Technology Сenter demostró un sólido desempeño en una competencia de reconocimiento del habla (biometría de la voz) que tuvo lugar en el Instituto Nacional de Estándares y Tecnología (NIST) de los Estados Unidos.

Dmitriy Dyrmovskiy, director ejecutivo de Speech Technology Сenter, comentó: “Tanto las empresas como los servicios públicos pueden aprovechar los algoritmos de reconocimiento del habla de alta calidad, capaces de facilitar nuestras vidas. Las tecnologías de reconocimiento del habla de alto nivel mejoran el desempeño de los asistentes virtuales y optimizan el trabajo en los centros de llamadas, oficinas de venta y de servicios. El análisis del habla proporciona información sobre la satisfacción del cliente y la calidad de la conversación para brindar una mejora continua a la experiencia del cliente. Además, el reconocimiento del habla de alta calidad es fundamental para los sistemas biométricos a nivel nacional. NIST SRE21 es la quinta competencia del 2021 en la que las soluciones de Speech Technology Сenter han recibidouna alta puntuación por parte de un jurado de expertos internacionales.Para Speech Technology Сenter los reconocimientos en competencias internacionales no son solo un logro personal, pues representan un hito para toda la industria. Los equipos más cualificados de todo el mundo trabajan en soluciones de reconocimiento del habla y nos entusiasma pasar al siguiente nivel demostrando nuestras principales competencias en el mercado mundial”.

La solución de Speech Technology Center ha demostrado un extraordinario desempeño en la competencia NIST SRE21 (Evaluación de reconocimiento del habla). Esta competencia incluía varios desafíos:

Detección del habla utilizando diversas fuentes de audio: habla de conversaciones telefónicas (CTS, por sus siglas en inglés) y audio de videos (AfV, por sus siglas en inglés). El equipo utilizó el algoritmo de reconocimiento del habla en este desafío.

Detección del habla utilizando diversas fuentes de audio y video: habla de conversaciones telefónicas (CTS), audio de videos (AfV) y videos. En esta parte, el equipo de Speech Technology Сenter utilizó una combinación de algoritmos de reconocimiento facial y reconocimiento del habla.

En la competencia de este año, se evaluaron los algoritmos en dos condiciones: fijas y libres. Las condiciones fijas suponían el uso exclusivo de datos de audio especificados por los organizadores, mientras que las condiciones libres permitían el uso de cualquier dato. Los datos de evaluación fueron grabados grabaron por teléfono (conversaciones normales por teléfono) y por medio de micrófonos (grabaciones de dispositivos móviles como teléfonos celulares y cámaras digitales). Además, las personas en las grabaciones hablaban en diferentes idiomas: inglés, mandarín y cantonés. Este hecho supuso serios desafíos que corresponden al uso real del reconocimiento del habla.

El equipo de I+D de Speech Technology Center fue uno de los primeros en lograr combinar con éxito modelos de aprendizaje automático transformador y wav2vec y en resolver las tareas de reconocimiento del habla en NIST SRE. La arquitectura de transformador se utiliza mucho en la visión por computadora y el procesamiento del lenguaje natural, mientras que el wav2vec se utiliza en tareas de reconocimiento del habla. Este enfoque permitió minimizar los errores en el reconocimiento del habla.

El equipo de Speech Technology Сenter también participa en el Desafío de reconocimiento del habla CTS del NIST, una serie de competencias iterativas continuas, cuyos resultados se publican con regularidad. La tarea principal del Desafío CTS es reconocer a un hablante a partir de grabaciones telefónicas, en las que se habla en diferentes idiomas, como inglés, chino, algunos idiomas ibéricos o eslavos , francés y árabe. Además, los hablantes pueden usar diferentes modelos de teléfonos inteligentes. Nos complace informar que el equipo de Speech Technology Center ha obtenido resultados excepcionales.

Treinta y tres equipos de prestigiosas universidades y empresas comerciales participan en este desafío.

Entre los participantes se encuentran los mejores equipos de científicos de las empresas y universidades más importantes de China, Estados Unidos, Japón, Italia, Francia, España, Israel, Singapur y República Checa.

Speech Technology Center es un desarrollador mundial de productos y soluciones basados en inteligencia artificial conversacional, aprendizaje automático y visión por computadora, que cuenta con 30 años de experiencia. Brinda experiencia tecnológica en tecnologías del habla, así como en reconocimiento facial y biometría de la voz. Speech Technology Center centra su actividad en la creación de soluciones IA B2B y B2G, cuenta con más de 5000 proyectos de IA completados en todo el mundo, incluyendo proyectos de escala nacional en México, Ecuador y Medio Oriente. En Rusia, las soluciones de Speech Technology Center se utilizan en los bancos más importantes, en empresas de telecomunicación, en el sector de los combustibles y la energía, así como en el sector privado. Además, se está utilizando en la introducción del concepto de ciudad Safe&Smart (segura e inteligente). Las tecnologías de reconocimiento de voz y detección de falsificaciones de voz, la de identificación por voz de Speech Technology Center Group, ocupan los primeros lugares en la clasificación mundial.