La interfaz portátil de bajo consumo requiere sólo unos minutos de datos de entrenamiento del usuario antes de reconocer los comandos y puede ejecutarse en un teléfono inteligente, según los investigadores.
Ruidong Zhang, estudiante de doctorado en el campo de las ciencias de la información y autor principal de “EchoSpeech: Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing”, afirmó que “para las personas que no pueden vocalizar sonidos, esta tecnología de habla silenciosa podría ser un excelente input para un sintetizador de voz. Podría devolver la voz a los pacientes”, dijo Zhang sobre el uso potencial de la tecnología con un mayor desarrollo.
En su forma actual, EchoSpeech podría utilizarse para comunicarse con otras personas a través del teléfono inteligente en lugares donde el habla es inconveniente o inapropiada, como un restaurante ruidoso o una biblioteca silenciosa. La interfaz de voz silenciosa también puede emparejarse con un lápiz óptico y utilizarse con software de diseño como CAD, eliminando casi por completo la necesidad de un teclado y un ratón.
Equipadas con un par de micrófonos y altavoces más pequeños que las gomas de borrar de un lápiz, las gafas EchoSpeech se convierten en un sistema de sonar portátil impulsado por IA, que envía y recibe ondas sonoras a través de la cara y detecta los movimientos de la boca. A continuación, un algoritmo de aprendizaje profundo, también desarrollado por investigadores de SciFi Lab, analiza estos perfiles de eco en tiempo real, con una precisión aproximada del 95%.
“Estamos trasladando el sonar al cuerpo”, afirma Cheng Zhang, profesor adjunto de Ciencias de la Información en la Facultad de Informática y Ciencias de la Información Ann S. Bowers de Cornell y director del SciFi Lab. “Estamos muy entusiasmados con este sistema, porque realmente hace avanzar el campo del rendimiento y la privacidad. Es pequeño, consume poco y es sensible a la privacidad, características todas ellas importantes para desplegar nuevas tecnologías vestibles en el mundo real.”
El SciFi Lab ha desarrollado varios dispositivos wearables que rastrean los movimientos del cuerpo, las manos y la cara utilizando el aprendizaje automático y cámaras de vídeo portátiles en miniatura. Recientemente, el laboratorio se ha distanciado de las cámaras y ha apostado por la detección acústica para rastrear los movimientos faciales y corporales, aduciendo una mayor duración de la batería; mayor seguridad y privacidad; y un hardware más pequeño y compacto. EchoSpeech se basa en un dispositivo de detección acústica similar del laboratorio llamado EarIO, un auricular portátil que rastrea los movimientos faciales.
La mayor parte de la tecnología de reconocimiento del habla silenciosa se limita a un conjunto selecto de órdenes predeterminadas y requiere que el usuario mire a la cara o lleve una cámara, lo que no es ni práctico ni factible, dijo Cheng Zhang. También existen importantes problemas de privacidad relacionados con las cámaras portátiles, tanto para el usuario como para las personas con las que interactúa, dijo.
La tecnología de detección acústica como EchoSpeech elimina la necesidad de cámaras de vídeo portátiles. Y como los datos de audio son mucho más pequeños que los de imagen o vídeo, requieren menos ancho de banda para procesarse y pueden transmitirse a un teléfono inteligente a través de Bluetooth en tiempo real, explicó François Guimbretière, profesor de ciencias de la información en el CIS Bowers de Cornell y coautor.
“Y como los datos se procesan localmente en su smartphone en lugar de subirse a la nube, la información sensible desde el punto de vista de la privacidad nunca sale de su control”, dijo el científico.
La duración de la batería también mejora exponencialmente, según Cheng Zhang: Diez horas con la detección acústica frente a 30 minutos con una cámara. El equipo está explorando la posibilidad de comercializar la tecnología subyacente en EchoSpeech.
Ilustración: captura, Universidad Cornell.