Reconocimiento de voz de Google funcionará sin conexión a Internet

La mayoría de los servicios de Google que utilizan inteligencia artificial y aprendizaje automático dependen de conexión a Internet debido a que el procesamiento es realizado en los servidores de la empresa. Esto se debe, específicamente, a que la utilización de capacidad de cómputo es demasiado intensa como para poder ser ejecutada, por ejemplo, en un smartphone.

Con todo, esta situación supone varios inconvenientes. Uno de ellos es la necesidad de contar con acceso a Internet para poder utilizar los servicios. Otro factor, incómodo para muchos usuarios, esta necesidad de compartir con Google toda la información.

Parte de estos inconvenientes parecen ser resueltos en un documento publicado por Google, titulado “Reconocimiento personalizado de voz en dispositivos móviles“, Donde se describe un sistema que no requiere conexión a Internet para funcionar. En el documento se indica que un teléfono Nexus 5 ejecuta el software con una velocidad 7 veces mayor que el tiempo real, con un ratio de errores de 13,5%. El sistema es descrito como compacto y con soporte para un amplio vocabulario. La utilización de memoria se reduce a los 20,3 MB, que equivale aproximadamente el 1% de la memoria disponible en un Nexus 5.

Google escribe: “Numerosos comandos de voz pueden ser completados y ejecutados en un dispositivo sin contar con conexión a Internet, o fácilmente colocados en espera, para ser ejecutados posteriormente como tarea secundaria en una red poco confiable o lenta. Por ejemplo, un comando como ‘Enviar un correo electrónico a Darnica Cumberland señalando: ¿podemos re agendar?‘ Puede ser transcrito por un sistema de reconocimiento de voz incrustado, y ejecutado posteriormente sin que implique una diferencia de percepción en el usuario”.

La empresa indica que un reto en tal sentido puede ser la transcripción del nombre de la persona señalada. Esta situación se solucionaría integrando información personal disponible en el dispositivo, como por ejemplo la lista de contactos, en el modelo lingüístico aplicado. El margen de error sería, como se indicó anteriormente, de 13,5%.

El sistema será presentado en la conferencia internacional IEEE, sobre acústica y procesamiento de lenguaje y de señales, a realizarse en Shanghai, China, la próxima semana. Por ahora se desconoce cuando la tecnología eventualmente estará a disposición de servicios como Google Now.