Reconocimiento de voz de Google funcionará sin conexión a Internet

Nuevo sistema sólo requiere 20 MB de memoria en el smartphone.

La mayoría de los servicios de Google que utilizan inteligencia artificial y aprendizaje automático dependen de conexión a Internet debido a que el procesamiento es realizado en los servidores de la empresa. Esto se debe, específicamente, a que la utilización de capacidad  de cómputo es demasiado intensa como para poder ser ejecutada, por ejemplo, en un smartphone.

Con todo, esta situación supone varios inconvenientes. Uno de ellos es la necesidad de contar con acceso a Internet para poder utilizar los servicios. Otro factor,  incómodo para muchos usuarios, esta necesidad de compartir con Google toda la información.

Parte de estos inconvenientes parecen ser resueltos en un documento publicado por Google, titulado “Reconocimiento personalizado de voz en dispositivos móviles“,  Donde se describe un sistema  que no requiere conexión a Internet para funcionar.  En el documento  se indica que un teléfono Nexus 5  ejecuta el software con una velocidad  7 veces mayor que el tiempo real, con un ratio de errores de 13,5%.  El sistema es descrito como compacto y con  soporte para un amplio vocabulario. La utilización de memoria se reduce a los 20,3 MB, que equivale aproximadamente el 1% de la memoria disponible en un Nexus 5.

Google escribe: “Numerosos comandos de voz pueden ser completados y ejecutados en un dispositivo sin contar con conexión a Internet,  o fácilmente colocados  en espera, para ser ejecutados posteriormente como tarea secundaria en una red poco confiable o lenta. Por ejemplo, un comando como ‘Enviar un correo electrónico a Darnica Cumberland  señalando:  ¿podemos re agendar?‘  Puede ser transcrito por un sistema de reconocimiento de voz incrustado, y ejecutado posteriormente sin que implique una diferencia de percepción en el usuario”.

La empresa indica que un reto en tal sentido puede ser la transcripción del nombre de la persona señalada. Esta situación se solucionaría integrando información personal disponible en el dispositivo, como por ejemplo la lista de contactos, en el modelo lingüístico aplicado. El margen de error sería, como se indicó anteriormente, de 13,5%.

El sistema será presentado en la  conferencia internacional IEEE,   sobre acústica y procesamiento de lenguaje y de señales, a realizarse en Shanghai, China, la próxima semana. Por ahora se desconoce cuando la tecnología eventualmente estará a disposición de servicios como Google Now.


Únase a la conversación

Contacto | Diario TI es una publicación de MPA Publishing International Ltd., Reino Unido. © Copyright 1997-2022