Según fue posible constatar mediante un test reconocido y estandarizado, el equipo de Microsoft ha alcanzado un resultado muy cercano a lo que consiguen hacer las personas al transcribir una conversación.
Aún faltan algunos puntos porcentuales para la perfección. El margen de error del sistema fue de 5,9% durante la prueba que, con ello, se convierte en la mejor realizada desde la prueba NIST 2000 para conmutadores telefónicos. Para el caso de la funcionalidad CallHome, diseñada para consumidores, el margen de error fue del 11,3%.
Hace un año, el equipo de científicos de Microsoft se propuso llegar al resultado alcanzado ayer en un plazo de 3 años, con lo que el anuncio de hoy implica un considerable avance. “Hace 5 años, no creí que alcanzaríamos este hito; de hecho, cuestionaba que sería posible”, comentó Harry Shum, director del grupo Microsoft Artificial Intelligence and Research en el blog de la empresa.
Microsoft comenzó sus investigaciones en reconocimiento de voz en la década de 1970. Desde entonces, varias empresas e instituciones tecnológicas han desarrollado activamente productos de reconocimiento de voz.
El sistema utilizado por Microsoft es denominado Computational Network Toolkit y está disponible como código abierto. El considerable avance anunciado por la empresa fue posible al utilizar modelos lingüísticos que operan de manera similar a las neuronas, donde cada palabra es representada como vectores continuos en el espacio, agrupando diversos sinónimos con el fin de permitir al modelo generalizar entre distintas palabras. Microsoft se dispone a usar esta tecnología en productos como el asistente digital Cortana.
Cabe señalar que hay una gran diferencia entre poder reconocer la voz; es decir señales acústicas generadas por seres humanos, y comprender el significado de las mismas. En este segmento específico resta mucho camino por recorrer, según Shum, a cuyo juicio se está produciendo un cambio de paradigma, donde las computadoras comienzan a comprender a los seres humanos, en lugar de la situación opuesta. Con todo, el investigador señala que falta mucho para llegar a la verdadera inteligencia artificial: “Pasará mucho tiempo antes que las computadoras puedan entender el verdadero sentido de lo que se dice o se les presenta”.