BM anunció nuevas APIs cognitivas dirigidas a desarrolladores, las cuales mejoran sentidos visuales y emocionales de Watson, extendiendo aún más las capacidades del conjunto de herramientas y tecnologías cognitivas más grande y diverso de la industria.
Tres APIs: Tone Analyzer, Emotion Analysis y Visual Recognition, están disponibles ahora en su versión beta. Adicionalmente, la herramienta de Texto a Voz (TTS, por sus siglas en inglés), fue actualizada con capacidades emocionales y se está liberando nuevamente como Expressive TTS a nivel general. Estas APIs están empujando las fronteras sensoriales de cómo interactúan los humanos y las máquinas, y fueron diseñados para mejorar la forma en que los desarrolladores integran estas tecnologías para crear soluciones que puedan pensar, percibir y empatizar.
“Continuamos en el avance de las capacidades que ofrecemos a los desarrolladores sobre la plataforma Watson de IBM, para ayudar a esta comunidad a crear apps y servicios para una Inteligencia Artificial dinámica”, dijo David Kenny, Gerente General de IBM Watson. “También estamos simplificando la plataforma, haciendo más fácil construir, enseñar e implementar la tecnología. Juntos, estos esfuerzos permitirán que Watson se aplique en muchas más formas para satisfacer los retos de la sociedad”.
IBM también agregó capacidades de herramienta y mejoras a su SDKs (paquetes de desarrollo de software) como Node, Java, Python, y el más reciente de iOS Swift y Unity, en todo su portafolio Watson y añadió Application Starter Kits para hacer que la personalización y la construcción con Watson sea más fáciles y sencillas para los desarrolladores. Todas las APIs están disponibles desde la Watson Developer Cloud en Bluemix.
Nuevas APIs beta avanzan en reconocimiento de imágenes e inteligencia emocional
La construcción sobre APIs existentes de Watson que se basa en los avances en el procesamiento de lenguaje natural, aprendizaje de máquina y aprendizaje profundo, Tone Analyzer, Emotion Analysis y Visual Recognition, ya está disponible en versión beta.
• Tone Analyzer: Tone Analyzer (Analizador del Tono) ha profundizado sus capacidades de análisis en esta versión beta, de modo que pueda ofrecer a los usuarios mejor percepción sobre su propio tono en un fragmento de texto. Agregando al previo entendimiento experimental de nueve rasgos en tres tonos – emoción (negativa, alegre, enojada), propensión social (abierto, agradable, concienzudo), y estilo de redacción (analítico, confiado, tentativo)- Tone Analyzer ahora puede analizar nuevas emociones, incluidas júbilo, asco, temor y tristeza, así como nuevas propensiones sociales, incluyendo extraversión y rango emocional. También en la versión beta, Tone Analyzer pasa de analizar palabras solas a analizar frases completas. Este análisis ayuda en situaciones que requieren una comprensión matizada. Por ejemplo, en el texto escrito puede indicar cómo diferentes observaciones pueden llegar a la audiencia, desde exhibir confianza y agradabilidad, a mostrar temor. En el servicio al cliente, puede ayudar a analizar una variedad de tonos sociales, emocionales y de escritura que influyen en la efectividad de una conversación.
• Emotion Analysis: IBM añadió Emotion Analysis como una nueva función beta dentro la suite de APIs AlchemyLanguage. Emotion Analysis (Análisis de la Emoción) utiliza sofisticadas técnicas de procesamiento de lenguaje natural para analizar el contenido externo y ayudar a los usuarios a entender mejor las emociones de otros. Los desarrolladores pueden ir más allá que simplemente identificar sentimientos positivos o negativos, y distinguir ahora un rango más amplio de emociones, incluyendo júbilo, temor, tristeza, asco y enojo. Al obtener una comprensión más profunda, Emotion Analysis puede ayudar a identificar nuevas percepciones en áreas como reseñas de clientes, encuestas, y publicaciones en medios sociales. Por ejemplo, además de saber si las reseñas de productos son negativas o positivas, las empresas pueden identificar si un cambio en una característica del producto generó reacciones de alegría, enojo o tristeza en los clientes.
• Visual Recognition: Yendo más allá de las capacidades visuales que permiten a los sistemas entender y etiquetar una imagen, Visual Recognition (Reconocimiento Visual) está disponible en versión beta y puede entrenarse para reconocer y clasificar imágenes basado en material de entrenamiento.
Aunque otros motores de búsqueda visual pueden etiquetar imágenes a través de un conjunto fijo de clasificadores o términos genéricos, Visual Recognition permite a los desarrolladores entrenar a Watson con clasificadores personalizados para las imágenes –de la misma manera que los usuarios pueden enseñar a Watson la clasificación en lenguaje natural- y construir apps que identifiquen visualmente conceptos e ideas únicas. Esto quiere decir que Visual Recognition ahora es personalizable con resultados hechos a la medida de las necesidades específicas de cada usuario. Por ejemplo, una tienda puede crear una etiqueta específica para un estilo de pantalones de la nueva línea primaveral, de tal forma que pueda identificar cuando una imagen aparece en social media de alguien que use esos pantalones.
Integra Watson coeficiente emocional dentro de su API de texto a voz
Para avanzar en las capacidades emocionales de los sistemas cognitivos, IBM también incorporó un coeficiente emocional dentro de su API llamada Text to Speech (Texto a Voz) y liberó la suite Expressive TTS a nivel general.
Expressive Text to Speech: Luego de 12 años de investigación y desarrollo, Expressive TTS (Texto a Voz Expresivo) ya está disponible de manera general e incorpora un coeficiente emocional dentro de la API TTS de Watson. Por primera vez, los sistemas cognitivos pueden generar y entregar un nivel avanzado de emoción adaptada en interacciones vocales, lo que significa que las computadoras no sólo entienden lenguaje natural, tono y contexto, sino que responden con la inflexión más apropiada. Anteriormente, los sistemas automatizados se basaban en un corpus de palabras predeterminado y regulado. Esto se categorizaba por colas de emociones limitadas, como “buenas noticias es igual a tono elevado”, o “malas noticias es igual a tono lentificado”. Al crear Expressive TTS, IBM estudió y determinó la conformación de esta capacidad de voz basada en un conjunto específico de estilos de expresión. Para hacer esto, el equipo de investigación realizó mejoras significativas al motor de síntesis existente de IBM e incorporó ideas del aprendizaje de máquina, de manera que ahora se puede cambiar sin problemas entre los diferentes estilos de expresión. Hoy los desarrolladores tienen más flexibilidad para construir sistemas cognitivos que puedan demostrar sensibilidad en interacciones humanas. Estos servicios extendidos son parte de la plataforma abierta Watson de IBM, que incluye ya más de 30 servicios de Watson y está disponible desde la Watson Developer Cloud en Bluemix.
Con una comunidad de más de 80 mil desarrolladores, estudiantes, emprendedores y entusiastas de la tecnología, quienes aprovechan la plataforma de cómputo cognitivo para hacer prototipos y construir aplicaciones de cómputo cognitivo basadas en la nube, estos avances son el último ejemplo del compromiso de IBM para empoderar a la comunidad de desarrolladores para que construyan apps y negocios cognitivos con Watson.