IBM Research ofrece algunas herramientas de Deep Search como código abierto

El procesamiento del lenguaje natural (NLP) se utiliza en el producto Deep Search de IBM Research para “ingerir y analizar cantidades masivas de datos, estructurados y no estructurados”.

Con el paso de los años, Deep Search ha tenido una amplia gama de aplicaciones científicas, desde la investigación de Covid-19 hasta la síntesis molecular. Ahora, IBM Research está racionalizando las aplicaciones científicas de Deep Search al abrir una parte del producto con el lanzamiento de Deep Search for Scientific Discovery (DS4SD).

En DS4SD se incluyen segmentos de Deep Search destinados a la conversión y el procesamiento de documentos. El primero es Deep Search Experience, un servicio de conversión de documentos con una interfaz de drag-and-drop y conversión interactiva para garantizar la calidad. El segundo componente de DS4SD es el Deep Search Toolkit, un paquete de Python que permite a los usuarios “cargar y convertir documentos de forma masiva mediante programación”, apuntando el kit de herramientas a una carpeta cuyo contenido se cargará y convertirá de PDF a archivos JSON “fácilmente descifrables”. El kit de herramientas se integra con los servicios existentes, e IBM Research agradece las contribuciones de los desarrolladores al kit de herramientas de código abierto.

Según IBM Research, DS4SD es una gran ayuda para tratar datos no estructurados (datos no contenidos en una base de datos estructurada). Estos datos, según IBM Research, tienen “mucho valor” para la investigación científica; por ejemplo, citaron el propio Proyecto Photoresist de IBM, que en 2020 utilizó Deep Search para examinar más de 6.000 patentes, documentos y hojas de datos de materiales en busca de una nueva molécula. Según IBM Research, Deep Search puede acelerar la ingesta de datos hasta 1.000 veces y el filtrado de datos hasta 100 veces más rápido que las alternativas manuales.

El lanzamiento de DS4SD se produce tras la publicación en marzo de GT4SD, el kit de herramientas generativas para el descubrimiento científico de IBM Research. GT4SD es una biblioteca de código abierto que ayuda a los científicos a generar hipótesis más rápidamente. Juntos, DS4SD y GT4SD son los primeros pasos del Open Science Hub for Accelerated Discovery de IBM Research. Según IBM Research, “nuevas capacidades, como modelos de IA y fuentes de datos de alta calidad”, estarán disponibles a través de DS4SD en el futuro. Deep Search también ha añadido “más de 364 millones” de documentos públicos (como patentes y artículos de investigación) para que los usuarios los utilicen en sus investigaciones, lo que supone un cambio significativo respecto a la anterior naturaleza de la herramienta, que consistía en “traer sus propios datos”.

El kit de herramientas de Deep Search puede encontrarse en GitHub.


Únase a la conversación

Contacto | Diario TI es una publicación de MPA Publishing International Ltd., Reino Unido. © Copyright 1997-2022