Un nuevo benchmark mide si la IA puede apoyar decisiones científicas complejas

18/06/2026

LifeSciBench reúne 750 tareas redactadas por especialistas y basadas en actividades reales de investigación, como interpretar evidencia, diseñar experimentos y evaluar riesgos de desarrollo farmacéutico.

OpenAI presentó LifeSciBench, un benchmark diseñado para evaluar si los sistemas de inteligencia artificial pueden contribuir a tareas reales de investigación en ciencias de la vida, más allá de responder preguntas académicas de biología.

Según una publicación de OpenAI del 17 de junio de 2026, la evaluación busca reflejar el trabajo que realizan investigadores en empresas biotecnológicas y farmacéuticas: interpretar evidencia incompleta, reconciliar resultados contradictorios, diseñar experimentos, diagnosticar problemas en ensayos y evaluar riesgos de desarrollo.

La compañía sostiene que muchas evaluaciones actuales se concentran en dominios estrechos o preguntas con respuestas estructuradas. LifeSciBench, en cambio, plantea solicitudes abiertas similares a las que un científico podría entregar a un colaborador especializado.

El benchmark contiene 750 tareas distribuidas entre siete flujos de trabajo y siete dominios biológicos. Incluye 1.062 archivos y otros materiales de apoyo, junto con 19.020 criterios de evaluación elaborados por especialistas. Las tareas cubren manejo de evidencia, análisis, diseño y optimización, razonamiento científico, validación y operaciones, traducción de resultados hacia aplicaciones clínicas y comunicación científica.

Cada ejercicio incluye una solicitud, el contexto necesario, archivos relevantes y una respuesta libre. Las evaluaciones no consideran únicamente la conclusión final, sino también las justificaciones, advertencias, cálculos, decisiones y formatos que un investigador esperaría recibir. El 79% de las tareas exige varios pasos de razonamiento o toma de decisiones, con un promedio de cuatro pasos por ejercicio. Además, 53% requiere interpretar o sintetizar información contenida en figuras, documentos PDF, tablas, secuencias, estructuras químicas o referencias web.

Las tareas fueron desarrolladas por 173 científicos con formación doctoral y experiencia en la industria biotecnológica o farmacéutica. Según OpenAI, cada ejercicio aceptado pasó por al menos dos rondas de revisión experta y alcanzó un acuerdo mínimo de 90% entre especialistas del dominio correspondiente.

La validación independiente involucró a otros 453 revisores que no participaron en la redacción. El 97% tenía un doctorado o formación equivalente, con un promedio de 12 años de experiencia y 14 publicaciones revisadas por pares. Más de 96% de los revisores estuvo de acuerdo en que las tareas eran pertinentes para el trabajo científico, evaluaban habilidades apropiadas, estaban sustentadas en evidencia o consenso experto y resultaban útiles para medir el desempeño de modelos.

LifeSciBench utiliza dos métricas principales. La tasa de aprobación indica el porcentaje de tareas en que un modelo alcanza al menos 70% del puntaje disponible. La segunda métrica corresponde al promedio obtenido en las rúbricas, lo que permite reconocer respuestas parcialmente útiles aunque no resuelvan completamente el problema.

OpenAI evaluó, entre otros sistemas, GPT-5.5 y un modelo denominado GPT-Rosalind. Este último elevó la tasa general de aprobación exacta desde 25,7% hasta 36,1%. Los mayores avances aparecieron en comunicación científica y traducción, entendida esta última como el proceso de conectar resultados preclínicos con implicaciones clínicas.

En comunicación científica, GPT-Rosalind alcanzó una tasa de aprobación de 71,1%, frente a 56,3% de GPT-5.5. OpenAI advierte que esta categoría solo contiene nueve tareas, por lo que el resultado debe interpretarse con cautela.

En traducción científica, el desempeño aumentó desde 36,8% hasta 57,7%. En tareas que exigían respuestas útiles o accionables para especialistas, GPT-Rosalind obtuvo 44,7% del puntaje de rúbrica, frente a 29,1% de GPT-5.5.

El nuevo modelo también mejoró al manejar incertidumbre y advertencias científicas, con 44,8% del puntaje disponible frente a 29,3% de su antecesor.

Pese a estos avances, las tasas absolutas siguen siendo modestas. OpenAI reconoce que los modelos presentan dificultades en trabajos que dependen de archivos complejos, diseño experimental, análisis preciso y restricciones operativas. GPT-Rosalind aprobó 30,7% de las tareas de diseño, optimización y predicción, y 30,3% de las tareas de análisis. La diferencia se vuelve más clara al comparar tipos de entrada. Su tasa de aprobación fue de 45,1% en ejercicios basados únicamente en texto, pero cayó a 28,1% cuando debía utilizar archivos o enlaces. En GPT-5.5, el descenso fue desde 29,9% hasta 21,9%. OpenAI atribuye parte de esta brecha a problemas para extraer información de figuras complejas o grandes archivos de secuencias e integrarla correctamente en una decisión científica.

Las tareas que exigían respuestas exactas resultaron todavía más difíciles. GPT-Rosalind aprobó 14,8% de los ejercicios numéricos y 24% de aquellos que requerían producir secuencias o estructuras. En generación de constructos alcanzó 27,3%, con poca mejora respecto de GPT-5.5.

Estas fallas son relevantes porque algunos flujos científicos requieren resultados suficientemente precisos para utilizarse directamente, como el diseño de secuencias para edición genética o moléculas de ARN interferente.

En aproximadamente 14% de las tareas, los modelos obtuvieron una proporción importante del puntaje de rúbrica, pero no alcanzaron el umbral de aprobación. Esto indica que podían identificar evidencia relevante o producir una respuesta parcialmente correcta, mientras omitían una restricción, realizaban un cálculo incompleto o no llegaban a una decisión científicamente útil.

OpenAI subraya que LifeSciBench no mide directamente si la IA acelera descubrimientos o mejora los resultados de investigación y desarrollo. El benchmark evalúa capacidades en tareas autocontenidas, mientras la investigación real es iterativa y depende de nuevos experimentos, revisión de hipótesis y seguimiento a largo plazo.

La siguiente etapa será relacionar el desempeño de los modelos con estudios realizados en entornos científicos reales. Esto permitirá evaluar si las capacidades observadas se traducen efectivamente en investigación más rápida o mejores decisiones de I+D.

📬 Newsletter gratuito

Lo más relevante de tecnología y negocios digitales en español — cada día, en cinco minutos.

Un nuevo benchmark mide si la IA puede apoyar decisiones científicas complejas

Últimos artículos

IAM tradicional no cubre identidades de APIs, contenedores y cargas automatizadas

Estudio de WTW detecta brecha entre el avance de la IA y la preparación de los empleados

El 84,5% de las decisiones empresariales complejas se toma con experiencia o Excel

Microsoft lanza Copilot Cowork con disponibilidad general mundial

Estudio: 61% de líderes chilenos alinea la IA con el propósito empresarial

Empresas mexicanas alcanzan 47% de madurez digital en 2026