Diario TI

GeneBench-Pro: el nuevo test de OpenAI para medir el razonamiento científico de la IA

OpenAI presentó GeneBench-Pro, un benchmark de nivel investigación diseñado para medir cómo los agentes de IA enfrentan ambigüedad, datos imperfectos y decisiones analíticas en biología computacional.

OpenAI presentó GeneBench-Pro, un benchmark de nivel investigación orientado a evaluar si los modelos de IA pueden realizar análisis complejos en biología computacional, especialmente cuando deben tomar decisiones bajo ambigüedad.

Según un artículo de OpenAI publicado el 30 de junio de 2026 GeneBench-Pro busca medir capacidades que van más allá de recordar conocimiento o seguir un flujo de trabajo predefinido. La prueba se centra en lo que la empresa denomina “research taste”, es decir, cadenas de juicio analítico sobre qué preguntas puede respaldar un conjunto de datos, cómo interpretar diagnósticos iniciales y cuándo revisar una estrategia de análisis.

El benchmark incluye 129 preguntas distribuidas en 10 dominios y 21 subdominios de biología computacional. Entre ellos figuran genética estadística, genética poblacional, genética cuantitativa, ómicas regulatorias, genómica funcional, proteómica, farmacogenómica, diagnóstico clínico, genómica del cáncer, genómica microbiana y genética forense.

Cada problema entrega al modelo un conjunto de datos realista y desordenado, contexto experimental breve y un objetivo analítico vinculado a una decisión posterior. Para responder correctamente, el agente debe explorar los datos, elegir un enfoque adecuado, iterar sobre el análisis y entregar una respuesta final.

OpenAI sostiene que los problemas fueron construidos sintéticamente para evitar fallas habituales en benchmarks de largo horizonte. Al controlar la estructura causal y el proceso de generación de datos, la empresa afirma que puede evaluar respuestas de forma determinística y comprobar que los análisis incorrectos fallen aunque parezcan plausibles.

La compañía también indica que 82 de las 129 preguntas fueron revisadas por expertos externos, incluyendo estudiantes de posgrado, investigadores posdoctorales, científicos de la industria y profesores. Los revisores evaluaron realismo, identificabilidad del objetivo y adecuación de métodos y estimadores.

En la evaluación, los agentes reciben un entorno aislado con archivos de datos, un prompt breve y herramientas estándar de bioinformática y computación científica, incluyendo Python, bibliotecas científicas y paquetes como PLINK 2.0. OpenAI señala que 10 preguntas representativas serán publicadas en Hugging Face y que un subconjunto de 50 preguntas será entregado a Artificial Analysis para evaluación independiente futura.

En resultados, OpenAI afirma que GPT-5.6 Sol alcanza una tasa de aprobación de 28,7% en el nivel más alto de razonamiento, y 31,5% con modo Pro. La empresa compara ese resultado con el periodo en que comenzó a construir GeneBench original, cuando su mejor modelo de frontera, GPT-5, obtenía menos de 5%.

OpenAI también sostiene que el escalamiento del cómputo en tiempo de prueba tiene un efecto importante. En el nivel más bajo de razonamiento, GPT-5.6 Sol obtiene una tasa de aprobación de un solo dígito; en el nivel más alto, resuelve casi seis veces más preguntas que GPT-5.2 usando alrededor de dos tercios de los tokens.

La publicación plantea que los modelos GPT se ubican entre los sistemas más fuertes en razonamiento científico de alto nivel bajo incertidumbre cuantitativa. También afirma que la brecha frente a modelos abiertos como GLM 5.2 es mayor de lo que se esperaría extrapolando desde benchmarks de programación, lo que para OpenAI sugiere que algunos modelos abiertos están más especializados en código que en razonamiento más amplio.

Pese a esos avances, OpenAI subraya que los modelos actuales aún resuelven menos de un tercio de los problemas. La empresa señala que los agentes pueden avanzar parcialmente en tareas difíciles, pero siguen teniendo problemas para cerrar el ciclo inferencial: integrar observaciones, diagnosticar artefactos, revisar supuestos y llegar a conclusiones robustas.

La compañía estima, a partir de encuestas a revisores, que un problema típico de GeneBench-Pro podría tomar entre 20 y 40 horas a un experto humano. Con una referencia conservadora de 200 dólares por hora, OpenAI ubica el costo humano por problema en miles de dólares, mientras que el costo de inferencia estaría en varios dólares. La fuente presenta esta comparación como una estimación propia y no como un análisis económico independiente.

OpenAI concluye que los agentes actuales no son suficientemente fiables para sustituir expertos, pero sostiene que incluso la automatización parcial podría tener valor científico y económico. La empresa vincula ese potencial con el descenso de los costos de secuenciación, el crecimiento de biobancos y la necesidad de convertir datos moleculares, fenotípicos y clínicos en conocimiento accionable.

📬 Newsletter gratuito

Últimos artículos