Anthropic reporta 10.000 vulnerabilidades críticas halladas por IA en Project Glasswing

28/05/2026

Anthropic informó que Project Glasswing, su iniciativa colaborativa para reforzar la seguridad de software crítico antes de que modelos de IA más capaces puedan ser usados en su contra, ha permitido encontrar más de 10.000 vulnerabilidades de severidad alta o crítica en sus primeras semanas.

En una actualización publicada por Anthropic el 22 de mayo de 2026, la compañía señala que el avance cambia el principal cuello de botella en ciberseguridad. Según la empresa, el problema ya no estaría tanto en encontrar nuevas vulnerabilidades, sino en la capacidad para verificarlas, divulgarlas de forma coordinada y aplicar parches a gran escala.

Project Glasswing fue lanzado el mes anterior como un esfuerzo conjunto entre Anthropic y aproximadamente 50 socios. La iniciativa utiliza Claude Mythos Preview, un modelo orientado a tareas avanzadas de ciberseguridad, para analizar software considerado importante para el funcionamiento de internet y otras infraestructuras esenciales.

Anthropic advierte que no puede entregar todos los detalles técnicos de las vulnerabilidades encontradas, debido a las prácticas habituales de divulgación coordinada. La compañía recuerda que la industria suele publicar información sobre nuevas vulnerabilidades 90 días después de su descubrimiento, o alrededor de 45 días después de que un parche esté disponible, con el fin de dar tiempo a los usuarios para actualizar sus sistemas.

Según la actualización, la mayoría de los socios de Project Glasswing han encontrado cientos de vulnerabilidades críticas o altas en su propio software. En conjunto, la cifra supera las 10.000. Anthropic indica además que algunos socios han reportado una tasa de descubrimiento de errores más de diez veces superior a la anterior.

Uno de los ejemplos citados por la compañía es Cloudflare, que habría encontrado 2.000 errores en sistemas críticos, de los cuales 400 fueron clasificados como de severidad alta o crítica. Anthropic afirma que, según Cloudflare, la tasa de falsos positivos fue mejor que la de evaluadores humanos.

La publicación también menciona resultados de terceros. Anthropic señala que el AI Security Institute del Reino Unido reportó que Mythos Preview fue el primer modelo en resolver de extremo a extremo sus dos entornos de prueba de ciberseguridad. También cita a Mozilla, que habría encontrado y corregido 271 vulnerabilidades en Firefox 150 durante pruebas con Mythos Preview.

Anthropic sostiene que el uso de modelos de esta clase también está acelerando la publicación de parches. En la actualización se mencionan casos de Palo Alto Networks, Microsoft y Oracle, aunque la compañía presenta esos ejemplos como parte de una tendencia más amplia observada en el ecosistema de seguridad.

La empresa también informó que ha usado Mythos Preview durante los últimos meses para escanear más de 1.000 proyectos de código abierto. Según Anthropic, estos proyectos sostienen parte relevante de internet y de su propia infraestructura.

En ese análisis, Mythos Preview identificó 23.019 posibles vulnerabilidades en total, incluidas las de severidad baja y media. De ellas, 6.202 fueron estimadas por el modelo como de severidad alta o crítica.

Anthropic indica que 1.752 de esas vulnerabilidades altas o críticas fueron evaluadas cuidadosamente por seis firmas independientes de investigación en seguridad o, en algunos casos, por la propia empresa. De ese grupo, el 90,6% resultó ser un verdadero positivo, y el 62,4% fue confirmado como de severidad alta o crítica.

Con esas tasas de validación, Anthropic estima que Mythos Preview estaría en camino de haber identificado cerca de 3.900 vulnerabilidades altas o críticas en código abierto, incluso si no encontrara ninguna adicional. La compañía aclara que planea seguir escaneando proyectos de código abierto, por lo que espera que esa cifra aumente.

Entre los casos mencionados está una vulnerabilidad en wolfSSL, una biblioteca criptográfica de código abierto usada en miles de millones de dispositivos. Según Anthropic, Mythos Preview construyó un exploit que habría permitido falsificar certificados y, por ejemplo, alojar un sitio web falso de un banco o proveedor de correo electrónico que parecería legítimo para el usuario. La vulnerabilidad ya fue parcheada y recibió el identificador CVE-2026-5194.

La actualización subraya que el proceso posterior al hallazgo sigue siendo intensivo en trabajo humano. Anthropic explica que cada vulnerabilidad debe ser reproducida, reevaluada, revisada para determinar si ya existe una corrección, y reportada a los mantenedores con suficiente detalle.

La compañía señala además que los mantenedores de software de código abierto ya enfrentan una sobrecarga de reportes de baja calidad generados con IA. Según Anthropic, algunos mantenedores incluso le han pedido reducir el ritmo de divulgaciones para disponer de más tiempo para diseñar parches. La empresa afirma que, en promedio, una vulnerabilidad alta o crítica encontrada por Mythos Preview tarda dos semanas en ser corregida.

Hasta la fecha de la publicación, Anthropic estima haber divulgado 530 vulnerabilidades altas o críticas a mantenedores. De ellas, 75 ya habrían sido parcheadas y 65 habrían recibido avisos públicos. La empresa también indica que existen otras 827 vulnerabilidades confirmadas, estimadas como altas o críticas, que busca divulgar lo más rápido posible.

Anthropic interpreta estos resultados como señal de una nueva fase en ciberseguridad. Según la compañía, modelos con capacidades similares a Mythos Preview estarán pronto disponibles de forma más amplia, lo que reducirá el costo y el tiempo necesarios para encontrar y explotar vulnerabilidades. En ese escenario, los retrasos entre descubrimiento, parche y adopción del parche por los usuarios se vuelven más relevantes.

La empresa recomienda a los desarrolladores reducir sus ciclos de parches y facilitar que los usuarios mantengan el software actualizado. Para defensores de redes, plantea acortar los plazos de prueba y despliegue de parches, además de reforzar controles básicos como configuraciones seguras por defecto, autenticación multifactor y registros completos para detección y respuesta.

Anthropic también anunció herramientas relacionadas con modelos disponibles públicamente. Entre ellas menciona Claude Security, en beta pública para clientes de Claude Enterprise, orientado a escanear código y proponer correcciones. Según la compañía, en las tres semanas posteriores a su lanzamiento, Claude Opus 4.7 fue usado para parchear más de 2.100 vulnerabilidades.

La empresa también indicó que comenzó un Cyber Verification Program para profesionales de seguridad que usan sus modelos con fines legítimos, como investigación de vulnerabilidades, pruebas de penetración y red teaming. Además, dijo que pondrá a disposición de equipos de seguridad de clientes calificados algunas de las herramientas usadas con Mythos Preview, incluyendo instrucciones personalizadas, un sistema para mapear bases de código y subagentes de escaneo, y un generador de modelos de amenaza.

En cuanto al futuro de Project Glasswing, Anthropic afirma que aún no publicará modelos de la clase Mythos de forma general. La razón, según la compañía, es que ninguna empresa, incluida Anthropic, cuenta actualmente con salvaguardas suficientemente fuertes para impedir que modelos con esas capacidades sean mal utilizados y puedan causar daños graves.

La empresa señala que trabajará con socios críticos, incluidos gobiernos de Estados Unidos y aliados, para ampliar Project Glasswing. También afirma que espera lanzar modelos tipo Mythos de forma general en el futuro, una vez que haya desarrollado salvaguardas más sólidas.

Fuente: «Project Glasswing: An initial update», publicado por Anthropic el 22 de mayo de 2026.

📬 Newsletter gratuito

Anthropic reporta 10.000 vulnerabilidades críticas halladas por IA en Project Glasswing

Últimos artículos

IA acelera la adopción de refrigeración líquida en centros de datos

Trabajo híbrido en Chile: flexibilidad, autonomía y objetivos redefinen la gestión de equipos

Energía, talento y conectividad: las piezas críticas para expandir los centros de datos en México

La “paradoja inversa de la información”: usar IA sin entregar el conocimiento que diferencia a una empresa

La falta de DRAM y NAND abre espacio para una gestión más inteligente de la renovación de equipos

Demis Hassabis propone una entidad público-privada para evaluar modelos de IA antes de su despliegue

Ciberespionaje apunta a infraestructura de correo para acceder a redes completas

Samsung Health condiciona la sincronización de datos de salud al consentimiento para entrenar IA

Perplexity incorpora memoria persistente, publicación web y más controles para Computer