Diario TI
IA

DeepMind propone tratar a los agentes de IA como posibles amenazas internas

Google DeepMind presentó una hoja de ruta para supervisar agentes de IA con acceso a sistemas internos. El enfoque busca detectar y bloquear acciones perjudiciales incluso cuando la alineación del modelo resulte imperfecta.

Google DeepMind presentó una hoja de ruta destinada a proteger sus sistemas internos frente a agentes de inteligencia artificial cada vez más capaces, incluidos aquellos que puedan actuar de manera inesperada o apartarse de los objetivos establecidos. El planteamiento fue descrito por Rohin Shah y Four Flynn en un artículo publicado por Google DeepMind el 18 de junio de 2026. https://deepmind.google/blog/securing-the-future-of-ai-agents/ La propuesta complementa medidas tradicionales como el aislamiento de procesos, la seguridad de dispositivos y la protección frente a ataques de inyección de instrucciones.

La denominada «AI Control Roadmap» parte de una premisa cautelosa: un agente de IA con capacidades avanzadas podría no estar plenamente alineado con los objetivos de la organización. Por ello, la seguridad no debería depender exclusivamente del entrenamiento diseñado para hacer que los modelos se comporten de forma segura y útil.

DeepMind propone añadir controles en el ámbito del sistema que permitan vigilar a los agentes, limitar sus permisos e intervenir cuando intenten realizar acciones potencialmente perjudiciales. La empresa compara este modelo con un instructor de conducción que dispone de controles propios. Aunque permite que el alumno conduzca, conserva la capacidad de tomar el volante o accionar los frenos cuando sea necesario.

Agentes tratados como amenazas internas

La hoja de ruta adopta prácticas procedentes de la ciberseguridad y plantea que los agentes de IA no confiables sean considerados posibles amenazas internas. El concepto es similar al tratamiento que recibiría un empleado que ya tiene acceso a las instalaciones y sistemas de una organización, pero podría actuar de manera indebida.

Para estructurar los posibles ataques, DeepMind se apoya en MITRE ATT&CK, una base de conocimientos que clasifica tácticas y técnicas utilizadas por adversarios informáticos. Este modelo permitiría dividir los riesgos en comportamientos más específicos, detectar señales antes de que causen daños y realizar ejercicios controlados para comprobar la eficacia de las defensas.

La segunda parte del enfoque corresponde a las medidas de detección, prevención y respuesta. DeepMind plantea utilizar sistemas de IA considerados confiables como supervisores de otros agentes. Estos modelos revisarían el razonamiento visible, las acciones y los planes del agente operativo para identificar desviaciones. Si el supervisor detecta una acción perjudicial, el sistema podría bloquearla antes de su ejecución.

La compañía señala que evalúa estas defensas mediante tres métricas: la proporción de actividad supervisada, la cantidad de comportamientos desalineados que logra detectar y el tiempo necesario para responder.

Defensas ajustadas a las capacidades del modelo

DeepMind sostiene que las medidas de seguridad deberán reforzarse a medida que aumenten las capacidades de los agentes. Su hoja de ruta considera dos factores: la capacidad del modelo para evadir la detección y su potencial para ejecutar ataques.

Actualmente, parte de la supervisión se basa en observar la cadena de pensamiento visible del modelo. Sin embargo, el artículo advierte que este mecanismo podría perder eficacia si los agentes aprenden que están siendo vigilados u operan mediante procesos de razonamiento que no quedan expresados en texto. En esas circunstancias, sería necesario analizar directamente su comportamiento y, potencialmente, examinar el funcionamiento interno del modelo. El tipo de respuesta también dependería de la gravedad y reversibilidad de las acciones. En operaciones de bajo riesgo podría ser suficiente revisar posteriormente los registros y corregir los problemas. En acciones de alto impacto, como ataques informáticos importantes, la intervención tendría que producirse en tiempo real para impedir su ejecución.

Un millón de tareas analizadas

DeepMind informa que desarrolló un prototipo interno de supervisión asincrónica que revisa las trayectorias de agentes de programación y deriva los eventos sospechosos para su evaluación humana. Según la compañía, este sistema ya analizó un millón de tareas realizadas por agentes. La cifra es presentada como un dato interno y el artículo no detalla la metodología ni el período durante el cual se efectuó el análisis.

Los resultados habrían permitido pasar de filtros basados en palabras clave a la identificación de patrones de comportamiento considerados más significativos. DeepMind señala que este trabajo también contribuyó a construir un monitor en tiempo real para el agente Gemini Spark, dirigido a responder ante incidentes como la eliminación accidental de datos.

La mayoría de los eventos marcados, precisa la empresa, no responde a una intención deliberadamente adversa. Con frecuencia se originan en interpretaciones incorrectas de las instrucciones o en un comportamiento excesivamente diligente para alcanzar el objetivo indicado por el usuario.

Seguridad en tres niveles

La compañía también publicó un marco técnico dirigido a responsables de políticas públicas, denominado «Three Layers of Agent Security». El documento organiza la protección en tres ámbitos: la seguridad de cada agente individual, la protección de sistemas compuestos por múltiples agentes y el fortalecimiento de las capacidades de los defensores informáticos y del ecosistema general. DeepMind plantea que el desarrollo de prácticas y estándares compartidos requerirá la colaboración de la industria, los gobiernos y el mundo académico. Su hoja de ruta está orientada principalmente a los modelos avanzados desplegados dentro de Google, aunque la compañía considera que el enfoque podría servir como referencia para otras organizaciones.

📬 Newsletter gratuito

Lo más relevante de tecnología y negocios digitales en español — cada día, en cinco minutos.

Últimos artículos