Diario TI

Gemini 3.5 Flash suma capacidad nativa de uso de PC para automatización empresarial

La función permite a desarrolladores crear agentes capaces de ver, razonar y actuar en entornos de navegador, móviles y de escritorio, con controles de seguridad para acciones sensibles y riesgos de prompt injection.

Google anunció que Gemini 3.5 Flash incorpora de forma nativa la capacidad de “computer use”, es decir, el uso de interfaces de computador por parte de agentes de IA. Según una publicación de Mateo Quiros, Product Manager de Google DeepMind, publicada el 24 de junio de 2026 en el blog de Google, esta función ya está disponible para desarrolladores y empresas a través de Gemini API y Gemini Enterprise Agent Platform.

La capacidad estaba disponible previamente como un modelo independiente, Gemini 2.5 computer use. Con el cambio anunciado, Google la integra directamente en Gemini 3.5 Flash, dentro de su modelo principal de la familia Flash.

La compañía sostiene que esta integración permite crear agentes personalizados capaces de observar una interfaz, razonar sobre lo que ocurre y ejecutar acciones en entornos de navegador, móviles y de escritorio. Google menciona como casos de uso la automatización de tareas de largo alcance, pruebas continuas de software y trabajo de conocimiento en aplicaciones profesionales.

En el artículo, Google afirma que Gemini ya tenía capacidades destacadas de llamada a funciones y uso de herramientas integradas, como Search y Maps grounding. La novedad es que el uso de computador pasa a formar parte de Gemini 3.5 Flash como herramienta incorporada, lo que busca facilitar la construcción de agentes que interactúan con plataformas diversas.

Google incluye ejemplos orientados a tareas concretas. Uno de ellos muestra a Gemini 3.5 Flash analizando la aplicación Gemini para devolver una lista categorizada de funciones. Otro ejemplo describe al modelo auditando su propia documentación para detectar problemas de accesibilidad.

Google también aborda los riesgos asociados a agentes que operan en entornos reales. Para mitigar algunos riesgos de prompt injection, la compañía señala que utiliza entrenamiento adversarial dirigido específicamente al uso de computador en Gemini 3.5 Flash.

Además, Google anuncia dos sistemas opcionales de salvaguarda para empresas. El primero permite exigir confirmación explícita del usuario antes de ejecutar acciones sensibles o irreversibles. El segundo puede detener automáticamente una tarea si identifica una prompt injection indirecta.

La compañía recomienda aplicar estas funciones como parte de una defensa en profundidad. En ese marco, sugiere combinarlas con sandboxing seguro, verificación humana y controles estrictos de acceso. Google remite a documentación de mejores prácticas para ampliar esas medidas.

El anuncio también incluye referencias a clientes y socios que ya estarían utilizando la capacidad de uso de computador, entre ellos Browserbase, Browser Use y UiPath. La empresa presenta esos testimonios como ejemplos de adopción, aunque no entrega métricas independientes sobre resultados en producción.

Para comenzar a probar la función, Google indica que los desarrolladores pueden usar una demo alojada por Browserbase, revisar una implementación de referencia publicada en GitHub o acceder a la documentación de Gemini API y Gemini Enterprise Agent Platform.

📬 Newsletter gratuito

Últimos artículos