Google DeepMind ha lanzado el modelo Gemini 2.5 Computer Use, una versión especializada de Gemini 2.5 Pro diseñada para que agentes de IA interactúen directamente con interfaces de usuario (UI) como páginas web y aplicaciones móviles.
🛠️ Capacidades técnicas e interacción con interfaces
Este modelo permite a los agentes clics, tipeos, desplazamientos e incluso completar y enviar formularios automáticamente, como si fueran usuarios humanos la interfaz.
Las entradas para el modelo son: la petición del usuario, una captura de pantalla del entorno UI, y un historial de acciones recientes. A cambio, el modelo propone acciones como función que el cliente ejecuta, luego la aplicación envía una nueva captura al modelo, y así continúa el ciclo.
Se optimizó para control de navegadores web, pero también tiene buenos resultados en UIs móviles (aún no está optimizado para sistemas operativos de escritorio).
📊 Rendimiento y comparativa
El modelo supera a alternativas líderes en múltiples benchmarks de control web y móvil, logrando latencias más bajas con alta precisión.
En pruebas internas y externas (por ejemplo usando Browserbase), Gemini 2.5 Computer Use ocupa las mejores posiciones en calidad de control de navegador con latencias inferiores frente a modelos competidores.
🔐 Enfoque en seguridad
Dado que agentes que controlan interfaces presentan riesgos únicos (uso malintencionado, comportamiento inesperado, inyección de comandos), Google incorporó guardas de seguridad al modelo.
Se implementa un servicio de seguridad “por paso”, que analiza cada acción propuesta antes de ejecutarla. También los desarrolladores pueden configurar reglas que requieran confirmación del usuario para acciones críticas como compras o modificaciones delicadas.
🚀 Casos de uso y disponibilidad
Algunos usos iniciales internos ya incluyen pruebas de interfaz (UI testing), acelerando el desarrollo de software.
El modelo está disponible en vista previa mediante la API Gemini, accesible desde Google AI Studio y Vertex AI.
También se usan versiones de este modelo en proyectos como Project Mariner, agentes de prueba en Firebase y funciones dentro del modo IA en búsquedas.