Microsoft anunció el lanzamiento de OmniParser V2, una nueva herramienta que permite que cualquier modelo de lenguaje grande (LLM) actúe como un agente capaz de controlar la computadora con Windows y el navegador del usuario. Esto quiere decir que la persona simplemente describe lo que quiere en un prompt y el asistente virtual ejecuta la tarea.

Cómo funciona OmniParser

OmniParser «tokeniza» capturas de pantalla de la interfaz del usuario, transformando los píxeles en elementos estructurados que pueden ser interpretados por los LLMs. Es decir, analiza la pantalla y convierte imágenes de la interfaz en datos estructurados, lo que permite que los modelos de lenguaje predigan la siguiente acción con base en la recuperación de elementos interactivos previamente identificados.

Según estudios de Microsoft, la versión 2 de OmniParser (V2) alcanza mayor precisión en la detección de pequeños elementos interactivos en la pantalla en comparación con su versión anterior, además de ofrecer una inferencia más rápida. Gracias a esto, la herramienta se convierte en una opción potente para la automatización de interfaces gráficas de usuario (GUI).

Ejemplos de uso de OmniParser V2

En demostraciones publicadas por Microsoft, se puede ver al agente de IA utilizando el navegador para:

  • Comprar leche en línea.
  • Clonar un repositorio de GitHub desde el navegador.
  • Verificar el espacio disponible en disco.
  • Revisar actualizaciones de Windows.

Para mejorar su desempeño, el OmniParser V2 ha sido entrenado con un conjunto más amplio de datos, optimizado para detectar elementos interactivos y generar descripciones funcionales de iconos. Al reducir el tamaño del modelo de generación de etiquetas de iconos, se logró disminuir la latencia en un 60% respecto a la versión anterior.

La combinación de OmniParser con GPT-4o alcanzó una precisión media de 39,6 en el nuevo benchmark de anclaje ScreenSpot Pro, diseñado para evaluar pantallas de alta resolución con iconos diminutos. Esta cifra representa una mejora significativa en comparación con la puntuación original de GPT-4o, que era de apenas 0,8.

Compatibilidad con otros modelos de IA

OmniParser es compatible con múltiples modelos de lenguaje, entre ellos:

  • OpenAI (GPT-4o, GPT-o1, GPT-o3-mini)
  • DeepSeek (R1)
  • Qwen (2.5VL)
  • Anthropic (Sonnet)

Estos modelos pueden aprovechar OmniParser para realizar tareas que combinan la comprensión de pantalla, el anclaje de elementos, la planificación de acciones y su ejecución automatizada.

Mitigación de riesgos

Para reducir riesgos, Microsoft entrenó el modelo de generación de etiquetas de iconos con datos basados en principios de IA Responsable. Esto ayuda a evitar que el modelo infiera atributos sensibles de personas (como raza o religión) en caso de que aparezcan en imágenes de iconos. 

Además, la empresa recomienda que los usuarios apliquen OmniParserV2 solo en capturas de pantalla que no contengan contenido perjudicial y sugiere la supervisión humana para mitigar riesgos.

Disponibilidad

Microsoft puso a disposición OmniParser V2 de forma pública en GitHub, junto con un informe sobre su procedimiento de entrenamiento. Con esto, busca incentivar la investigación sobre la creación de agentes de IA que puedan operar en diferentes aplicaciones y entornos.

La imagen de arriba fue creada por Mobile Time con inteligencia artficial.

 

***************************

¡Reciba gratuitamente el boletín de Mobile Time Latinoamérica y manténgase bien informado sobre tecnología móvil y negocios! Regístrese aquí.