Microsoft OmniParser V2'yi Piyasaya Sürdü: Chatbotları Bilgisayar Kullanan Bir Ajana Dönüştüren YZ Aracı!

Microsoft, büyük dil modellerinin (LLM’ler) grafiksel kullanıcı arayüzü (GUI) ile daha akıllı ve hızlı etkileşim kurmasını sağlayan OmniParser V2’yi tanıttı. Bu yeni teknoloji, yapay zekanın ekranları anlamlandırarak etkileşimli öğeleri tespit etmesini ve doğru eylemi belirlemesini sağlıyor. Önceki sürüme göre %60 daha düşük gecikme süresi sunan OmniParser V2, farklı yapay zeka modellerini destekleyerek daha esnek bir kullanım sunuyor.

OmniParser V2: Yapay Zekanın Ekranları Okuma Yeteneğini Güçlendiriyor

LLM tabanlı yapay zeka sistemleri, bir bilgisayar arayüzünde etkili bir şekilde çalışabilmek için ekran üzerindeki bileşenleri algılayabilmeli ve uygun aksiyonları gerçekleştirebilmelidir. Ancak standart LLM’ler için ikonları, butonları ve diğer etkileşimli unsurları doğru tespit etmek ve yorumlamak büyük bir zorluktur.

OmniParser V2, bu sorunu ekran görüntülerini sadece piksellerden ibaret olmaktan çıkararak, yapay zekanın okuyup anlayabileceği yapısal verilere dönüştürerek çözüyor. Böylelikle chatbotlar ve yapay zeka ajanları, kullanıcı arayüzündeki öğeleri daha doğru tespit edebilir ve uygun işlemleri gerçekleştirebilir.

Yeni sürümdeki geliştirmeler:
✅ Küçük ve ayrıntılı öğeleri daha hassas tespit edebilme
✅ İşleme süresini önemli ölçüde azaltma
✅ Genişletilmiş eğitim veri seti sayesinde daha yüksek doğruluk
✅ İkon açıklama modelinin boyutunun küçültülmesiyle %60 daha düşük gecikme süresi

Özellikle GPT-4o ile birlikte kullanıldığında, OmniParser V2 ScreenSpot Pro benchmark’ında 39.6 puan alarak GPT-4o’nun tek başına aldığı 0.8 puanı önemli ölçüde aşmayı başardı.

OmniTool: Yapay Zeka Destekli Grafiksel Arayüz Otomasyonu İçin Yeni Ortam

OmniParser V2’nin farklı yapay zeka modelleriyle entegre edilmesini kolaylaştırmak için Windows için Docker tabanlı kapsayıcı ortamı olan OmniTool geliştirildi. OmniTool, ekran algılama, öğe keşfi, eylem planlaması ve yürütme süreçlerini hızlandıran özel araçlar içeriyor.

OmniTool, aşağıdaki en yeni yapay zeka modelleriyle uyumlu çalışıyor:
-OpenAI (4o, o1, o3-mini)
-DeepSeek (R1)
-Qwen (2.5VL)
-Anthropic (Sonnet)

Sistem sayesinde geliştiriciler farklı model yapılandırmaları üzerinde deney yaparak en iyi sonuçları elde edebiliyor.

Güvenlik ve Risk Yönetimi

OmniParser V2, Microsoft’un Sorumlu Yapay Zeka İlkeleri ile uyumlu şekilde geliştirildi. İkon açıklama modeli, bireylerin hassas bilgilerinin yanlış yorumlanmasını önlemek için özel olarak eğitildi. Ayrıca, Microsoft Threat Modeling Tool gibi güvenlik yönergeleri ve tehdit analiz araçları kullanılarak teknolojinin güvenli ve kontrollü bir şekilde uygulanması sağlanıyor.

Microsoft, kullanıcıların yalnızca zararsız içerikler içeren ekran görüntüleri üzerinde çalışmasını tavsiye ediyor ve insan denetiminin süreçte yer almasını öneriyor.

OmniParser V2: Yapay Zekanın Bilgisayar Kullanma Yeteneğini Bir Üst Seviyeye Taşıyor

OmniParser V2, büyük dil modellerinin grafiksel arayüzlerle etkileşimini daha akıllı ve hızlı hale getirerek yapay zekanın bilgisayar ortamlarını yönetme becerisini ileriye taşıyor. Kullanıcı arayüzü yönetiminde devrim yaratan bu yeni nesil teknoloji, chatbotları gerçek birer bilgisayar ajanına dönüştürerek AI destekli otomasyonu çok daha verimli hale getiriyor. 





Kaynak: https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/

https://www.turtlesai.com/en/pages-2328/omniparser-v2-new-technology-for-intelligent-autom