Yapay Zeka
Thursday, August 1, 2024
Meta, görüntü ve video segmentasyonu için yeni bir temel model olan SAM 2’yi yayınladı. Şirket, modeli, kodu ve veri setini açık kaynaklı hale getiriyor.
Meta, Nisan 2023’te, önemli kalite iyileştirmeleri nedeniyle bilgisayarlı görüş için “GPT-3 anı” olarak kabul edilen, görüntü segmentasyonu için bir temel model olan “Her Şeyi Segmente Etme Modeli”ni (SAM) tanıttı.
Şimdi Meta, SAM 2 ile takip ediyor. SAM, 11 milyon görüntü üzerinde eğitilmiş ve görüntü segmentasyonu için optimize edilmişken, SAM 2 video verileri üzerinde eğitilmiş ve hem görüntüleri hem de videoyu segmente edebilir. Meta’ya göre, video segmentasyonu daha düşük kaliteli videolarda veya nesneler kısmen gizlendiğinde bile güvenilir bir şekilde çalışıyor.
SAM 2, bugüne kadarki en büyük kamuya açık video segmentasyon veri kümesi olan yeni SA-V (Herhangi Bir Videoyu Parçalara Ayır) veri kümesi üzerinde eğitildi. Meta, SA-V’nin 642.600 maske açıklamasına sahip 50.900 video içerdiğini ve 35,5 milyon ayrı maske içerdiğini söylüyor; önceki veri kümelerinden 53 kat daha fazla. Yaklaşık 200 saatlik açıklamalı videoyla SA-V, eğitim verileri için yeni bir ölçüt belirliyor.
İki SAM sistemi veri setinin oluşturulmasına yardımcı oldu: Meta, “Döngüdeki SAM modeli” sayesinde videoları diğer sistemlerden 8,4 kata kadar daha hızlı etiketleyebilen, insan açıklayıcılara sahip bir “Veri Motoru” açıklama sistemi kullandı. Açıklayıcılar, video bölümlerini etiketlemek için SAM 2’yi etkileşimli olarak kullandı ve yeni veriler SAM 2’yi güncellemek için kullanıldı.
Mimari olarak SAM 2, Transformer tabanlı öncülüne dayanıyor. Yeni bir özellik, nesneler ve önceki etkileşimler hakkında bilgileri video kareleri boyunca depolayan bir bellek modülü. Bu, SAM 2’nin nesneleri daha uzun diziler boyunca izlemesini ve kullanıcı girdisine yanıt vermesini sağlar. Görüntülere uygulandığında, bellek boş ve model SAM gibi davranıyor.
Deneylerde, SAM 2 önceki yaklaşımlara kıyasla üç kat daha az etkileşimle daha iyi segmentasyon doğruluğu gösterdi. Meta, yeni modelin yerleşik video nesne segmentasyonu kıyaslamalarında mevcut en son teknolojiyi geride bıraktığını söylüyor. SAM 2 ayrıca görüntü segmentasyonunda orijinal SAM modelinden altı kat daha hızlı daha iyi sonuçlar elde etti.
Meta’ya göre SAM 2, cinsiyetler arasında minimum dalgalanmalarla cilt rengi ve yaş açısından sağlam olmalı. Çıkarım hızı saniyede 44 karedir ve gerçek zamanlı performansa yaklaşıyor.
SAM 2 mükemmel değil. Sahne kesmelerinden veya uzun kapanmalardan sonra nesneleri kaybetme, çok ince ayrıntıları ayırma ve benzer, hareket eden nesnelerden oluşan gruplar içinde tek tek nesneleri izleme konusunda zorluk çekebilir. Araştırmacılar, hareketin açık bir şekilde modellenmesinin bu sorunu çözmeye yardımcı olabileceğini belirtiyor.
Araştırmacılar, SAM 2’yi makine görüşünde önemli bir ilerleme olarak görüyor ve robotların gerçek dünyayla daha güvenilir bir şekilde hareket edebilmesi ve etkileşim kurabilmesi veya üretken yapay zeka video modellerinde video efektlerinin etkinleştirilmesi gibi daha fazla araştırma ve uygulamaya öncülük edebileceğini düşünüyor.