MIT araştırmacıları, robotların engellerin arkasındaki nesneleri bulmasını ve onlara müdahale etmesini sağlayan teknikler üzerinde on yılı aşkın süredir çalışıyor. Bu yöntemler, gizli eşyalardan yansıyan ve yüzeylerin içine işleyen kablosuz sinyalleri kullanıyor.
Araştırmacılar, önceki yaklaşımların hassasiyetini kısıtlayan ve uzun süredir aşılamayan engeli ortadan kaldırmak için üretken YZ modellerinden yararlanıyor. Ortaya çıkan yeni yöntem, daha doğru şekil rekonstrüksiyonları üreterek bir robotun görüş alanı dışındaki nesneleri güvenle kavrama kabiliyetini artırıyor.
Bu yeni teknik, yansıyan kablosuz sinyallerden gizli bir nesnenin parçalı görüntüsünü oluşturuyor ve eksik kısımları özel olarak eğitilmiş bir üretken YZ modeliyle tamamlıyor.
Araştırmacılar ayrıca, tüm mobilyalar dahil olmak üzere tüm bir odayı doğru şekilde yeniden inşa etmek için üretken YZ kullanan genişletilmiş bir sistem tanıttı. Sistem, sabit bir radardan gönderilen ve alandaki hareketli insanlardan yansıyan kablosuz sinyallerden faydalanıyor.
Söz konusu sistem, çevreyi taramak için mobil bir robota monte edilen kablosuz sensör gereksinimini ortadan kaldırarak mevcut yöntemlerin temel bir zorluğunu aşıyor. Yaygın kamera tabanlı tekniklerin aksine, bu yöntem ortamdaki insanların gizliliğini koruyor.
Bahsi geçen yenilikler, depo robotlarının gönderim öncesinde paketlenmiş ürünleri doğrulamasını sağlayarak hatalı ürün iadelerini engelleyebilir. Ayrıca akıllı ev robotlarının bir kişinin odadaki konumunu anlamasına izin vererek insan-robot etkileşiminin güvenliğini ve verimliliğini artırabilir.
“Şu an yaptığımız şey, kablosuz yansımaları anlamamıza yardımcı olan üretken YZ modelleri geliştirmek. Bu durum pek çok ilginç yeni uygulamanın önünü açıyor; ancak teknik açıdan da, daha önce göremediğimiz boşlukları doldurabilmekten yansımaları yorumlayıp tüm sahneleri yeniden inşa edebilmeye kadar uzanan niteliksel bir yetenek sıçraması anlamına geliyor,” diyor Department of Electrical Engineering and Computer Science bünyesinde doçent ve MIT Media Lab bünyesindeki Signal Kinetics grubu direktörü Fadel Adib. “Kablosuz görüşün kilidini sonunda YZ kullanarak açıyoruz.”
Fadel Adib’e ilk makalede başyazar Laura Dodds ve araştırmacı asistanlar Maisy Lam, Waleed Akbar ile Yibo Cheng eşlik ediyor. İkinci makalede ise başyazar Kaichen Zhou, Dodds ve Sayed Saad Afzal yer alıyor. Her iki çalışma da IEEE Conference on Computer Vision and Pattern Recognition etkinliğinde sunulacak.
Aynasal Yansımayı Aşmak
Adib Group daha önce, bir yığının altına gömülmüş kayıp bir cüzdan gibi görüş alanı dışındaki 3D nesnelerin doğru rekonstrüksiyonlarını oluşturmak için milimetre dalga (mmWave) sinyallerinin kullanımını sergiledi.
Wi-Fi ile benzer türde olan bu dalgalar alçıpan, plastik ve karton gibi yaygın engellerin içinden geçebiliyor ve gizli nesnelerden yansıyor ancak mmWave sinyalleri genellikle aynasal (specular) şekilde yansıyor; yani bir dalga bir yüzeye çarptıktan sonra tek bir yöne gidiyor. Bu yüzden yüzeyin büyük bölümleri sinyalleri sensörden uzaklaştırıyor ve bu alanları etkili bir şekilde görünmez kılıyor.
İlk makalenin başyazarı Laura Dodds, “Bir nesneyi yeniden inşa etmek istediğimizde sadece üst yüzeyi görebiliyoruz; altını veya yanlarını göremiyoruz.” diye açıklıyor.
Araştırmacılar daha önce yansıyan sinyalleri yorumlamak için fizik prensiplerini kullandı ancak bu durum 3D şekil doğruluğunu kısıtlıyor. Yeni makalelerde, parçalı bir görüntüdeki eksik kısımları tamamlamak için bir üretken YZ modeli kullanarak bu sınırlamayı aştılar.
Başyazar Fadel Adib, “Asıl zorluk şuna dönüşüyor: Bu modelleri boşlukları dolduracak şekilde nasıl eğiteceksiniz?” diyor.
Genellikle araştırmacılar Claude ve Llama gibi modelleri eğitmek için devasa veri setleri kullanıyor fakat eğitim için yeterince büyük mmWave veri seti bulunmuyor. Bunun yerine araştırmacılar, geniş bilgisayarlı görü veri setlerindeki görüntüleri mmWave yansımalarının özelliklerini taklit edecek şekilde uyarladı.
İlk makalede görev alan araştırmacı asistanı Lam, “Aynasal yansıma özelliğini ve bu yansımalardan aldığımız gürültüyü simüle ettik; böylece mevcut veri setlerini kendi alanımıza uygulayabildik. Bunu yapmak için yeterli yeni veriyi toplamak yıllarımızı alırdı.” diyor.
Araştırmacılar, mmWave yansımalarının fiziğini doğrudan bu uyarlanmış verilere yerleştirerek sentetik bir veri seti oluşturdu. Wave-Former adı verilen sistem, potansiyel nesne yüzeylerini öneriyor, şekli tamamlaması için üretken YZ modeline besliyor ve tam bir rekonstrüksiyon elde edene kadar yüzeyleri iyileştiriyor.
Wave-Former; teneke kutu, kutu, mutfak gereçleri ve meyve gibi yaklaşık 70 günlük nesnenin aslına uygun görüntülerini üreterek doğruluğu mevcut yöntemlere göre %20 artırdı. Nesneler karton, ahşap, alçıpan, plastik ve kumaş gibi malzemelerin arkasına veya altına gizlendi.
“Hayalet” Sinyalleri Görmek
Ekip aynı yaklaşımı, bir odada hareket eden insanlardan seken mmWave yansımalarından yararlanarak iç mekan sahnelerini tamamen inşa eden genişletilmiş bir sistem kurmak için kullandı.
İnsan hareketi çok yollu yansımalar üretiyor. Dodds, bazı milimetre dalgaların insandan sektiğini, sonra bir duvara veya nesneye çarpıp tekrar sensöre ulaştığını açıklıyor.
Bu ikincil yansımalar, insan hareket ettikçe yer değiştiren ve hayalet sinyaller olarak adlandırılan kopya sinyaller oluşturuyor. Genellikle gürültü olarak görülüp atılan söz konusu sinyaller aslında odanın düzeni hakkında bilgi taşıyor.
Dodds, “Bu yansımaların zaman içindeki değişimini analiz ederek çevremiz hakkında kaba bir anlayış edinmeye başlayabiliriz ancak bu sinyalleri doğrudan yorumlamaya çalışmak doğruluk ve çözünürlük açısından sınırlı kalacaktır.” diyor.
Üretken YZ modeline bu kaba sahneleri yorumlamayı ve çok yollu yansımaların davranışını anlamayı öğrettiler. Söz konusu model boşlukları doldurarak sahne tamamlanana kadar ilk rekonstrüksiyonu iyileştiriyor.
RISE adı verilen sahne rekonstrüksiyon sistemini, tek bir mmWave radarı tarafından yakalanan 100’den fazla insan yörüngesini kullanarak test ettiler. RISE, ortalamada mevcut tekniklerden yaklaşık iki kat daha hassas sonuçlar üretti.
Gelecekte araştırmacılar, rekonstrüksiyonlardaki detay seviyesini artırmayı hedefliyor. Ayrıca dil ve görme alanındaki GPT, Claude ve Gemini gibi, kablosuz sinyaller için büyük temel modeller inşa etmek istiyorlar.
Bu çalışma kısmen, National Science Foundation (NSF), MIT Media Lab ve Amazon tarafından destekleniyor.
Kaynak: https://news.mit.edu/2026/generative-ai-improves-wireless-vision-system-sees-through-obstructions-0319
