1. Anasayfa
  2. Teknoloji

Robotlar Konuşmayı Taklit Etmiyor, Öğreniyor

Robotlar Konuşmayı Taklit Etmiyor, Öğreniyor
0

Yüz yüze iletişim esnasında dikkatin önemli bir bölümü dudak hareketlerine yönelir. Buna rağmen robotlar, dudaklarını doğru biçimde hareket ettirmekte hâlâ zorlanıyor. En gelişmiş insansı robotlar bile bir yüz tasarımına sahip olsalar dahi, kukla benzeri ağız hareketlerinin ötesine geçemiyor.

İnsanlar, genel olarak yüz hareketlerine ve özellikle dudak devinimlerine büyük önem veriyor. Garip bir yürüyüş ya da beceriksiz bir el hareketi çoğu zaman tolere edilebiliyor ancak en küçük bir hatalı yüz ifadesi bile rahatsız edici bulunuyor. Tekinsiz Vadi (Uncanny Valley) olarak bilinen algısal eşik, robotların dudakları doğal şekilde hareket etmediğinde cansız hatta ürkütücü görünmesine yol açıyor fakat bu tablo değişmek üzere.

Columbia Engineering ekibi, ilk kez konuşma ve şarkı söyleme gibi görevler için dudak hareketlerini öğrenebilen bir robot geliştirdiklerini duyurdu. Science Robotics dergisinde yayımlanan çalışmada araştırmacılar; robotun farklı dillerdeki kelimeleri telaffuz ederken yeteneklerini nasıl kullandığını ve yapay zeka tarafından üretilen ilk albüm olan “hello world_” içindeki bir şarkıyı nasıl seslendirdiğini gösterdi.

Robot, kurallar yerine gözleme dayalı öğrenme sayesinde söz konusu yeteneği kazandı. Önce aynadaki yansımasını izleyerek 26 yüz motorunu nasıl kullanacağını öğrendi, ardından saatlerce YouTube videosu izleyerek insan dudak hareketlerini taklit etti.

James ve Sally Scapa İnovasyon Profesörü ve Columbia Yaratıcı Makineler Laboratuvarı Direktörü Hod Lipson, “İnsanlarla ne kadar fazla etkileşime girerse, o kadar iyi hale gelecek.” değerlendirmesinde bulundu.

Robot Kendisini Konuşurken İzliyor

Gerçekçi dudak hareketleri elde etmek iki nedenle zorlayıcıdır. İlki, çok sayıda küçük motor tarafından kontrol edilen, hızlı ve sessiz çalışan esnek bir yüz derisi gerektirmesidir. İkincisi ise dudak dinamiğinin, ses dizileri ve fonemler tarafından belirlenen karmaşık bir yapıya sahip olmasıdır.

İnsan yüzleri, yumuşak derinin hemen altında yer alan ve ses üretimiyle doğal biçimde eşgüdüm içinde çalışan onlarca kasla hareket eder. Buna karşılık insansı robot yüzleri çoğunlukla serttir, sınırlı hareket kabiliyetine sahiptir ve dudak hareketleri önceden tanımlanmış katı kurallarla üretilir. Ortaya çıkan sonuç ise doğallıktan uzak ve tekinsiz bir görünüm olur.

Araştırmacılar, esnek bir yüz donanımı geliştirerek ve robotun yüzünü doğrudan insanları gözlemleyerek kullanmasını sağlayarak söz konusu engelleri aştı. Robotun kas aktivitesine yanıt olarak yüzünün nasıl hareket ettiğini öğrenmesi için 26 motorlu bir yüz aynanın önüne yerleştirildi. Aynada ilk kez yüzünü keşfeden bir çocuk gibi robot da binlerce rastgele yüz ifadesi ve dudak hareketi üretti. Zamanla belirli yüz görünümlerine ulaşmak için motorlarını nasıl kullanacağını öğrendi; Vision-to-Action (Görüntüden Eyleme) dil modeli (VLA), bu süreci ifade ediyor.

Ardından robot, konuşan ve şarkı söyleyen insanların video kayıtlarını izleyerek, farklı sesler bağlamında dudakların nasıl hareket ettiğini öğrenme fırsatı buldu. Yapay zeka sistemi artık sesi doğrudan dudak motoru hareketlerine dönüştürebiliyor.

Araştırmacılar, yeteneği farklı sesler, diller ve şarkılar üzerinde test etti. Ses kliplerinin anlamı hakkında özel bir bilgiye sahip olmasa bile robot, dudaklarını sesle senkronize biçimde hareket ettirmeyi başardı.

Araştırma ekibi, dudak hareketlerinin henüz kusursuz olmadığını kabul ediyor. Lipson, “’B’ gibi sert seslerde ve ‘W’ gibi dudak büzülmesi gerektiren seslerde zorlandık ancak yeteneklerin zamanla ve pratikle gelişmesini bekliyoruz.” dedi.

Robotik Dünyasında Kayıp Halka

Çalışmaya doktora aşamasında liderlik eden Yuhang Hu, dudak senkronizasyonunun konuşkan yapay zekalarla birleştiğinde robot-insan etkileşimini derinleştirdiğini belirtiyor. Robot, insanları konuşurken ne kadar çok gözlemlerse, duygusal bağ kurmayı sağlayan yüz hareketlerini taklit etme konusunda o kadar başarılı hale geliyor.

Araştırmacılar, yüzsel dışavurumun robotiğin uzun süredir eksik kalan unsurlarından biri olduğu görüşünde. Lipson, bugüne kadar insansı robotik çalışmalarının büyük ölçüde yürüme ve kavrama gibi motor becerilere odaklandığını, yüz ifadelerinin ise insan etkileşimi açısından aynı derecede kritik olduğunu vurguluyor.

Ekip, insansı robotların eğlence, eğitim, sağlık ve yaşlı bakımı gibi alanlarda yaygınlaşmasıyla birlikte sıcak ve gerçekçi yüzlerin giderek daha önemli hale geleceğini öngörüyor. Lipson, insansı robotların bir yüze sahip olacağı bir geleceğin kaçınılmaz olduğunu ve bu yüzlerin doğal biçimde hareket etmemesi durumunda robotların tekinsiz algılanmaya devam edeceğini ifade ediyor.

Riskler ve Sınırlar

Çalışma, robotların yüz ifadelerini katı kurallar yerine öğrenme yoluyla kazanması gerektiğini savunan uzun soluklu bir araştırma çizgisinin parçası olarak konumlanıyor. Lipson, bir robotun yalnızca izleyerek ve dinleyerek gülümsemeyi öğrenmesinin güçlü bir etki yarattığını söylüyor.

Araştırmacılar, robotların insanlarla daha güçlü bağlar kurmasını sağlayan teknolojilerin beraberinde etik riskler ve tartışmalar getirdiğinin de farkında. Lipson, ilerlemenin dikkatli ve kontrollü biçimde sürdürülmesi gerektiğini vurguluyor.

Kaynak: https://www.engineering.columbia.edu/about/news/robot-learns-lip-sync
Bu Yazıya Tepkiniz Ne Oldu?
  • 0
    be_endim
    Beğendim
  • 0
    alk_l_yorum
    Alkışlıyorum
  • 0
    e_lendim
    Eğlendim
  • 0
    d_nceliyim
    Düşünceliyim
  • 0
    _rendim
    İğrendim
  • 0
    sevdim
    Sevdim
  • 0
    _ok_k_zd_m
    Çok Kızdım

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir