Eski OpenAI Yöneticisi Mira Murati’nin Yeni Girişimi İlk Sesli Yapay Zeka Modelini Tanıttı

Nuvem tarafından

2 ay önce 177 kez okundu Okuma süresi: 4dk, 40sn

Eski OpenAI Yöneticisi Mira Murati’nin Yeni Girişimi İlk Sesli Yapay Zeka Modelini Tanıttı

Thinking Machines Lab, sesli YZ sistemlerini geleneksel soru-cevap kalıplarından kurtarmak için tasarlanan ilk modelinin araştırma önizlemesini yayımladı. Model; ses, video ve metni paralel olarak 200 milisaniyelik dilimlerle işliyor. Girişim, etkileşim kalitesi açısından OpenAI’ın GPT-Realtime-2 ve Google’ın Gemini Live modellerini geride bıraktığını iddia ediyor.

Şirket, “Interaction Models” adını verdiği bu yapının etkileşimi harici bir destek mekanizması yerine doğrudan bünyesinde yönettiğini söylüyor. Temel fikir, etkileşimin sadece sonradan eklenen bir özellik değil, zekayla birlikte ölçeklenmesi gereken bir unsur olması.

Mevcut Sesli YZ Sistemleri Hala Robotik Hissettiriyor

Bugünün GPT-Realtime veya Gemini Live gibi gerçek zamanlı sistemleri sesi sürekli alıyor ancak asıl dil modeli bu veriyi doğrudan görmüyor. Thinking Machines’e göre, modelin önünde ses etkinliği algılayıcı gibi ayrı bileşenlerden oluşan bir “düzenek” bulunuyor. Bu düzenek, konuşmacının sırasının ne zaman bittiğine karar veriyor. Ancak o zaman tamamlanan ifade modele aktarılıyor ve model bütün bir yanıt oluşturuyor. Model konuşurken algısı donuyor; konuşması bitene veya sözü kesilene kadar yeni bilgi almıyor.

Söz konusu bileşenler modelin kendisinden çok daha az zeki. Thinking Machines, bu durumun gerçek bir sohbeti tanımlayan davranışların çalışmasını engellediğini savunuyor. Örneğin; yanlış bir şey söylendiğinde araya girme, görsel ipuçlarına tepki verme veya canlı çeviri sırasında aynı anda konuşma gibi işlevler geleneksel sistemlerde yapılamıyor. Lab, Sutton’ın “Bitter Lesson”ına atıfta bulunarak, bu el yapımı sistemlerin zamanla genel yeteneklerin ilerlemesiyle geride kalacağını savunuyor. Şirketin yaklaşımı, benzer şekilde iç içe geçmiş bir düzende çalışan ancak zeka kriterlerinden ziyade gecikmeye odaklanan Moshi veya Nemotron VoiceChat gibi tam çift yönlü (full-duplex) modellere benziyor.

Yapay Sıra Sınırlarının Yerini 200 Milisaniyelik Bir Saat Alıyor

Mevcut mimarilerden asıl kopuş, ekibin “zaman hizalı mikro turlar” dediği sistemle gerçekleşiyor. Model, sürekli olarak 200 milisaniyelik girdiyi işliyor ve 200 milisaniyelik çıktı üretiyor. Girdi ve çıktı artık ardışık gerçekleşmiyor, aynı saat döngüsünü paylaşıyor.

Bu durum yapay sıra sınırlarını ortadan kaldırarak modelin sessiz kalmaya, araya girmeye veya kullanıcıyla aynı anda konuşmaya kendi başına karar vermesini sağlıyor. Veriler, büyük ve bağımsız kodlayıcılar yerine doğrudan transformere aktarılıyor. Böylelikle gecikme azalıyor ancak metin okuma gibi ince görsel ayrıntıları yakalama yeteneği de kısıtlanabiliyor. Gerçek zamanlı bir modelin her 200 milisaniyede bir yanıt vermesi gerektiği için aynı anda derinlemesine düşünmesi veya internette arama yapması zorlaşıyor. Thinking Machines, etkileşim modelini akıl yürütme ve araştırma gibi uzun süreli görevleri yürüten ikinci bir arka plan modeliyle eşleştirerek bu sorunu çözüyor.

Her iki model de aynı konuşma bağlamını paylaşıyor. Etkileşim modeli bir yandan sohbeti sürdürürken diğer yandan görevleri devrediyor. Arka plan modelinden gelen sonuçları, ani bir konu değişikliği yapmak yerine kullanıcının o anki eylemine uygun bir anda sohbete dahil ediyor. Hedef, hızlı bir modelin tepki hızıyla bir akıl yürütme modelinin derinliğini birleştirmek.

Karşılaştırmalı Testler Yaklaşımın İşe Yaradığını Gösteriyor

Modelin adı TML-Interaction-Small. Model, 276 milyar parametreli bir mixture-of-experts yapısı kullanıyor ve 12 milyar aktif parametreyle çalışıyor. Kullanıcı kesintileri, dinlediğini gösteren kısa tepkiler ve arka plan konuşması gibi senaryolarda etkileşim kalitesini ölçen FD-bench v1.5 testinde model, OpenAI’ın GPT-Realtime-2 ve Google’ın Gemini-3.1-flash-live modellerini belirgin biçimde geride bırakıyor. Yanıt gecikmesi 0,40 saniye olarak ölçülüyor. Bu süre GPT-Realtime-2 için minimum 1,18 saniye, Gemini için ise 0,57 saniye.

Zeka ve talimat takibini ölçen Audio MultiChallenge testlerinde model %43,4 puan topluyor; bu sonuç rakiplerinin hızlı sürümlerini geride bıraksa da %48,5 puan alan GPT-Realtime-2’nin “xhigh” düşünme modunun gerisinde kalıyor. Şirket, zaman farkındalığı (TimeSpeak, CueSpeak) ve görsel proaktiflik (RepCount-A, ProactiveVideoQA, Charades) testlerinde mevcut hiçbir modelin anlamlı bir başarı gösteremediğini bildiriyor. Test edilen rakipler bu senaryolarda ya sessiz kalıyor ya da yanlış cevaplar veriyor.

Kanıtlayacak Çok Şeyi Olan 2 Milyar Dolarlık Bir Girişim

Thinking Machines Lab, Şubat 2025’te Mira Murati ve diğer eski OpenAI araştırmacıları tarafından kuruldu. Şirket, Temmuz 2025’te henüz bir ürünü olmadan 12 milyar dolar değerleme üzerinden 2 milyar dolarlık tohum yatırım turunu kapattı. 2025’in sonuna kadar yaklaşık 50 milyar dolar değerleme üzerinden yürütüldüğü bildirilen devam yatırım turu ise sonuçlanmadı ve o tarihten bu yana birkaç kilit çalışan şirketten ayrıldı. Interaction Model, Murati’nin OpenAI, Anthropic ve Google DeepMind’ın yanında gerçek bir rakip kurabileceği iddiasını destekleyen ilk kurum içi YZ modeli oldu.

Bundan önce şirket, geliştiricilerin dağıtık eğitimle uğraşmadan LoRA kullanarak açık modelleri verimli biçimde ince ayar yapmasını sağlayan Tinker adlı aracı yayınlamıştı.

Kaynak: https://the-decoder.com/thinking-machines-lab-ships-its-first-model-and-argues-interactivity-is-what-openai-gets-wrong-about-voice/

Post Views: 177

Bu Yazıya Tepkiniz Ne Oldu?

0

Beğendim
0

Alkışlıyorum
0

Eğlendim
0

Düşünceliyim
0

İğrendim
0

Sevdim
0

Çok Kızdım

Nuvem

Yazarın Profili

Eski OpenAI Yöneticisi Mira Murati’nin Yeni Girişimi İlk Sesli Yapay Zeka Modelini Tanıttı

Mevcut Sesli YZ Sistemleri Hala Robotik Hissettiriyor

Yapay Sıra Sınırlarının Yerini 200 Milisaniyelik Bir Saat Alıyor

Karşılaştırmalı Testler Yaklaşımın İşe Yaradığını Gösteriyor

Kanıtlayacak Çok Şeyi Olan 2 Milyar Dolarlık Bir Girişim

Yorum Yap İptal

İnsan Gibi Somon Dilimleyen Üç Kollu Robot! – Mutfakta Yeni Çağ

CATL’den Dünyanın İlk Gerçek Koşullarda Kanıtlanmış 30 MWh Sodyum Bataryası

Çin’in İnsansı Robot Sevkiyatı İkiye Katlanıyor: Morgan Stanley’den 50.000 Adet Tahmini

GTA 6’nın Yeni Oynanış Özellikleri ve PS5 Pro Geliştirmeleri Sızdırıldı

Yapay Zeka, Kömürleşmiş Parşömendeki 2.000 Yıllık Metni Okudu

Yapay Zeka Dedektörü, 1776 Tarihli ABD Bağımsızlık Bildirgesi’ni “Yapay Zeka Tarafından Yazılmış” Olarak Tanımladı

Instagram, Sürekli Reels İzleyenler için Otomatik Kaydırma Özelliğini Test Ediyor

Yapay Zekaya Güvenmeyi Bırak, Yönetim Kurulunu Kur

X, Grok ile Etkileşimi Genişletiyor

Seedance 2.0 Sonunda Geldi! – Nasıl Kullanılır?

Eski OpenAI Yöneticisi Mira Murati’nin Yeni Girişimi İlk Sesli Yapay Zeka Modelini Tanıttı

Mevcut Sesli YZ Sistemleri Hala Robotik Hissettiriyor

Yapay Sıra Sınırlarının Yerini 200 Milisaniyelik Bir Saat Alıyor

Karşılaştırmalı Testler Yaklaşımın İşe Yaradığını Gösteriyor

Kanıtlayacak Çok Şeyi Olan 2 Milyar Dolarlık Bir Girişim

Benzer Yazılar

Yorum Yap İptal