En Son Haberler

Tuesday, December 31, 2024

OpenAI Yeni Modelinin 'Genel Zeka' Testinde İnsan Seviyesine Ulaştığını İddia Ediyor.

Yeni bir yapay zeka (AI) modeli, “genel zekayı” ölçmek için tasarlanan bir testte insan düzeyinde sonuçlar elde etti.

OpenAI'ın o3 sistemi 20 Aralık'ta ARC-AGI kıyaslamasında %85 puan alarak bir önceki en iyi yapay zeka skoru olan %55'in çok üzerinde ve ortalama insan skoru ile eşit bir sonuç elde etti. Ayrıca çok zor bir matematik testinde de başarılı oldu.

Yeni bir yapay zeka (AI) modeli, “genel zekayı” ölçmek için tasarlanan bir testte insan düzeyinde sonuçlar elde etti.

OpenAI'ın o3 sistemi, 20 Aralık'ta ARC-AGI kıyaslamasında %85 puan alarak bir önceki en iyi yapay zeka puanı olan %55'in çok üzerinde ve ortalama insan puanıyla eşit bir sonuç elde etti. Ayrıca çok zor bir matematik testini de geçti.

o3 sonucunun ne anlama geldiğini anlamak için ARC-AGI testinin ne olduğunu anlamanız gerekir. Teknik anlamda, bir YZ sisteminin yeni bir şeye uyum sağlamadaki “örnek verimliliğinin” bir testidir - sistemin nasıl çalıştığını anlamak için yeni bir durumun kaç örneğini görmesi gerekir.

ChatGPT (GPT-4) gibi bir YZ sistemi örneklem açısından çok verimli değildir. Milyonlarca insan metni örneği üzerinde “eğitilmiş” ve hangi kelime kombinasyonlarının en olası olduğu hakkında olasılıksal “kurallar” oluşturmuştur.

Sonuç, yaygın görevlerde oldukça iyidir. Yaygın olmayan görevlerde kötüdür, çünkü bu görevler hakkında daha az veriye (daha az örnek) sahiptir.

Yapay zeka sistemleri az sayıda örnekten öğrenene ve daha fazla örnek verimliliği ile adapte olana kadar, sadece çok tekrarlayan işler ve ara sıra başarısızlığın tolere edilebileceği işler için kullanılacaktır.

Önceden bilinmeyen veya yeni problemleri sınırlı veri örneklerinden doğru bir şekilde çözme yeteneği, genelleme kapasitesi olarak bilinir. Yaygın olarak zekanın gerekli, hatta temel bir unsuru olarak kabul edilir.

ARC-AGI kıyaslaması, aşağıdaki gibi küçük ızgara kare problemlerini kullanarak örnek verimli adaptasyon için test eder. Yapay zekanın soldaki ızgarayı sağdaki ızgaraya dönüştüren deseni bulması gerekiyor.

Her soru, öğrenilecek üç örnek verir. Yapay zeka sisteminin daha sonra üç örnekten dördüncüye “genelleme” yapan kuralları bulması gerekir.

Bunlar bazen okuldan hatırlayabileceğiniz IQ testlerine çok benziyor.

OpenAI'ın bunu nasıl yaptığını tam olarak bilmiyoruz, ancak sonuçlar o3 modelinin son derece uyarlanabilir olduğunu gösteriyor. Sadece birkaç örnekten yola çıkarak genelleştirilebilecek kurallar buluyor.

Bir örüntü bulmak için gereksiz varsayımlarda bulunmamalı ya da gerçekten olmamız gerekenden daha spesifik olmamalıyız. Teorik olarak, istediğiniz şeyi yapan “en zayıf” kuralları belirleyebilirseniz, yeni durumlara uyum sağlama yeteneğinizi en üst düzeye çıkarmış olursunuz.

En zayıf kurallar derken neyi kastediyoruz? Teknik tanımı karmaşıktır, ancak daha zayıf kurallar genellikle daha basit ifadelerle tanımlanabilen kurallardır.

Yukarıdaki örnekte, kuralın düz İngilizce ifadesi şöyle bir şey olabilir: “Çıkıntılı bir çizgisi olan herhangi bir şekil, bu çizginin sonuna doğru hareket edecek ve çakıştığı diğer şekilleri 'örtecektir'.”