Yapay Zeka
Tuesday, July 2, 2024
Anthropic, kendi Claude'u gibi üretken modeller de dahil olmak üzere, YZ modellerinin performansını ve etkisini değerlendirebilecek yeni ölçüt türlerinin geliştirilmesini finanse etmek için bir program başlatıyor.
Pazartesi günü açıklanan Anthropic'in programı, şirketin bir blog yazısında belirttiği gibi, "YZ modellerindeki gelişmiş yetenekleri etkili bir şekilde ölçebilen" üçüncü taraf kuruluşlara ödeme yapacak. İlgilenenler, sürekli olarak değerlendirilmek üzere başvuruda bulunabilirler.
Anthropic resmi blogunda "Bu değerlendirmelere yaptığımız yatırım, tüm ekosisteme fayda sağlayan değerli araçlar sağlayarak tüm YZ güvenliği alanını yükseltmeyi amaçlıyor" diye yazdı. "Yüksek kaliteli, güvenlikle ilgili değerlendirmeler geliştirmek zor olmaya devam ediyor ve talep arzı geride bırakıyor."
Daha önce de vurguladığımız gibi, YZ'nin bir kıyaslama sorunu var. Günümüzde YZ için en sık atıfta bulunulan ölçütler, ortalama bir insanın test edilen sistemleri gerçekte nasıl kullandığını yakalamakta yetersiz kalmaktadır. Ayrıca, bazı ölçütlerin, özellikle de modern üretken YZ'nin doğuşundan önce yayınlananların, yaşları göz önüne alındığında ölçmek istedikleri şeyi ölçüp ölçmedikleri konusunda da sorular var.
Anthropic'in önerdiği çok yüksek seviyeli, göründüğünden daha zor çözüm, yeni araçlar, altyapı ve yöntemler aracılığıyla YZ güvenliği ve toplumsal etkilere odaklanan zorlu ölçütler oluşturmaktır.
Şirket, özellikle bir modelin siber saldırılar gerçekleştirme, kitle imha silahlarını (örneğin nükleer silahlar) "geliştirme" ve insanları manipüle etme veya aldatma (örneğin derin sahtecilik veya yanlış bilgilendirme yoluyla) gibi görevleri yerine getirme yeteneğini değerlendiren testler talep ediyor. Ulusal güvenlik ve savunma ile ilgili YZ riskleri için Anthropic, riskleri tanımlamak ve değerlendirmek için bir tür "erken uyarı sistemi" geliştirmeye kararlı olduğunu söylüyor, ancak blog yazısında böyle bir sistemin neleri içerebileceğini açıklamıyor.
Anthropic ayrıca yeni programının, yapay zekanın bilimsel çalışmalara yardımcı olma, birden fazla dilde konuşma ve kökleşmiş önyargıları azaltma potansiyelini araştıran kıyaslama ölçütleri ve "uçtan uca" görevlerin yanı sıra toksisiteyi kendi kendine sansürleme araştırmalarını desteklemeyi amaçladığını söylüyor.
Anthropic tüm bunları başarmak için, konu uzmanlarının kendi değerlendirmelerini geliştirmelerine ve "binlerce" kullanıcıyı içeren modellerin büyük ölçekli denemelerine olanak tanıyan yeni platformlar öngörüyor. Şirket, program için tam zamanlı bir koordinatör tuttuğunu ve ölçeklendirme potansiyeline sahip olduğuna inandığı projeleri satın alabileceğini veya genişletebileceğini söylüyor.
Anthropic sözcüsü bu seçenekler hakkında daha fazla ayrıntı vermeyi reddetse de, yazıda "Her projenin ihtiyaçlarına ve aşamasına göre uyarlanmış bir dizi finansman seçeneği sunuyoruz" deniyor. "Ekipler, Anthropic'in frontier red team, fine-tuning, trust and safety ve diğer ilgili ekiplerinden alan uzmanlarıyla doğrudan etkileşim kurma fırsatına sahip olacaklar."
Anthropic'in yeni yapay zeka ölçütlerini destekleme çabası takdire şayan bir çaba - tabii ki arkasında yeterli nakit ve insan gücü olduğunu varsayarsak. Ancak şirketin yapay zeka yarışındaki ticari hırsları göz önüne alındığında, tamamen güvenmek zor olabilir.
Blog yazısında Anthropic, finanse ettiği belirli değerlendirmelerin kendi geliştirdiği YZ güvenlik sınıflandırmalarıyla (kar amacı gütmeyen YZ araştırma kuruluşu METR gibi üçüncü tarafların bazı girdileriyle) uyumlu olmasını istediği konusunda oldukça şeffaf. Bu, şirketin ayrıcalığı dahilindedir. Ancak programa başvuranları, kabul etmeyebilecekleri "güvenli" veya "riskli" YZ tanımlarını kabul etmeye de zorlayabilir.
YZ topluluğunun bir kısmı da Anthropic'in nükleer silah riskleri gibi "felaket" ve "aldatıcı" YZ risklerine atıfta bulunmasını sorun olarak görecektir. Pek çok uzman, bildiğimiz YZ'nin yakın zamanda dünyayı sona erdirecek, insan zekasını aşacak yetenekler kazanacağını gösteren çok az kanıt olduğunu söylüyor. Bu uzmanlara göre, yakında ortaya atılacak "süper zeka" iddiaları, dikkatleri YZ'nin halüsinasyon görme eğilimleri gibi günümüzün acil YZ düzenleme sorunlarından başka yöne çekmekten başka bir işe yaramıyor.
Anthropic yazısında, programının "kapsamlı YZ değerlendirmesinin bir endüstri standardı olduğu bir geleceğe doğru ilerleme için bir katalizör" olarak hizmet etmesini umduğunu yazıyor. Bu, daha iyi YZ ölçütleri oluşturmaya yönelik birçok açık, şirkete bağlı olmayan çabanın özdeşleşebileceği bir misyondur. Ancak bu çabaların, sadakati nihai olarak hissedarlara bağlı olan bir YZ satıcısıyla güçlerini birleştirmeye istekli olup olmadıkları henüz belli değil.