Yapay Zeka

Tuesday, August 27, 2024

Anthropic, Claude'u harekete geçiren 'sistem uyarılarını' yayınladı.

OpenAI'den Anthropic'e kadar her üretken yapay zeka sağlayıcısı, modellerin kötü davranmasını önlemek (ya da en azından önlemeye çalışmak) ve modellerin yanıtlarının genel tonunu ve duygusunu yönlendirmek için sistem istemlerini kullanır. Örneğin, bir istem bir modele kibar olmasını ama asla özür dilememesini ya da her şeyi bilemeyeceği konusunda dürüst olmasını söyleyebilir.

Ancak satıcılar genellikle sistem istemlerini gizli tutarlar - muhtemelen rekabetçi nedenlerle, ancak belki de sistem istemini bilmek onu atlatmanın yollarını önerebileceği için. Örneğin GPT-4o'nun sistem istemini açığa çıkarmanın tek yolu istem enjeksiyonu saldırısıdır. Ve o zaman bile, sistemin çıktısına tamamen güvenilemez.

Ancak Anthropic, kendisini daha etik ve şeffaf bir yapay zeka tedarikçisi olarak gösterme çabasını sürdürerek, en son modellerinin (Claude 3 Opus, Claude 3.5 Sonnet ve Claude 3.5 Haiku) sistem istemlerini Claude iOS ve Android uygulamalarında ve web'de yayınladı.

Anthropic'in geliştirici ilişkileri başkanı Alex Albert, X'te yayınlanan bir yazıda, Anthropic'in sistem istemlerini güncellerken ve ince ayar yaparken bu tür bir açıklamayı düzenli hale getirmeyi planladığını söyledi.

En son 12 Temmuz tarihli istemler Claude modellerinin yapamayacaklarını çok net bir şekilde özetliyor - örneğin “Claude URL'leri, bağlantıları veya videoları açamaz.” Yüz tanıma büyük bir hayır-hayır; Claude Opus için sistem istemi modele “her zaman tamamen yüz körü gibi yanıt vermesini” ve “[görüntülerdeki] herhangi bir insanı tanımlamaktan veya isimlendirmekten kaçınmasını” söylüyor.

Ancak istemler aynı zamanda belirli kişilik özelliklerini ve karakteristiklerini de tanımlıyor - Anthropic'in Claude modellerinin örnek almasını istediği özellikler ve karakteristikler.

Örneğin Claude 3 Opus'a yönelik istem, Claude'un “çok zeki ve entelektüel açıdan meraklı” ve “insanların bir konuda ne düşündüğünü duymaktan ve çok çeşitli konularda tartışmaya girmekten hoşlanıyor” gibi görünmesi gerektiğini söylüyor. Ayrıca Claude'a tartışmalı konuları tarafsızlık ve objektiflikle ele alması, “dikkatli düşünceler” ve “net bilgiler” sunması ve yanıtlarına asla “kesinlikle” veya “kesinlikle” sözcükleriyle başlamaması talimatını veriyor.