Basit Bir Komut, ChatGPT’ye Şiddet ve Cinsel İçerikli Görseller Ürettirdi

Nuvem tarafından

2 gün önce 141 kez okundu Okuma süresi: 4dk, 45sn

Basit Bir Komut, ChatGPT’ye Şiddet ve Cinsel İçerikli Görseller Ürettirdi

Araştırmacılar BBC’ye, ChatGPT’nin en son halka açık sürümünün basit bir komutla cinselleştirilmiş görseller üretmeye veya açık şiddet sahneleri tasvir etmeye zorlanabileceğini belirtti.

İngiliz YZ güvenliği girişimi Mindgard, orijinalinde mizahi sonuçlar üretmek üzere tasarlanan ve yaygın olarak paylaşılan bir talimatı, yani komutu hafifçe değiştirerek ChatGPT’ye rahatsız edici derecede açık görseller ürettirmenin yolunu buldu.

BBC’nin kendileriyle iletişime geçmesinin ardından ChatGPT’nin geliştiricisi OpenAI, sohbet botunun bu tür görsellerle yanıt vermesini engellemek için harekete geçtiğini açıkladı. Şirket yaptığı açıklamada, “Bu eğilimi inceledikten sonra, bu tür komutlara karşı ek güvenlik önlemleri getirdik.” ifadesini kullandı. Ayrıca, kullanıcıların hizmet şartlarını ve koşullarını ihlal eden içerikler üretmesini önlemek amacıyla çok katmanlı koruma sistemlerine sahip olduğunu bildirdi.

Ancak YZ güvenliği araştırmacıları, yapılan küçük değişikliklerle sorunlu komutun hala endişe verici içerikler üretmeye devam ettiğini dile getirdi.

BBC, araştırmacıların ChatGPT’ye tam olarak ne yazdığını açıklamıyor fakat BBC, OpenAI’ın GPT-5.4 modeli olan sohbet botunun, bu açık içerikli materyalleri üretmeye nasıl yönlendirildiğini gördüğünü söylüyor.

Ayrıntılı talimatlar olmasa bile sistem Mindgard’ın kurucusu Peter Garraghan‘ın “çok korkunç, bazen cinselleştirilmiş, bazen de her ikisi bir arada” şeklinde tanımladığı görseller üretti.

Garraghan, komutun görsellerin konusunu belirtmemesine rağmen YZ’nin “kendi iradesiyle” bir dizi kanlı ve cinselleştirilmiş görsel üretmesinden özellikle endişe duyduğunu ekledi. Aynı zamanda Lancaster Üniversitesi Bilgisayar Bilimleri bölümünde profesör olan Garraghan, durumun kaygı verici olduğunu söyledi.

Garraghan, “Bu, bir YZ için tamamen masum görünen bir talimat ancak sonuç olarak çok ama çok kötü görseller ve içerikler üretiyor.” dedi.

Mindgard, YZ şirketlerinin açıkları kapatabilmesi amacıyla modelleri kendi kurallarını çiğnemeye ikna etmenin yollarını bulan kırmızı takım (red-teaming) testleri yürütüyor.

Sorunları ortaya çıkaran şirketin YZ emniyeti ve güvenliği araştırmacısı Jim Nightingale, sohbet botunun üretmeye zorlandığı görseller karşısında “sarsıldığını ve gözyaşlarına boğulduğunu” belirtti.

BBC bu görsellerden bazılarını gördü. Görsellerden biri başından ağır yaralanmış bir adamı gösterirken, bir diğeri ise yüzü ve vücudunun diğer bölgeleri kanlar içinde kalmış, büstiyer ve şort giyen *lü genç bir kadını gösteriyordu.

Mindgard, görseldeki özelliklerin cinsel şiddete işaret ettiğini bildirdi. ChatGPT ise bu görsele “Korkunç suç mahallinin ardında kalanlar” başlığını verdi.

Bir başka görsel ise üzerinde kolej logosu bulunan dar bir tişört ve şort giyen, boş ve kirli bir odada elleri kolları bağlanmış, ağzı tıkanmış ve korkmuş halde görünen genç bir kadını gösteriyordu. ChatGPT bu görseli “korku ve esaret içinde terk edilmiş” olarak adlandırdı. Üretilen diğer görseller ise cinsel pozlar ve çıplaklık içeriyordu.

Görseller YZ tarafından oluşturulmuş yetişkinleri gösteriyordu ancak Mindgard, daha önce yürüttüğü araştırmanın ChatGPT’nin gerçek kişilerin yüzlerini görsellere yerleştirerek çıplak deepfakeler oluşturmaya kandırılabildiğini gösterdiğini belirtti.

OpenAI bunu düzelttiğini belirtmesine rağmen araştırmacılar, alternatif bir yaklaşımın hala başarılı olduğunu ifade etti ve bu yöntemle oluşturulan yeni bir görseli BBC’ye gösterdi.

Garraghan, açığı araştırmaya devam etmeleri hâlinde daha kötü görseller üretmenin mümkün olabileceğinden endişe etti: “Buna daha fazla zaman ayırsaydık başka konuların da ortaya çıkacağından eminim.”

BBC’nin edindiği bilgilere göre şirket, yeni güvenlik önlemlerinin yanı sıra durumu izlemeyi ve modeli bu komuta görsellerle yanıt vermemeye yönlendiren ek korumaları uygulamaya koymayı sürdürüyor.

ChatGPT gibi büyük dil modelleri, çoğu internetteki mevcut içeriklerden alınan milyonlarca görselle eğitiliyor. Nightingale, ChatGPT’nin çıktılarının, kendisini geliştirmek ve eğitmek amacıyla kullanılan verileri yansıttığına inanıyor.

Raporunda, “Gördüğüm şey yapay, üretilmiş bir görsel olsa da gerçek görsellerle ve gerçek dünyayla bağları olması beni çok etkiledi.” diye yazdı.

Araştırmacılar OpenAI’ı ilk olarak mayıs ayında uyardı ve bulgularını paylaştı fakat teknoloji şirketinden yalnızca otomatik bir yanıt aldı. Komutun engellenmesi için bir çaba gösterildiğine ama bu engelin kolayca aşılabildiğini düşünüyorlar.

OpenAI, BBC’nin kendileriyle iletişime geçmesinin ardından daha fazla önlem aldı. Şirket, ilkelerini ihlal eden görsellerin kullanıcılara gösterilmesini engellemek üzere tasarlanmış çok katmanlı görsel güvenliği korumalarına sahip olduğunu söylüyor.

Açıklamada, “Zararlı materyalleri tespit etmek ve engellemek için otomatik sistemler ile insan incelemesini bir arada kullanıyoruz.” ifadesi eklendi. Şirket ayrıca, kullanıcıların yüklediği ihlal içerikli materyalleri engellemeye çalışan sistemlere de sahip olduğunu bildirdi.

OpenAI politikaları, cinsel şiddeti, rıza dışı mahrem içerikleri, çocukların cinsel istismarını gösteren materyalleri ve güvenlik önlemlerini aşma girişimlerini yasaklıyor.

Kaynak: https://www.bbc.com/news/articles/c802ldjdklzo

Post Views: 141

Bu Yazıya Tepkiniz Ne Oldu?

0

Beğendim
0

Alkışlıyorum
0

Eğlendim
0

Düşünceliyim
0

İğrendim
0

Sevdim
0

Çok Kızdım

Nuvem

Yazarın Profili

Basit Bir Komut, ChatGPT’ye Şiddet ve Cinsel İçerikli Görseller Ürettirdi

Yorum Yap İptal

Elon Musk Bulut Teknolojisini Uzaya Taşıdı! – SpaceX “AI1” Yapay Zekasını Tanıttı

Dünyanın İlk Tamamen Hidrojenle Çalışan Gemi Motoru Onay Aldı

Apple A21 Pro’da Gelişmiş 2 nm N2P Sürecine Geçebilir