En Son Haberler
Friday, December 13, 2024
Harvard Üniversitesi, yapay zeka modellerini eğitmek için kullanılabilecek yaklaşık bir milyon kamu malı kitap içeren bir veri kümesinin başlatıldığını duyurdu. Yeni kurulan Kurumsal Veri Girişimi kapsamında hem Microsoft hem de OpenAI'den fon alan proje, Google Books tarafından taranan ve telif hakkı koruması sona erecek kadar eski olan kitapları içeriyor.
Wired'ın yeni projeyle ilgili bir haberinde, veri setinin “Shakespeare, Charles Dickens ve Dante'nin klasiklerinin yanı sıra belirsiz Çek matematik ders kitapları ve Galce cep sözlükleri” gibi çok çeşitli kitapları içerdiği belirtiliyor. Genel bir kural olarak, telif hakkı korumaları yazarın yaşam süresi artı 70 yıl daha sürer.
Wall Street Journal ve New York Times gibi yayıncılar, OpenAI ve rakibi Perplexity'yi verilerini izinsiz aldıkları için dava etti. YZ şirketlerinin savunucuları, faaliyetlerini savunmak için çeşitli argümanlar ileri sürmüşlerdir. Bazen insanların diğer kaynaklardan gelen materyalleri inceleyerek ve sentezleyerek yeni eserler ürettiklerini ve YZ'nin de bundan farklı olmadığını söylüyorlar. Herkes okula gider, kitap okur ve daha sonra edindiği bilgileri kullanarak yeni çalışmalar üretir. Yeni yaratım maddi olarak farklıysa, remiks yasal olarak adil kullanım olarak kabul edilir. Ancak bu, insanların milyarlarca metin parçasını bir bilgisayarın alabileceği hızda alamayacağını hesaba katmaz, bu nedenle tam olarak adil bir karşılaştırma değildir. Wall Street Journal, Perplexity'ye karşı açtığı davada, girişimin “büyük ölçekte kopyalama yaptığını” söyledi.
Bu alandaki oyuncular ayrıca, açık web'de sunulan herhangi bir içeriğin esasen adil bir oyun olduğu ve bir sohbet botu kullanıcısının, bir istem aracılığıyla talep ederek telif hakkıyla korunan içeriğe erişen kişi olduğu argümanını öne sürdüler. Temel olarak, Perplexity gibi bir sohbet robotu bir web tarayıcısına benzemektedir. Bu argümanların mahkemeye taşınması biraz zaman alacak.
OpenAI eleştirilere yanıt olarak bazı içerik sağlayıcılarla anlaşmalar yaptı ve Perplexity yayıncılarla reklam destekli bir ortak programı başlattı.
Yapay zeka şirketleri kullanacak yeni içerik bulmakta zorlanırken, halihazırda eğitim setlerine dahil olan ve yaygın olarak kullanılan web kaynakları da hızla erişimi kısıtlamaya başladı. Reddit ve X gibi şirketler, özellikle temel modelleri dünya hakkında daha güncel bilgilerle güçlendirmek için gerçek zamanlı verilere sahip olmanın muazzam değerini fark ettikleri için verilerinin kullanımını sınırlama konusunda agresif davrandılar.
Reddit, modellerini eğitmesi için Google'a subreddit ve yorum külliyatını lisanslayarak yüz milyonlarca dolar kazanıyor. Elon Musk'ın X şirketi, diğer şirketi xAI ile özel bir anlaşma yaparak modellerine eğitim ve güncel bilgilerin alınması için sosyal ağın içeriğine erişim sağlıyor. Bu şirketlerin kendi verilerini yakından koruduklarını, ancak medya yayıncılarının içeriğinin hiçbir değeri olmadığını ve ücretsiz olması gerektiğini düşündüklerini düşünmek biraz ironik.
Özellikle bu kitapların eski olduğu ve Z kuşağı çocuklarının kullandığı argo gibi modern bilgiler içermediği düşünüldüğünde, bir milyon kitap herhangi bir yapay zeka şirketinin eğitim ihtiyaçlarını karşılamak için yeterli olmayacaktır. YZ şirketleri kendilerini rakiplerinden farklılaştırmak için diğer verilere, özellikle de özel verilere erişmeye devam etmek isteyeceklerdir; böylece hepsi aynı olan modeller oluşturmayacaklardır. Kurumsal Veri İnisiyatifi'nin veri seti, en azından ilk temel modellerini herhangi bir yasal sorun yaşamadan eğitmeye çalışan YZ şirketlerine bir miktar yardım sunabilir.