Yapay Zeka

Monday, June 10, 2024

Stanford çalışması, yapay zeka yasal araştırma araçlarının halüsinasyonlara yatkın olduğunu söylüyor.

Büyük dil modelleri (LLM'ler), kapsamlı bilgi işlemeyi gerektiren görevlere güç sağlamak için giderek daha fazla kullanılıyor. Birçok şirket, hukuki araştırmalara yardımcı olmak için yüksek lisans ve bilgi erişim sistemlerini kullanan özel araçlar geliştirmiştir.

Bununla birlikte, Stanford Üniversitesi'ndeki araştırmacılar tarafından yapılan yeni bir araştırma, sağlayıcıların iddialarına rağmen, bu araçların hala önemli oranda halüsinasyonlardan veya açıkça yanlış olan çıktılardan muzdarip olduğunu ortaya koyuyor.

Yazarlara göre, "AI odaklı hukuki araştırma araçlarının ilk kayıtlı ampirik değerlendirmesi" olan çalışma, büyük hukuki araştırma sağlayıcılarının ürünlerini test etti ve bunları, manuel olarak oluşturulmuş 200'den fazla hukuki sorgu üzerinde OpenAI'nin GPT-4'üyle karşılaştırdı. Araştırmacılar, genel amaçlı sohbet robotlarına kıyasla halüsinasyonların azaldığını, ancak yasal yapay zeka araçlarının hala endişe verici derecede yüksek oranda halüsinasyon gördüğünü buldu.

Pek çok yasal yapay zeka aracı, halüsinasyon riskini azaltmak için erişimle artırılmış üretim (RAG) tekniklerini kullanır. Yalnızca eğitim sırasında edindikleri bilgiye dayanan basit LLM sistemlerinin aksine, RAG sistemleri öncelikle ilgili belgeleri bir bilgi tabanından alır ve bunları yanıtları için bağlam olarak modele sunar. RAG, farklı alanlardaki halüsinasyonları azaltmak isteyen işletmeler için altın standarttır.

Ancak araştırmacılar, hukuki soruların çoğu zaman bir dizi belgeden alınabilecek tek ve net bir yanıta sahip olmadığını belirtiyor. Sistemin zaman içinde birden fazla kaynaktan gelen bilgileri bulma ihtiyacı duyabileceğinden, neyin alınacağına karar vermek zor olabilir. Bazı durumlarda, sorunun yeni veya hukuki açıdan belirsiz olması durumunda, soruyu kesin olarak yanıtlayacak hiçbir belge mevcut olmayabilir.

Dahası araştırmacılar, halüsinasyonların hukuki araştırmalar bağlamında iyi tanımlanmadığı konusunda uyarıyorlar. Araştırmacılar, çalışmalarında modelin tepkisinin yanlış veya yanlış temellendirilmiş olması durumunda bir halüsinasyon olduğunu düşünüyor; bu da gerçeklerin doğru olduğu ancak tartışılan hukuki dava bağlamında geçerli olmadığı anlamına geliyor. "Başka bir deyişle, eğer bir model yanlış bir beyanda bulunursa veya bir kaynağın bir beyanı desteklediğini yanlış bir şekilde iddia ederse, bu bir halüsinasyon oluşturur" diye yazıyorlar.

Çalışma ayrıca, hukuktaki belge ilgisinin yalnızca metin benzerliğine dayanmadığını, çoğu RAG sisteminin çalışma şeklinin de bu olduğunu belirtiyor. Yalnızca metinsel olarak alakalı görünen ancak aslında alakasız olan belgeleri almak, sistemin performansını olumsuz yönde etkileyebilir.

Stanford Hukuk Profesörü Daniel E. Ho, "Ekibimiz, genel amaçlı yapay zeka araçlarının yasal halüsinasyonlara (sahte gerçekler, davalar, holdingler, tüzükler ve düzenlemeler uydurma eğilimi) eğilimli olduğunu gösteren daha önce bir çalışma yürütmüştü" dedi. Makalenin ortak yazarı VentureBeat'e söyledi. "Yapay zekanın başka yerlerinde olduğu gibi, hukuk teknolojisi endüstrisi de 'halüsinasyon içermeyen' ürünlere sahip olduğunu cesurca iddia ederek [RAG]'a güvendi. Bu da bizi bu iddiaları yasal RAG araçlarında değerlendirecek bir çalışma tasarlamaya yöneltti ve bu pazarlama iddialarının aksine yasal RAG'ın halüsinasyon sorununu çözmediğini gösterdik."

Araştırmacılar, gerçek hayattaki araştırma senaryolarını temsil eden çeşitli hukuki sorgular tasarladı ve bunları önde gelen üç yapay zeka destekli yasal araştırma aracında test etti: LexisNexis'in Lexis+ AI ve Thomson Reuters'in Westlaw AI-Assisted Research ve Ask Practical Law AI. Araçlar açık kaynak olmasa da, hepsi perde arkasında bir tür RAG kullandıklarını gösteriyor.

Araştırmacı, araçların çıktılarını manuel olarak inceledi ve bunları temel olarak RAG içermeyen GPT-4 ile karşılaştırdı. Çalışma, üç aracın da GPT-4'ten önemli ölçüde daha iyi performans gösterdiğini ancak mükemmel olmaktan uzak olduğunu ve sorguların %17-33'ünde halüsinasyon gördüğünü ortaya çıkardı.

Araştırmacılar ayrıca sistemlerin, araçların alıntı yaptığı kaynakların yakından analizini gerektiren temel hukuki anlama görevlerinde zorluk yaşadığını da buldu. Araştırmacılar, yasal yapay zeka araçlarının kapalı yapısının, avukatların bu araçlara güvenmenin ne zaman güvenli olduğunu değerlendirmesini zorlaştırdığını öne sürüyor.

Ancak yazarlar, mevcut sınırlamalarına rağmen, yapay zeka destekli hukuki araştırmanın, özellikle son kelime yerine başlangıç ​​noktası olarak kullanıldığında, geleneksel anahtar kelime arama yöntemlerine veya genel amaçlı yapay zekaya kıyasla hala değer sağlayabileceğini belirtiyor.

Ho, "Çalışmamızdaki olumlu bulgulardan biri, yasal halüsinasyonların genel amaçlı yapay zekaya kıyasla RAG tarafından azaltılmasıdır" dedi. "Ancak makalemiz aynı zamanda RAG'ın her derde deva olmadığını da belgeliyor. Örneğin, alınan belgelerin uygunsuz olması ve yasal erişimin benzersiz bir şekilde zor olması durumunda, RAG hattı boyunca hatalar ortaya çıkabilir."

Ho, "Makalede öne sürdüğümüz en önemli argümanlardan biri, yasal yapay zeka konusunda şeffaflığa ve kıyaslamaya acil ihtiyacımız olduğudur" dedi. “Genel yapay zeka araştırmalarının tam tersine, hukuk teknolojisi, sağlayıcıların ürünlerin performansına ilişkin neredeyse hiçbir teknik bilgi veya kanıt sunmamasıyla benzersiz bir şekilde kapatıldı. Bu durum avukatlar için büyük bir risk teşkil ediyor.”