En Son Haberler
Friday, December 27, 2024
Çinli bir laboratuvar olan DeepSeek, "açık" yapay zeka modellerinden biri olan DeepSeek V3'ü geliştirdi. Bu model, hem ticari uygulamalar için indirilebilir hem de değiştirilebilir olarak izin verici bir lisans altında yayımlandı. DeepSeek V3, kodlama, çeviri, açıklamalı istemlerden e-posta yazmaya kadar çok çeşitli metin tabanlı görevlerde yüksek performans sergiliyor.
DeepSeek, modelin performansını, indirilip açık şekilde kullanılabilen modellerle kıyasladığında, DeepSeek V3'ün, yalnızca API üzerinden erişilebilen "kapalı" yapay zeka modellerinden bile daha iyi olduğunu belirtiyor. Örneğin, Codeforces'taki bir alt küme kodlama yarışmasında, DeepSeek V3, Meta'nın Llama 3.1 405B, OpenAI'ın GPT-4 ve Alibaba'nın Qwen 2.5 72B gibi diğer büyük modelleri geride bırakmış.
Model, 14,8 trilyon jeton'luk büyük bir veri kümesi üzerinde eğitilmiş ve 671 milyar parametreye sahip. Bu, daha önceki modellerin çoğundan çok daha büyük ve parametre sayısı genellikle bir modelin becerisini etkileyen önemli bir faktör. Ancak, daha büyük modellerin güçlü donanımlara ihtiyaç duyduğunun da altı çizilmiş. DeepSeek, modelin eğitimini yalnızca iki ay gibi kısa bir sürede tamamlamış ve bu süreçte 5,5 milyon dolar gibi düşük bir bütçe harcamış, bu da OpenAI'nin GPT-4 geliştirme maliyetlerinden oldukça düşük.
DeepSeek V3, büyük veri seti ve parametre sayısının yanı sıra, önemli bir başarı olarak dikkat çekiyor, ancak yüksek donanım gereksinimleri ve pratik kullanıma yönelik bazı zorluklar da barındırıyor.