Bir yıl önce Avrupa'nın en büyük tohum turunu gerçekleştiren ve o zamandan bu yana küresel yapay zeka alanında yükselen bir yıldız haline gelen Paris merkezli yapay zeka girişimi Mistral, bugün ilk kod merkezli büyük dil modeli (LLM) olan Codestral'i piyasaya sürerek programlama ve geliştirme alanına girişini işaret etti.
Bugün ticari olmayan bir lisans altında kullanıma sunulan Codestral, üretimden tamamlanmaya kadar kodlama görevlerinde uzmanlaşmış 22B parametreli, açık ağırlıklı bir üretken yapay zeka modelidir.
Mistral'e göre, model 80'den fazla programlama dilinde uzmanlaşarak gelişmiş yapay zeka uygulamaları tasarlamak isteyen yazılım geliştiriciler için ideal bir araç haline geliyor.
Şirket, Codestral'ın CodeLlama 70B ve Deepseek Coder 33B gibi kodlama görevleri için tasarlanmış önceki modellerden daha iyi performans gösterdiğini ve JetBrains, SourceGraph ve LlamaIndex dahil olmak üzere çeşitli endüstri ortakları tarafından kullanıldığını iddia ediyor.
Codestral 22B, 32K bağlam uzunluğu ile birlikte gelir ve geliştiricilere çeşitli kodlama ortamlarında ve projelerinde kod yazma ve kodla etkileşim kurma olanağı sağlar.
Model, 80'den fazla programlama dilinden oluşan bir veri kümesi üzerinde eğitilmiştir, bu da onu sıfırdan kod oluşturma, kodlama işlevlerini tamamlama, test yazma ve ortadaki doldurma mekanizmasını kullanarak herhangi bir kısmi kodu tamamlama dahil olmak üzere çeşitli kodlama görevleri için uygun hale getirir. Kapsadığı programlama dilleri arasında SQL, Python, Java, C ve C++ gibi popüler dillerin yanı sıra Swift ve Fortran gibi daha spesifik diller de yer alıyor.
Mistral, Codestral'in geliştiricilerin iş akışlarını hızlandırmak ve uygulama oluştururken önemli miktarda zaman ve emek tasarrufu sağlamak için 'kodlama oyunlarını seviyelendirmelerine' yardımcı olabileceğini söylüyor. Ayrıca, hata ve bug riskini azaltmaya da yardımcı olabilir.
Model yeni piyasaya sürülmüş ve henüz halka açık olarak test edilmemiş olsa da Mistral, CodeLlama 70B, Deepseek Coder 33B ve Llama 3 70B gibi mevcut kod merkezli modellerden çoğu programlama dilinde daha iyi performans gösterdiğini iddia ediyor.
Uzun menzilli depo düzeyinde Python kodu tamamlamayı değerlendirmek için tasarlanan RepoBench'te Codestral %34'lük doğruluk puanıyla üç modelden de daha iyi performans göstermiştir. Benzer şekilde, Python kod üretimini değerlendirmek için HumanEval ve Python çıktı tahminini test etmek için CruxEval'de, model sırasıyla %81,1 ve %51,3 puanlarla rakiplerini geride bıraktı. Hatta Bash, Java ve PHP için HumanEval'deki modellerden daha iyi performans göstermiştir.
Modelin C++, C ve Typescript için HumanEval'deki performansı en iyisi olmasa da, tüm testlerin toplamında ortalama puan %61,5 ile en yüksekti ve Llama 3 70B'nin %61,2'sinin hemen önünde yer aldı. SQL performansı için yapılan Spider değerlendirmesinde ise %63,5 puanla ikinci sırada yer aldı.
Geliştirici üretkenliği ve yapay zeka uygulama geliştirme için birçok popüler araç Codestral'ı test etmeye başladı bile. Bunlar arasında LlamaIndex, LangChain, Continue.dev, Tabnine ve JetBrains gibi büyük isimler yer alıyor.