Gündem

13/1/2025

Sky-T1: Kendi O1 Preview Modelinizi 450 Doların Altında Bir Maliyetle Eğitin

UC Berkeley NovaSky ekibi, uygun maliyetli ve verimli bir muhakeme modeli olan Sky-T1-32B-Preview'i tanıttı. Bu model, popüler muhakeme ve kodlama testlerinde o1-preview ile eşdeğer bir performans sergiliyor. Dikkat çekici bir şekilde, Sky-T1-32B-Preview sadece 450 dolar gibi düşük bir maliyetle eğitildi ve yüksek seviyeli muhakeme yeteneklerinin daha uygun maliyetlerle elde edilebileceğini kanıtladı. Modelin tüm kodları ve ağırlıkları açık kaynaklı olarak sunuluyor.

Muhakemede Rekabetçi Performans

Sky-T1-32B-Preview, karmaşık görevleri çözmek için uzun içsel düşünce zincirleri oluşturabilen o1 ve Gemini 2.0 gibi modellerle rekabet edebiliyor. Ancak bu modellerin kapalı teknik ayrıntıları ve erişilemeyen ağırlıkları, akademik ve açık kaynak topluluklarının katılımını sınırlıyor. Bu duruma yanıt olarak, NovaSky ekibi, açık ağırlıklı muhakeme modellerini eğitme çalışmalarına öncülük ediyor.

Tamamen Açık Kaynak: Toplulukla Büyümek

NovaSky ekibi, topluluğun katkı sağlayabilmesi için Sky-T1-32B-Preview ile ilgili tüm detayları açık kaynak olarak paylaşıyor. Bu kapsamda sunulan kaynaklar şunları içeriyor:

  • Altyapı: Verilerin oluşturulması, modelin eğitilmesi ve değerlendirilmesi için gerekli araçlar.
  • Veri Seti: Sky-T1-32B-Preview'i eğitmek için kullanılan 17K'lık veri seti.
  • Teknik Rapor: Eğitim sürecini açıklayan ve bir wandb günlüğü içeren rapor.
  • Model Ağırlıkları: 32B parametreli modelin ağırlıkları.

Akademik ve Endüstriyel İşbirliğine Davet

Açık kaynaklı bu paylaşım, topluluğun Sky-T1-32B-Preview'i geliştirmesine, yeni alanlarda denemeler yapmasına ve muhakeme modelleri için sınırları zorlamasına olanak tanımayı hedefliyor. Model, matematik ve kodlama gibi alanlarda rekabetçi performans sergilemekle kalmıyor, aynı zamanda uygun maliyetli bir altyapı ile geniş çapta erişim sağlıyor.

NovaSky ekibi, bu girişimin açık kaynaklı araştırmalar ve muhakeme modelleri geliştirme alanında yeni bir dönem başlatacağına inanıyor.

Tarifler

Veri Derleme ve İşleme

Ekip, veri derleme sürecinde açık kaynaklı QwQ-32B-Preview modelinden yararlandı. Çeşitli muhakeme alanlarını kapsayan veriler, ret örnekleme yöntemiyle iyileştirildi ve Still-2'den ilham alınarak GPT-4o-mini ile yeniden yazıldı. Bu yaklaşım, verilerin analiz edilebilirliğini artırdı. Örneğin, APPs veri setinde, kod formatlaması yapılmadan önce doğruluk oranı %25 iken, yeniden formatlama ile bu oran %90’a yükseldi.

Ret Örnekleme

Doğru sonuçlar üretmeyen QwQ örnekleri, matematik ve kodlama veri setlerinden çıkarıldı. Matematik problemleri, kesin eşleşme doğrulamasıyla; kodlama problemleri ise birim testleri ile kontrol edildi. Sonuç olarak, APPs ve TACO veri setlerinden 5 bin kodlama verisi, NuminaMATH veri setinden ise 10 bin matematik verisi seçildi. Buna ek olarak, Still-2'den bin bilim ve bulmaca verisi de veri setine eklendi.

Eğitim Süreci

Model, Qwen2.5-32B-Instruct üzerine ince ayar yapılarak eğitildi. Eğitim, 3 epoch, 1e-5 öğrenme oranı ve 96 batch boyutu kullanılarak gerçekleştirildi. Süreç, DeepSpeed Zero-3 altyapısı ile 8 H100 GPU üzerinde yaklaşık 19 saatte tamamlandı. Eğitim maliyeti yalnızca 450 dolar olup, bu süreçte Llama-Factory kullanıldı.

NovaSky ekibinin bu çalışması, uygun maliyetli ve verimli model geliştirme sürecine ışık tutuyor. Veriler, kodlar ve diğer teknik ayrıntılar açık kaynak olarak paylaşılmaya devam ediyor.

Değerlendirme ve Sonuçlar

Diğer Bulgular

Model Boyutunun Önemi

Model boyutu fark yaratıyor. Daha küçük modeller (7B ve 14B) ile yapılan başlangıç deneylerimiz, yalnızca mütevazı iyileştirmeler gösterdi. Örneğin, Qwen2.5-14B-Coder-Instruct'un APPs veri seti üzerindeki eğitimi, LiveCodeBench doğruluğunu %42.6'dan %46.3'e çıkardı. Ancak, 32B'den küçük modellerin çıktıları incelendiğinde, sık sık tekrar eden içerik ürettikleri ve bu durumun etkinliklerini sınırladığı gözlemlendi.

Veri Karışımının Önemi

Başlangıçta, STILL-2 tarafından sağlanan Numina veri setinden 3-4 bin matematik sorusuyla 32B bir modeli eğittik ve AIME24 doğruluğunu %16.7'den %43.3'e yükselttik. Ancak, APPs veri setinden üretilen kodlama verilerini eğitime dahil ettiğimizde, AIME24 doğruluğu %36.7'ye düştü. Bunun, matematik ve kodlama görevleri için gereken farklı muhakeme yaklaşımlarından kaynaklandığını düşünüyoruz.Model Boyutunun Rolü

Model boyutu, özellikle küçük modellerde (7B ve 14B) yapılan deneylerde önemli farklar yaratmıyor. Örneğin, Qwen2.5-14B-Coder-Instruct modelinin APPs veri seti üzerinde eğitilmesi, doğruluğu sadece %42.6'dan %46.3'e çıkardı. Ancak, 32B'nin altındaki modellerin çıktılarında tekrar eden içerik gözlemlendi ve bu durum etkinliklerini sınırladı. Bu da model boyutunun büyüklüğünün daha yüksek performans sağladığını gösteriyor.

Veri Karışımının Önemli Etkisi

Başlangıçta, STILL-2 tarafından sağlanan Numina veri setiyle yapılan eğitimde, AIME24 doğruluğu %16.7'den %43.3'e çıkarıldı. Ancak, APPs veri seti gibi kodlama verilerinin eklenmesiyle AIME24 doğruluğu %36.7'ye düştü. Bu, matematik ve kodlama problemlerinin farklı muhakeme yaklaşımları gerektirdiğini ortaya koydu. Kodlama genellikle simülasyon veya test girdileri gibi ek mantıksal adımlar içerirken, matematik problemleri daha doğrudan ve yapılandırılmış bir yaklaşım gerektiriyor.

Bu farklılıkları dengelemek amacıyla, NuminaMath veri setinden zorlu matematik problemleri ve TACO veri setinden karmaşık kodlama görevleriyle eğitim verileri zenginleştirildi. Sonuç olarak, AIME24 doğruluğu %43.3'e geri dönerken, modelin kodlama yetenekleri de iyileşti. Bu bulgular, doğru veri karışımının ve model boyutunun, performansı önemli ölçüde etkileyebileceğini ortaya koyuyor.