Yapay Zeka

Friday, March 7, 2025

Mistral'dan Yeni Teknoloji: PDF Belgeleri Yapay Zeka için Okunabilir Hale Geliyor

Fransız büyük dil modeli (LLM) geliştiricisi Mistral, perşembe günü geliştiriciler için yeni bir API yayımladı. Mistral OCR adı verilen optik karakter tanıma (OCR) API'si, herhangi bir PDF dökümanını metin dosyasına dönüştürerek yapay zeka modellerinin verileri daha kolay işlemesini sağlıyor.

Büyük dil modelleri (LLM'ler), OpenAI'nin ChatGPT'si gibi popüler jeneratif yapay zeka araçlarının temelini oluşturur ve ham metinlerle çok daha verimli çalışır. Bu nedenle, kendi yapay zeka sürecini oluşturmak isteyen şirketler için verilerini düzenli ve temiz bir formatta saklamak önemlidir. Veri düzeni, yapay zekanın öğrenme ve şirket içi belgelerle çalışma yeteneğini artırır.

Mistral OCR, çoğu OCR API'sinden farklı olarak multimodal bir API'dir. Yani, metin bloklarıyla iç içe geçmiş illüstrasyonları ve fotoğrafları algılayabilir. API, grafiksel unsurları belirleyerek çıktıda sınır kutuları içinde sunar. Böylece hem metin hem de görsel unsurlar çıktıya dahil edilmiş olur.

Ayrıca, Mistral OCR sadece düz bir metin çıktısı vermez; geliştiricilerin metinlere başlıklar, bağlantılar ve diğer formatlama ögeleri eklemesini sağlayan Markdown formatında düzenlenmiş bir çıktı sunar. Markdown, LLM'lerin eğitim verilerinde yaygın olarak kullanılır. Mistral'in Le Chat veya OpenAI'nin ChatGPT'si gibi YZ asistanları da genellikle Markdown oluşturarak madde işaretleri, bağlantılar veya kalın metin formatlamaları ekler. Asistan uygulamaları, Markdown çıktılarını zengin metin formatına otomatik olarak dönüştürür. Böylelikle ham metin ve Markdown, GenAI döneminde giderek daha önemli hale gelmiştir.

Mistral'in kurucu ortağı ve baş bilim sorumlusu Guillaume Lample konuyla ilgili olarak şunları söyledi: "Yıllar içinde organizasyonlar, genellikle PDF veya sunum formatında olan ve LLM'ler, özellikle RAG sistemleri tarafından erişilemeyen sayısız doküman biriktirdi. Mistral OCR sayesinde müşterilerimiz, zengin ve karmaşık dökümanları tüm dillerde okunabilir içeriğe dönüştürebilecek."

Ayrıca şu ifadeyi ekledi: "Bu, şirketlerin geniş iç dökümanlarına erişimi basitleştirmesi gereken yapay zeka asistanlarının yaygınlaşması için kritik bir adımdır."

Mistral OCR, şirketin kendi API platformunda veya AWS, Azure, Google Cloud Vertex gibi bulut ortakları üzerinden sunuluyor. Gizli veya hassas verilerle çalışan şirketler için on-premise (yerel sunucu) kurulum seçeneği de mevcut.

Paris merkezli yapay zeka şirketine göre, Mistral OCR, Google, Microsoft ve OpenAI'nin OCR API'lerinden daha iyi performans gösteriyor. Şirket, OCR modelini karmaşık dökümanlarla test ettiğini ve bunun matematiksel ifadeler (LaTeX formatı), gelişmiş sayfa düzeni ve tabloları içeren belgelerde daha iyi çalıştığını belirtiyor. Mistral OCR'nin özellikle İngilizce dışındaki dillerde de daha başarılı olduğu iddia ediliyor.

Mistral OCR, yalnızca tek bir işlevi yerine getirdiği için diğer seçeneklerden daha hızlı olduğuna inanıyor. Bu durum, OCR işleminin yanı sıra birçok özelliğe sahip olan GPT-4o gibi multimodal LLM'lerle karşılaştırıldığında şaşırtıcı değil.

Mistral, kendi YZ asistanı Le Chat için de Mistral OCR'yi kullanıyor. Kullanıcılar bir PDF yüklediğinde, şirket arka planda Mistral OCR'yi çalıştırarak belge içeriğini çözümleyip metni işlemeden önce analiz ediyor.

Şirketler ve geliştiriciler büyük ihtimalle Mistral OCR'yi, multimodal dökümanları büyük dil modelleriyle kullanabilmek için RAG (Retrieval-Augmented Generation) sistemi ile birlikte entegre edecekler. Sistem, belgelerden veri çekerek yapay zeka modeline bağlam sağlamak için kullanılacak. Örneğin, hukuk firmalarının büyük hacimli dökümanları hızlıca analiz etmek için bu teknolojiden faydalanması mümkün olabilir.




Kaynak: https://techcrunch.com/2025/03/06/mistrals-new-ocr-api-turns-any-pdf-document-into-an-ai-ready-markdown-file/