SWE-bench Verified olarak adlandırılan bu yeni sürüm, insan tarafından doğrulanan test örnekleri sunarak modellerin otonom yazılım mühendisliği görevlerini ne kadar etkin bir şekilde yerine getirdiğini ölçmeyi hedefliyor.

SWE-bench, büyük dil modellerinin (LLM'ler) GitHub'daki gerçek dünya yazılım sorunlarını çözme yeteneklerini değerlendirmek için kullanılan popüler bir kıyaslama aracıdır. Ancak önceki sürümler, bazı sorunları doğru bir şekilde değerlendirme konusunda sınırlamalar gösterdi. Bu sebeple, OpenAI, SWE-bench'in doğruluğunu artırmak için profesyonel yazılım geliştiricileriyle iş birliği yaparak SWE-bench Verified'ı geliştirdi.

SWE-bench Verified'ın Özellikleri:

Geliştirilmiş Doğruluk: SWE-bench Verified, orijinal test setinden seçilen 500 örneği içeriyor ve bu örnekler insan yorumcular tarafından doğrulandı. Bu doğrulama, çözüm kodu ve birim testleri açısından kapsamlı bir inceleme sürecini içeriyor.
İyileştirilmiş Test Seti: SWE-bench Verified, önceki sürümlerdeki bazı sorunları ele alarak, çözüm doğruluğunu değerlendirmek için kullanılan birim testlerinin ve sorun açıklamalarının kalitesini artırdı. Ayrıca, geliştirici ortamlarının güvenilirliğini artırmak için yeni değerlendirme koşulları getirildi.
Yapay Zeka Performans Ölçümleri: SWE-bench Verified, GPT-4o gibi modellerin, testlerin %33,2'sini çözme yeteneğini gösterdi. Bu, önceki %16'lık performansın iki katından fazlasını ifade ediyor.
Yüksek Kalite Veri Kümesi: SWE-bench Verified, 1.699 rastgele seçilmiş örneği içeriyor ve her örnek, üç bağımsız açıklayıcı tarafından notlandırıldı. Bu süreç, yanlış pozitif oranlarını azaltmayı ve örnek kalitesini artırmayı hedefliyor.
OpenAI COO'su Brad Lightcap, "Yapay zekanın yazılım mühendisliği görevlerinde daha etkili bir rol oynamasını sağlamak için, doğruluğu ve güvenilirliği artırmak amacıyla SWE-bench Verified'ı geliştirdik. Bu, yapay zeka teknolojilerinin gerçek dünya uygulamalarında daha iyi performans göstermesine katkıda bulunacaktır," şeklinde açıklamada bulundu.

Bu güncellemeyle birlikte, OpenAI ve SWE-bench yazarları, yazılım mühendisliği görevlerini daha iyi değerlendirmek ve yapay zekanın bu alandaki yeteneklerini daha doğru bir şekilde ölçmek için çalışmalarına devam edecek.

Muhabir: C. Dilan Koluaçık