OpenAI'nin yeni o3 modeli, akıl yürütme kriterlerinde insanlardan daha iyi performans göstermeyi hedefliyor

amerikali · Bugün 05:14

OpenAI'nin yeni o3 modeli, akıl yürütme kriterlerinde insanlardan daha iyi performans göstermeyi hedefliyor

OpenAI CEO'su Sam Altman, bir videoda iki yeni model o3 ve o3-mini'nin önizlemesini sundu. Bunlar, OpenAI'nin neredeyse iki hafta önce yayınladığı akıl yürütme modeli o1'in halefleridir. Altman, o2 modelinin olmayacağını söylüyor. Bu, yakın zamanda Claude serisinde dil modellerini sunan “Anthropic'teki dostlarımıza saygıdan dolayı” yapılıyor. Herhangi bir detay vermedi. Altman ayrıca o3 adını OpenAI'nin “isimlendirmede gerçekten çok kötü olma konusundaki harika geleneği” ile haklı çıkardı.

Reklamcılık

Önerilen editoryal içerik

İzniniz üzerine harici bir YouTube videosu (Google Ireland Limited) buraya yüklenecektir.

YouTube videosunu her zaman yükle

YouTube videosunu şimdi indirin

OpenAI en son dil modeli o3'ü sunuyor.

Muhakeme kriterlerinde artış

OpenAI'ye göre o3 modeli, programlama ve matematik alanlarındaki zorlu teknik kriterlerde yeni standartlar belirliyor. “Yazılım tarzı” kriteri “SWE-Bench Verified”da yüzde 71,7'lik bir değer elde etti; bu, o1 ile karşılaştırıldığında yüzde 20'nin üzerinde bir iyileşmeyi temsil ediyor. Rekabetçi programlama kriteri olan “Codeforces”ta o3, 2727 Elo derecelendirmesine ulaştı; bu, onu çoğu insan rekabetçi programcının önüne koyan bir başarı. Aynı durum matematik kıyaslamaları için de geçerlidir: Matematik doktora kıyaslaması “GPQ Diamond”da o3 yüzde 87,7'lik bir doğruluk elde eder ve bu nedenle matematik doktorası olan tipik uzmanlardan daha iyi performans gösterir.

o3'ün muhakeme potansiyelini daha fazla göstermek için OpenAI, Epoch AI'nin zorlu “Frontier Math Benchmark” (PDF) sonuçlarından elde edilen sonuçları sundu. Burada o3 yüzde 25'in üzerinde bir doğruluk elde ederken önceki modeller yüzde 2'nin altındaydı.

Reasoning-Benchmark Arc'ta insanlardan daha iyi

o3, “Arc AGI” akıl yürütme kriterinde belirli bir başarıyı kutladı. “Yüksek hesaplamalı” bir konfigürasyonda, o3 artık kıyaslamada yüzde 87,5'lik bir doğruluğa ulaştı ve bu nedenle ilk kez yaklaşık yüzde 85'lik bir insan performansına ulaştı. Bu, Yapay Genel Zeka (AGI) yönünde önemli bir adımdır çünkü ARC-AGI'nin varlığı, AGI'nin başarıldığı anlamına gelmez. Aslında o3 bazı çok basit görevlerde hala başarısız oluyor, bu da insan zekasından temel farklılıklara işaret ediyor, diyor Arc Ödüllü bir makale. OpenAI ve Arc Ödülü gelecekte işbirliklerini genişletmek istiyor.

o3-mini düşük maliyetlerle performans vaat ediyor

OpenAI ayrıca o3-mini modelini de sundu. “Uygun maliyetli muhakeme performansının yeni sınırını” tanımlar. O1'e benzer performansıyla çok daha hızlı ve daha ucuzdur.

o3-mini ile kullanıcılar farklı “akıl yürütme çabalarına” sahip üç mod arasında seçim yapabilmelidir. Bir demoda OpenAI araştırmacıları, kendisi için bir değerlendirme rutini yazıp yürüterek o3-mini'nin kendisini gerçek zamanlı olarak nasıl değerlendirebileceğini gösterdi. CEO Altman, “Bir dahaki sefere modelden kendisini geliştirmesini istemeliyiz” diye şaka yaptı.

Halk tarafından güvenlik testi

Altman, o3 ve o3-mini'nin yakında seçkin güvenlik araştırmacıları tarafından test edilmek üzere piyasaya sürüleceğini duyurdu. Modellerin genel kullanıma sunulmadan önce olası güvenlik açıkları ve kötüye kullanım potansiyeli açısından incelenmesini istiyorlar.

Yeni bir “Kasıtlı Hizalama” süreci, modellerin güvenlik yönergeleriyle daha uyumlu hale getirilmesine yardımcı olmayı amaçlamaktadır. Akıl yürütme, istenmeyen istekleri daha iyi tanımanıza ve reddetmenize yardımcı olmalıdır.

Altman'a göre o3-mini'nin Ocak ayının sonunda ve o3'ün de kısa bir süre sonra halka sunulması planlanıyor. İlgilenen araştırmacılar 10 Ocak'a kadar erken erişim için başvurabilirler.

Google “düşünen” Gemini 2.0 modelini duyurdu

Bu arada Google, kendi muhakeme yeteneğine sahip dil modelini duyurdu: Bir blog gönderisine göre, “Gemini 2.0 Flash” adlı sistem, çıktıdan önce yanıtları kontrol eden ve geliştiren bir “düşünme moduna” sahip olacak. Kullanıcılara isteğe bağlı olarak sistemin “düşünceleri” hakkında bilgi verilmelidir.

Ancak Google'ın akıl yürütme modeli başlangıçta yalnızca deneysel ve sınırlı bir sürümde mevcut olacak. Etkili “Transformer” makalesindeki çalışmalarıyla tanınan araştırmacı Noam Shazeer, geliştirmede önemli bir rol oynadı. Shazeer geçici olarak Google'dan ayrılmıştı ancak Google ile yeni kurulan Character AI arasındaki anlaşmanın ardından geri döndü.

(vza)

OpenAI'nin yeni o3 modeli, akıl yürütme kriterlerinde insanlardan daha iyi performans göstermeyi hedefliyor

amerikali

Yeni Üye