Turing testi çalışması: 1960’lardan kalma orijinal sohbet robotu Eliza, GPT-3.5’i geçiyor

amerikali

Yeni Üye
Çevrimiçi Turing testinin kullanıldığı bir çalışmada, 1966 yılında bilgisayar bilimcisi Joseph Weizenbaum tarafından geliştirilen bilgisayar programı Eliza şaşırtıcı derecede iyi performans gösterdi. Günümüzün sohbet robotlarının ve sesli asistanlarının öncüsü olarak kabul ediliyor. Eliza, daha fazla insan katılımcıyı, Open AI’dan muazzam miktarda finansman ve kapsamlı eğitim verileriyle geliştirilen yapay zeka modeli GPT 3.5’ten daha spesifik bir model olarak görmeye ikna edebildi; bu, ChatGPT’nin mevcut ücretsiz sürümünün temelini oluşturur. Ödeme yapan abonelerin Open AI’nin sohbet robotuyla kullanabileceği daha yeni dil modeli GPT 4.0, önceki sürüme göre önemli ölçüde daha iyi performans gösterdi. Sonuçta yeni model burada kullanılan Turing testini geçemedi çünkü ne yüzde 50’lik bir başarı oranına ulaştı ne de insan katılımcıların performansını aştı.

Reklamcılık



Kendi adını taşıyan yarışmayı ilk kez 1950 yılında İngiliz matematikçi ve bilgisayar bilimcisi Alan Turing bir “taklit oyun” olarak tanıttı. O zamandan beri, bir makinenin insan konuşmasını taklit etme yeteneğini belirlemek için ünlü ama tartışmalı bir kriter haline geldi. Testin modern varyasyonlarında, bir insan “yargıç” tipik olarak hangisinin hangisi olduğunu bilmeden başka bir insanla veya bir chatbotla konuşur. Sorgulayıcı belirli bir yüzdede bilgisayar sistemini bir insandan güvenilir bir şekilde ayırt edemiyorsa, testin başarılı olduğu kabul edilir. Pek çok öznel bileşenin rol oynaması nedeniyle, bu başarının makinenin insana benzer düşünme yeteneği olarak da anlaşılıp anlaşılamayacağı özellikle tartışmalıdır.

En iyi sonuçları veren GPT-4


Henüz diğer araştırmacılar tarafından incelenmemiş olan ve Ekim ayı sonunda ön baskı sunucusu Arxiv’de yayınlanan ve ABD dergisinin hazırladığı mevcut çalışmanın sorumlusu, San Diego’daki Kaliforniya Üniversitesi’nden bilişsel bilim insanları Benjamin Bergen ve Cameron Jones’tu. Ars Technica şimdi de turingtest.live web sitesini kurdular ve bunun üzerinden iki oyuncuyla bir Turing testi uyguladılar. Ek olarak, insan görüşmeciler, diğer insanları veya GPT-4 ve GPT-3.5 AI modellerinin yanı sıra Simetrik Liste İşlemcisine (SLIP) dayalı temel diyalog sistemi Eliza’yı temsil eden çeşitli “tanıklarla” etkileşime girdi. İnsan katılımcılara rastgele olarak yargıç ve tanık rollerini atadılar. Deneye 652 denek katıldı ve toplam 1810 seansı tamamladı. Araştırmacılar, art arda çok sık yapay zeka oyunu oynanması gibi belirli senaryoları hariç tuttuktan sonra 1.405 oyunu analiz etti.

Araştırmacılar başarı oranını (ER), görüşmecinin tanığın insan olduğuna karar verdiği oturumların oranı olarak tanımladı. İnsan tanıklar yüzde 63’lük ER ile en iyi performansı gösterdi. En iyi performansı gösteren GPT-4 komut seti (İstem) (Sierra), yüzde 41’lik bir ER’ye ulaştı. November veya Papa gibi diğer GPT-4 istem setleri sırasıyla yüzde 40 ve 36 oranında benzer performans gösterdi. GPT-3.5’in performansı yalnızca yüzde 5 (Victor) ile yüzde 14 (Juliet) arasındaydı. Öte yandan Eliza, tüm “GPT 3.5 tanıklarını” ve birkaç GPT 4 istemini geride bırakarak yüzde 27’lik bir ER elde etti. Araştırmacılar, sosyal medya aracılığıyla işe alımdan kaynaklanan olası örneklem yanlılığı ve katılımcıların istenen rolü yerine getirmeleri için teşvik eksikliği gibi çalışmadaki bazı zayıflıklara dikkat çekiyor. Ayrıca özellikle GPT-3.5’in kendisini insan olarak göstermeyecek şekilde kasıtlı olarak tasarlandığına da dikkat çekiyorlar. Kamuoyuna açıklanmayan diğer komut setleri önemli ölçüde daha iyi sonuçlar elde edebilir.


(tiw)



Haberin Sonu