amerikali
Yeni Üye
İngiltere'deki Reading Üniversitesi Psikoloji ve Klinik Dilbilim Fakültesi'nden araştırmacı Peter Scarfe ve ekibi, sınav sisteminin yapay zekaya (AI) dayalı cevaplara karşı savunmasızlığını test etmek için bir deney gerçekleştirdi. “Sıkı kör çalışma” için bilim adamları, tamamı ChatGPT-4 tarafından oluşturulan 30'dan fazla metni sınav sistemine beslediler. Tüm eğitim yılları boyunca toplam beş lisans modülü bunlarla beslendi ve bunlar normalde ünlü üniversitede psikoloji diplomasına temel teşkil ediyordu.
Reklamcılık
Sonuç olarak yapay zeka gönderimlerinin yüzde 94'ü tespit edilemedi. Deneyimsiz sınav görevlileri ayrıca gerçek öğrencilerinkinden ortalama yarım seviye daha yüksek notlar verdiler. Tüm modüllerde, bir modüle yapılan yapay zeka gönderimlerinin, aynı sayıda gerçek yanıtın rastgele seçilmesinden daha iyi performans gösterme ihtimali yüzde 83,4'tü.
Ekip şimdi sonuçlarını Halk Bilim Kütüphanesi'nin çevrimiçi dergisi PLOS One'da yayınladı. Çalışmaya göre iki tür sınav vardı: İlk olarak, her biri 200 kelimelik altı sorudan dördünün gönderilmesi gereken kısa cevaplı sorular (KAW) soruldu. Ayrıca, 1500 kelimelik bir makalenin gönderilmesi gereken görevler de vardı. Öğrencilerin KAW'ları 2,5 saatlik bir zaman diliminde tamamlamaları gerekiyordu. Daha uzun makaleler için 8 saatleri vardı. Her iki sınav da öğrencilerin ders materyallerine, akademik makalelere, kitaplara ve İnternet'e erişebildiği ve potansiyel olarak diğer öğrencilerle işbirliği yapabildiği veya üretken yapay zekayı kullanabildiği evde gerçekleştirildi.
İnsanlar final sınavında daha iyi performans gösterdi
Yapay zeka çözümleri için Scarfe ve meslektaşları, GPT-4'e yönelik standartlaştırılmış istemler kullandı. KAW sınavları için soru şuydu: “Aşağıdaki soruyu akademik literatüre referanslar dahil ancak ayrı bir referans bölümü olmadan 160 kelimeyle yanıtlayın.” Makaleler için, gerisini değiştirmeden “2000 kelimelik bir makale yazın” komutunu kullandılar. Araştırmacılar uzunluk gereksinimlerini istenenden farklı belirlediler çünkü kelime sınırı doğru belirlendiğinde GPT-4'ün genellikle KAW'larda çok fazla, makalelerde ise çok az kelime ürettiğini buldular. Değiştirilen limitlerle birlikte kısa cevapların çıktısı, hedef kelime sayısıyla kabaca eşleşti. Makaleler için, makineden, makul derecede uzun olana kadar yanıtına “devam etmesini” istemek hâlâ gerekliydi.
Araştırmanın yapıldığı 2023 yazında, üniversitede sınavlarda yapay zeka kullanımına izin verilmiyordu. Sınavları göndermek ve not vermek için kullanılan yazılım sistemlerinde bir “Yapay Zeka Dedektörü” yoktu. Meslektaşlarımız, okuldan kötü akademik uygulamaların ve suiistimallerin nasıl tespit edileceği konusunda standart talimatlar aldı. Yanıtların “gerçek olamayacak kadar iyi” olup olmadığına dikkat etmeleri gerekiyordu. Süreli bir sınav kağıdını tamamlayan bir lisans öğrencisinden beklenmeyen dikkat çekici bir yazı stili, içerik düzeyi veya kalite varsa alarm zilleri de çalmalıdır. Ancak öğrencilerin üniversiteden ayrılmadan hemen önce aldıkları son modülde, gerektirdiği daha yüksek içerik talepleri nedeniyle yapay zekadan daha iyi notlar alabildiler.
(biz)
Reklamcılık
Sonuç olarak yapay zeka gönderimlerinin yüzde 94'ü tespit edilemedi. Deneyimsiz sınav görevlileri ayrıca gerçek öğrencilerinkinden ortalama yarım seviye daha yüksek notlar verdiler. Tüm modüllerde, bir modüle yapılan yapay zeka gönderimlerinin, aynı sayıda gerçek yanıtın rastgele seçilmesinden daha iyi performans gösterme ihtimali yüzde 83,4'tü.
Ekip şimdi sonuçlarını Halk Bilim Kütüphanesi'nin çevrimiçi dergisi PLOS One'da yayınladı. Çalışmaya göre iki tür sınav vardı: İlk olarak, her biri 200 kelimelik altı sorudan dördünün gönderilmesi gereken kısa cevaplı sorular (KAW) soruldu. Ayrıca, 1500 kelimelik bir makalenin gönderilmesi gereken görevler de vardı. Öğrencilerin KAW'ları 2,5 saatlik bir zaman diliminde tamamlamaları gerekiyordu. Daha uzun makaleler için 8 saatleri vardı. Her iki sınav da öğrencilerin ders materyallerine, akademik makalelere, kitaplara ve İnternet'e erişebildiği ve potansiyel olarak diğer öğrencilerle işbirliği yapabildiği veya üretken yapay zekayı kullanabildiği evde gerçekleştirildi.
İnsanlar final sınavında daha iyi performans gösterdi
Yapay zeka çözümleri için Scarfe ve meslektaşları, GPT-4'e yönelik standartlaştırılmış istemler kullandı. KAW sınavları için soru şuydu: “Aşağıdaki soruyu akademik literatüre referanslar dahil ancak ayrı bir referans bölümü olmadan 160 kelimeyle yanıtlayın.” Makaleler için, gerisini değiştirmeden “2000 kelimelik bir makale yazın” komutunu kullandılar. Araştırmacılar uzunluk gereksinimlerini istenenden farklı belirlediler çünkü kelime sınırı doğru belirlendiğinde GPT-4'ün genellikle KAW'larda çok fazla, makalelerde ise çok az kelime ürettiğini buldular. Değiştirilen limitlerle birlikte kısa cevapların çıktısı, hedef kelime sayısıyla kabaca eşleşti. Makaleler için, makineden, makul derecede uzun olana kadar yanıtına “devam etmesini” istemek hâlâ gerekliydi.
Araştırmanın yapıldığı 2023 yazında, üniversitede sınavlarda yapay zeka kullanımına izin verilmiyordu. Sınavları göndermek ve not vermek için kullanılan yazılım sistemlerinde bir “Yapay Zeka Dedektörü” yoktu. Meslektaşlarımız, okuldan kötü akademik uygulamaların ve suiistimallerin nasıl tespit edileceği konusunda standart talimatlar aldı. Yanıtların “gerçek olamayacak kadar iyi” olup olmadığına dikkat etmeleri gerekiyordu. Süreli bir sınav kağıdını tamamlayan bir lisans öğrencisinden beklenmeyen dikkat çekici bir yazı stili, içerik düzeyi veya kalite varsa alarm zilleri de çalmalıdır. Ancak öğrencilerin üniversiteden ayrılmadan hemen önce aldıkları son modülde, gerektirdiği daha yüksek içerik talepleri nedeniyle yapay zekadan daha iyi notlar alabildiler.
(biz)