Model çöküşü – sentetik veriler yapay zekayı nasıl öldürebilir

amerikali

Yeni Üye
Bilimsel dergi Nature'da yayınlanan bir araştırmaya göre, AI çökme tehlikesiyle karşı karşıya. Bunun nedeni, eğitim verilerinin AI'nın kendisi nedeniyle kullanılamaz hale gelmesi. AI, hiçbir işe yarar veri üretilmeyene kadar giderek daha benzer hale gelen bu eğitim verilerini üretiyor. Bilim insanları, sentetik veri kaynağı olarak İnternet'e odaklanıyor ve verilerin kasıtlı olarak zehirlenmesini tartışıyorlar.


Reklamcılık



Büyük dil modelleri ve benzer şekilde görüntü oluşturucular, kendilerine sağlanan eğitim verilerinden öğrenirler. Bundan -çok kısaca- olasılıklar türetir. Bu nedenle cevaplar, soruya en çok uyan şeyden veya cümleleri oluşturan bir olasılık dizisinden oluşur.

Nature'daki güncel çalışma üzerine bir yorumda, bundan kaynaklanan model çöküşü sorunu köpekler örnek alınarak açıklanıyor. Öncelikle, farklı köpek ırkları var. Golden retriever'lar eğitim verilerinde diğer köpeklere göre biraz daha sık görünüyor. Yani ilk adımda, bir köpek sorulduğunda, AI daha sık bir golden retriever gösteriyor. AI daha da geliştikçe, artık ilk adımdaki verileri de kullanıyor – yani golden retriever'ları daha sık gösteren verileri eğitim materyali olarak kullanıyor. Bu, bir noktada AI'nın golden retriever'ları yalnızca köpek olarak göreceği anlamına geliyor. Çalışmanın yazarları, bunun ardından modellerin gerçek bir çöküşünün geleceğini varsayıyorlar.

Yapay zeka tarafından yaratılan sözde sentetik verilerin, yani verilerin sorunlu hale gelebileceği daha önce birçok kez anlatılmıştı. Tekrarlayıcıdır ve daha önce öğrenilen bilgileri, yani çeşitli köpekleri geçersiz kılmakla tehdit eder. Model çöküşü ayrıca sıklıkla mistisizmdeki Ouroboros yılanına benzetilir: Kendini bir daire içinde yemeye devam eder.



Nature'da yazarlar internetin bu tür sentetik verilerle dolup taştığını yazıyor. Ancak, içeriğin yapay zeka tarafından oluşturulduğunu söylemiyor. Sorunu, örneğin bot çiftliklerinden gelen kötü içerikle sosyal medyaya ve arama motorlarına sızma girişimleriyle karşılaştırıyorlar. Ancak, bununla başa çıkmak çok daha kolay. “Büyük dil modelleri, daha düşük olasılıkla sonuçlar üretecek şekilde eğitilmelidir.” Karmaşık sistemleri anlamak için çok önemlidirler.

Bu nedenle, AI sağlayıcılarının şimdiye kadar yapabildikleri gibi, İnternet'ten serbestçe erişilebilen verileri kullanmaları çok yakında bir seçenek olmayacak. Web sitesi operatörlerinin giderek artan bir şekilde tarayıcıları hariç tutan yeni düzenlemeleri dışında.

Veri sonsuz değildir


Ancak, mevcut verilerin bir sınırı var. Bilim insanları ayrıca bir bilgi verimi maksimumundan bahsediyor. Aynı zamanda, AI sağlayıcıları modellerini daha da fazla ölçeklendirmeye çalışıyor, yani onları daha fazla veriyle eğitmeye çalışıyor. Bazı bilim insanları bunu Yapay Genel Zeka (AGI) yaratmak için bir fırsat olarak görüyor. Ancak, çoğu araştırmacı bu planı eleştiriyor – mantıksal düşünme gibi becerilerin yalnızca ölçeklendirme yoluyla yaratılabileceğine inanmıyorlar.

Ancak, ölçeklendirmek için artık daha fazla veriye ihtiyaç var. Zirveden sonra, bu yalnızca sentetik olarak üretilebilir. Avantajı, dünyadaki daha az tıklama işçisinin modellere dahil edilmemesi gereken materyalleri elemek, beyan etmek ve ayıklamak zorunda kalması olacaktır – ancak bu, bu görevi yapan insanlar üzerinde büyük bir psikolojik baskı yaratacaktır.


ayrıca okuyun

Daha fazla göster



daha az göster






(evet)