Kara kutuya bir bakış: AI eğitim veri seti C4 de belirsiz kaynaklardan yararlanıyor

amerikali · 21 Nis 2023

Kara kutuya bir bakış: AI eğitim veri seti C4 de belirsiz kaynaklardan yararlanıyor

AI sohbet botları, dünya hakkında bilgileri yazılı dilden öğrenir. Eğitim sırasında dil modellerine dahil edilen metin materyali, daha sonraki bilgilerinin ve insanlarla konuşmalarının kalitesini büyük ölçüde belirler. İnternetten bir araya toplanmış büyük metinler, kitaplar ve materyaller, makine yemi olarak hizmet ediyor. Büyük dil modellerinin tüm sağlayıcıları, ürünlerini ne ile eğittikleri hakkında açıkça konuşmazlar – örneğin OpenAI, GPT-4 ve ChatGPT veritabanını gizli tutar, bu nedenle araştırmacılar burada bir kara kutudan ve diğer tescilli (kapalı) , çoğunlukla ticari) modeller. Bununla birlikte, açık kaynak projeleri bile bilgileri söz konusu olduğunda her zaman kesin değildir ve sızdırılmış LLaMA gibi tamamen sentetik (OpenAI API aracılığıyla oluşturulmuş), damıtılmış veri kümeleriyle eğitilmiş model yan ürünleri giderek daha fazla ortaya çıkıyor.

Bir Washington Post araştırma ekibi, makine öğrenimi eğitimi için özellikle önemli bir veri setinin kaynağı olarak hizmet veren 15 milyon web sayfasını inceleyerek kara kutuların içine baktı: Colossal Clean Crawled Corpus (C4), web’den kazınmış bir veri koleksiyonudur. tek bir anlık görüntüden (dizinlenmiş web sayfalarının anlık görüntüsü) oluşan dil metinleri. Anlık görüntü daha sonra kapsamlı bir şekilde temizlendi ve filtrelendi, veriler hariç tutuldu, blok listeleri uygulandı, kopyalar kaldırıldı, kimlikler tanınmaz hale getirildi – tamamlanmış veri seti yaklaşık 750 gigabayttan oluşuyor. En az yüzde 99 oranında İngilizce içeriğe sahip olmayan web siteleri hariç tutuldu.

Colossal Clean Crawled Corpus – o kadar temiz değil

Gazeteci Nitasha Tiku, gazeteci Kevin Schaul ve veri muhabiri Chen Szu Yu, Allen Institute for AI’dan araştırmacılarla birlikte C4’ün verilerini aldığı web sitelerini inceledi ve her türlü tutarsızlığı buldu. Örneğin, telif hakkı simgesi 200 milyondan fazla kez dahil edilmiştir ve b-ok.org gibi içeriği yasa dışı olarak dağıtmak için bilerek telif hakkı ihlali yapan bazı korsan siteler, veri kümesinin içeriği türettiği alanlar arasındadır – 190. sırada (14 milyon ile) belirteçler ve toplam külliyatın yüzde 0,009’u). Veri setinde ABD’de resmi olarak kalpazanlık ve ürün korsanlığıyla tanınan en az 27 başka site bulunabilir.

En çok aranan 10 web sitesinin yarısı büyük günlük gazetelerden (4. sırada NY Times, ardından 6 ila 9. sırada: Los Angeles Times, The Guardian, Forbes, Huffpost ve Washington Post 11. sırada), en önemli kaynaklar ( 15 milyon üzerinden 2. sırada) Wikipedia – ücretsiz erişime açık olmayan online kütüphane scribd.com, C4 kaynakları sıralamasında 3. sırada yer almaktadır. Sanatçıların ve kreatiflerin bağışlar ve aylık abonelikler yoluyla gelir elde ettiği Kickstarter ve Patreon gibi web siteleri C4 için elenir. Pazarlama fikirleri ve sanatsal projeler, yani fikri mülkiyet, burada dinlenebilir. Veri setinde tespit edilebilecek çok sayıda telif hakkı bildirimi göz önüne alındığında, yazarlık ve onun korunması konusundaki anlaşmazlığın daha da alevlenmesi muhtemeldir.

Telif hakkı için C

Nitasha Tiku ve meslektaşlarına göre, C4 veri setine, özellikle etkilendiği düşünülen gazetecilik, tıp, içerik oluşturma, bilim, halkla ilişkiler/reklamcılık ve pazarlama alanlarından internetten bir araya toplanmış metinler hakimdir. AI metin üreteçleri ve metin üretiminin otomasyonunun daha da büyük ayaklanmalara yol açması muhtemeldir.

C4’ün içeriğini, veri kümesindeki niceliksel paylarına karşılık gelen alanların boyutuyla kategorilere ayıran etkileşimli bir infografik özellikle ilgi çekicidir. İş ve sanayi (yüzde 16) ve teknoloji (yüzde 15), aynı zamanda haber ve medya (yüzde 13), sanat ve eğlence (yüzde 11) ve araştırma ve sağlık (yüzde 9) büyük bir kısmını oluşturuyor. İş ve eğitim (yüzde 7), hobiler ve eğlence (yüzde 8) ve ev ve bahçe (yüzde 6) ile hemen hemen aynıdır. Hukuk ve hükümet de temsil edilmektedir (yüzde 4). ABD web siteleri ve İngilizce içerik tüm alanlarda hakimdir. Araştırma ekibi ve Allen araştırmacıları, bazı web sitelerine artık İnternet üzerinden erişilemediği için tüm web sitelerini kategorize edemedi.

AI sohbet botlarını eğitmek için kullanılan bir veri setinin kara kutusuna bir bakış: Konuya göre kümelenmiş milyonlarca web sitesi. Washington Post’ta infografik tıklanabilir ve siz sayfayı kaydırdıkça farklı bilgi katmanlarını gösterir.

(Resim: Washington Post)

Tam metin patentler 1. sırada

Tuhaf bir şekilde, külliyata açık ara en çok katkıda bulunan veri kaynağı, dünya çapındaki tam metin patentler için bir Google arama motorudur (patents.google.com): Bu kaynaktan 720 milyon jeton gelir ve tüm veri setinin yüzde 0,46’sını oluşturur. Karşılaştırma için: (İngilizce) Wikipedia, 290 milyon jetonla (veri setinin yüzde 0,19’u) ikinci sırada yer alıyor. Belirteç, makine öğreniminin parçalara ayrıldığı kelimeler, resimler veya cümlelerdeki en küçük anlam birimidir. Belirteçler, daha sonra model tarafından bulunabilecekleri bir vektör uzayına gömülebilir. Bu teknik (belirteçleme), Doğal Dil İşleme’de (NLP), örneğin ChatGPT gibi trafo modelleri oluşturmak için veya BERT dönüştürücülerinde metin sınıflandırması için belirteç sınıfları biçiminde temeldir.

Yüksek düzeyde güvenilirlikleriyle tanınmayan medya ve propaganda siteleri, veri kümesinden tamamen filtrelenmemiştir veya tamamen filtrelenmemiştir: Russia Today’den (RT.com, 65. sırada) ve sağcı popülist site Breitbart News’den (159. sırada) makaleler ) tekrar veri setinde bulunabilir. Beyaz üstünlüğünün izleri, vdare.com (sıralama 993) ve çeşitli dini grupların aşırı yönelimlerinin yanı sıra, bazıları diğer gruplara karşı nefret ve önyargıları vaaz ediyor.

Özel blog göz gezdirildi mi?

Yine teknoloji alanında yer alan çok sayıda özel blog C4’e giriyor. Facebook ve Twitter gibi sosyal ağlar ise AI modellerini eğitmek için kazımayı yasakladıkları için temsil edilmiyor. Facebook ve Google gibi şirketlerde kullanıcı verileriyle ne yapıldığını kimse tam olarak bilmiyor. Elon Musk şimdi de TruthGPT OpenAIs ChatGPT adlı bir chatbot ile rekabet etmek için kendi AI şirketini kuracağını duyurdu. Twitter verilerinin eğitim temeli haline gelmesi imkansız görünmüyor. WP araştırmasına göre, C4 veri kümesinin filtreleri, gözden kaçan komplo hikayeleri kaynakları, 4chan.org, threecentpartriots.com (sıraların çok altında) ve ırkçı site stormfront.org temsil edilmektedir.

Schaul ve Szu Yu, referans verilen yaklaşık 15 milyon web sitesinin URL’lerini bulmak için kullanılabilecek bir arama motoru geliştirdi. Arama motoru nicel bilgi sağlar: URL’si verileri gözden geçirmek için C4’ü kullanan her web sitesi için, belirteçlerin mutlak sayısını ve bunların tüm veri kümesi içindeki yüzdesini verir. C4, daha önce model eğitimi için oldukça kritik olmayan kabul edilen standart bir veri kümesidir ve spesifikasyonlara göre metinler üreten muhtemelen GPT-4 ve ChatGPT gibi çok sayıda büyük dil modeli (LLM) için temeldir. C4, Google’ın Flan-T5’i, Facebook’un LLaMA’sı gibi AI sistemleri için bir eğitim temeli olarak hizmet etti ve yeni AI projesi RedPajama gibi kar amacı gütmeyen açık kaynak girişimlerinin veri setlerine dahil edildi.

RedPajama’nın eğitim veri seti, veri kaynağına göre LLaMA ile karşılaştırıldı

(Resim: Haberler)

C4 eğitimdeki birçok veri setinden biri

C4, her zaman çok sayıda başka veri koleksiyonunu besleyen eğitilmiş model verilerinin yalnızca bir kısmına katkıda bulunur. Örneğin, GPT-3, 41 CommonCrawl çalıştırması (web üzerinden farklı zamanlarda alınan anlık görüntüler), İngilizce Wikipedia’nın tamamını ve Reddit kullanıcılarının özellikle yararlı bilgi kaynakları olarak değerlendirdiği bir dizi web bağlantısını içeriyordu. , daha az tanınan yazarların açık erişimli roman koleksiyonları gibi.

Eğitim verilerinin bileşimi, belirli içeriğin kalitesi ve kapsamı, yapay zeka sistemlerinin çıktılarına nasıl ulaştığını değerlendirmenin merkezinde yer alır. Tiku, Schaul ve Allen Institute for AI’daki araştırma ekibine göre, eğitim verilerinin hassas bir şekilde incelenmesi bu nedenle büyük dil modellerindeki süreçleri anlaşılır ve anlaşılır hale getirmeye önemli bir katkı sağlıyor. Yasa koyucuların kararları ve AI düzenlemesi açısından bu, ilgili olmalıdır.

Yalnızca İngilizce – yalnızca izlerde yabancı diller

Hugging Face’teki (yalnızca İngilizce) proje açıklamasına göre, veri kümesinin yaratıcıları İngilizce olmayan dil materyalini açıkça hariç tuttuklarından, Almanca medyanın ayrı bir değerlendirmesi uygun değildir – bazı Alman medyaları ilkel bir şekilde temsil edilse de: Yaklaşık 71.000 jeton veri setinin yüzde 0,00005’ine karşılık gelen ve bugün GPT-4 tarafından iki arama sorgusunda oluşturulabilen Haberler’den geliyor. BILD gazetesi 42.000 jetonla, Golem.de 7.300 ile, ZEIT 5.800 ile ve Chip.de 190 ile temsil edilmektedir. Yalnızca SPIEGEL 4,1 milyon jetonla daha güçlü bir şekilde temsil edilmektedir: Bunun nedeni muhtemelen çok sayıda İngilizce konuşan makalenin mevcut.

Belirteçler söz konusu olduğunda, hangi alt birimin kastedildiği tam olarak açık değildir: belirteçler bir sözcük, bir cümle veya bir sözcüğün anlamlı bileşenleri olabilir. Makine öğrenimi için düzensiz metin bilgilerinin kilidini açmak için kullanılabilirler. İngilizcenin ana dil olmadığı kültürlerden gelen bu bilgi eksikliğinin ne anlama geldiği başka bir yazının konusu. Ağırlıklı olarak ABD ve İngilizce konuşulan ülkelerde üretilen geniş dil modelleri yabancı dil alanında kör noktalara sahiptir ve dil sadece dil bilgisini değil aynı zamanda temaları, değerleri ve çeşitliliği de aktarmaktadır – bu nedenle veri setlerinin bu tür olup olmadığı şüphelidir. devasa Kraul’un Avrupa gerçeklerini yeterince tasvir etmesi gibi.

Kendi web sitenizin taranıp taranmadığını test edin

Araştırmanın tamamı Washington Post’ta bulunabilir. C4 veri setindeki web sitelerini kontrol etmek için arama aracı son üçte birlik birime yerleştirilmiştir. C4 veri seti bilimsel olarak belgelenmiştir: Her ikisi de 2021 tarihli “Documenting the English Colossal Clean Crawled Corpus” ve “Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus”. İndekslenmiş bir C4 kopyasının etkileşimli web Arayüzü.

(o)

Haberin Sonu

Kara kutuya bir bakış: AI eğitim veri seti C4 de belirsiz kaynaklardan yararlanıyor

amerikali

Yeni Üye