LLaMA klonu: RedPajama – açık veri setine sahip ilk açık kaynaklı merkezi olmayan yapay zeka

amerikali

Yeni Üye


  1. LLaMA klonu: RedPajama – açık veri setine sahip ilk açık kaynaklı merkezi olmayan yapay zeka

(Bu makale Almanca olarak da mevcuttur.)


1,2 trilyondan fazla jeton içeren LLaMA eğitim veri seti yeniden üretildi ve açık kaynaklı: RedPajama projesi, GPT-4 gibi kara kutu modellerine karşı bir dizi açık kaynaklı büyük temel modeli oluşturduğunu söylüyor. Yakın tarihli bir blog gönderisine göre RedPajama, LLaMA veri setinin yeniden üretimini tamamladı ve bunu halka ücretsiz olarak sunuyor.

RedPajama: Açık Kaynak Yapay Zeka için İşbirliği


RedPajama, Kanada üniversitelerinden (Mila Québec, Uni Montréal), Stanford Üniversitesi’ndeki çeşitli araştırma enstitülerinden (Stanford CRFM – Center for Research on Foundation Models; Hazy Research at Stanford AI Lab), TogetherCompute, LAION, EleutherAI’den birinci sınıf araştırmacıların bir ittifakıdır. ve proje için uzmanlıklarını, araştırmalarını ve donanım kaynaklarını bir araya getiren diğer ortaklar. Blog gönderisine göre RedPajama üç hedef belirledi:

  • Hem yüksek kaliteli hem de geniş kapsamlı olması gereken eğitim öncesi veriler
  • Kullanılabilir ve güvenli hale getirmek için temel modeli geliştiren talimat ayarlama verileri ve modelleri
  • Bu veriler üzerinde geniş ölçekte eğitilmiş temel modeller
Proje şimdi temel veri setinin yayınlanmasıyla ilk adımı tamamladı.


Motivasyon: ChatGPT gibi Kara Kutular yerine Beyaz Kutu



En güçlü temel modeller şu anda OpenAI gibi ticari sağlayıcıların API’lerinin arkasında kapalı durumda, proje paydaşları adına merkezi olmayan AI bulut sağlayıcısını birlikte yazıyor. Bu tür modellerin bağımsız olarak keşfedilmesi, kişiselleştirme (farklı kullanıcı ihtiyaçları dikkate alınarak) ve bunların hem hassas hem de gizli veriler için kullanılması kısıtlı erişim nedeniyle engellenir.

Halihazırda büyük AI modellerini açık bir şekilde çoğaltmak için yaklaşımlar var, ancak şimdiye kadar ticari modellerle aynı kalite ve performansı sunmuyorlar. Temel yapay zeka “EleutherAI”, Databricks’in Dolly 2.0 ve diğerlerinin temel aldığı Pythia serisini sundu ve LAION’un Andreas Köpf ve Yannic Kilcher liderliğindeki OpenAssistant projesi, yüksek kaliteli bir açık kaynak veri seti içeren ücretsiz bir model yayınladı. Bu, kitle kaynak kullanımı gönüllüleri (insan yapımı) olarak oluşturulmuş ve derinlemesine inceleme ve moderasyon süreçlerinden geçmiştir. Pythia-12B gibi çeşitli modeller ve aynı zamanda LLaMA burada bir başlangıç noktası olarak hizmet etti – LLaMA model aşamaları, çözülmemiş lisanslama sorunları nedeniyle yayınlanamıyor.




Corpus'ta GitHub alt kümesini keşfetmek için Meerkat'tan gösterge panosu.



Corpus’ta GitHub altkümesini keşfetmek için Meerkat Gösterge Tablosu. Ekran görüntüsü bir önizleme gösterir.


(Resim: Hazy Research (Mirket Deposu))



LLaMA ve GPT-4’ten arındırılmış veri kümeleri yasal olarak özgür değil


Araştırmacılar için sınırlı erişim sunan ve kısmen Bittorrent’te sızdırılan LLaMA modelinin yan ürünleri, Meta AI LLaMA’yı açık kaynak lisansı altında yayınlamadığı için yasal bir gri bölgede var olma dezavantajına sahiptir. Talep üzerine yalnızca seçilen araştırma projeleri yasal erişim elde edebilir. Ortaya çıkan modeller ne açık kaynaklıdır ne de ticari kullanıma uygundur. O zamandan beri internette bir dizi yarı açık model dolaşıyor: LLaMA’ya ek olarak bunlar arasında Alpaca (Stanford Üniversitesi), Vicuna, LLaVA ve Koala (Berkeley Üniversitesi) yer alıyor. Buna ek olarak, çok sayıda şube, ABD satıcısının Kullanım Koşullarını ihlal ederek sentetik eğitim veri kümeleri oluşturmak için OpenAI API’sini kullandı.

OpenAI, ürünlerinin rakip ürünler oluşturmak için kullanılmasını yasaklar ve bu tür projelere karşı yasal işlem başlatma hakkını saklı tutar. Bunun bir kağıt kaplan olmadığı ve muhtemelen gelecekte karara bağlanacağı ortaya çıkıyor: örneğin Microsoft, GPT-4 için potansiyel rakipler geliştiren müşterileri Bing arama verilerine erişimlerini kısıtlamakla tehdit ederek cezalandırmaya başladı. Microsoft, modellerini kullanmak için münhasır haklara sahip olan OpenAI’deki en büyük fon sağlayıcı ve büyük yatırımcıdır.

Tamamen açık, tekrarlanabilir temel modelleri


RedPajama, yetenekler açısından birinci sınıflarla rekabet edebilecek tamamen açık ve tekrarlanabilir Temel Modelleri oluşturma hedefiyle bir proje olarak başlar. Bahsedilen Kanada ve ABD araştırma kurumlarının (Mila Québec, Montréal, Stanford Center for Research on Foundation Models) yanı sıra açık kaynaklı AI derneklerinin (LAION, EleuterAI) yanı sıra, Ontocord.AI ayrıca bir ortak, bir uzman olarak yer almaktadır. birkaç milyar parametreye sahip büyük Temel Modelleri için eğitim veri kümeleri oluştururken.

Görünüşe göre projenin başlangıç noktası, veri setlerinin özellikle kapsamlı, yüksek kaliteli ve iyi filtrelenmiş olduğu düşünüldüğünden, LLaMA hakkındaki araştırma makalesiydi. Ek olarak, 7 milyar parametre boyutunda bir model (LLaMA gibi) çoğu GPU’da çalıştırılabilir, bu da sınırlı kaynaklara sahip açık kaynak topluluğunu ilgilendirir. Alpaca, Vicuna ve Koala gibi mevcut dallar yalnızca araştırma amacıyla mevcut olduğundan, RedPajama’nın hedefi, LLaMA’nın ticari uygulamalara da açık, tamamen yeniden üretilebilir, açık kaynaklı bir kopyasına sahip olmaktır. Bunun yanı sıra, araştırmacılara büyük ölçekli AI modeli için daha şeffaf bir boru hattı sağlamak da amaçlanıyor.

GitHub’da veri hazırlamak için RedPajama tarifi


Temel veri kümesi, bir Hugging Face deposunda iki boyutta sıkıştırılmış olarak bulunur. Yedi farklı veri kaynağından oluşur:

  • Ortak tarama (Common Crawl Foundation Kullanım Koşullarına göre)
  • C4 (C4 lisansına göre)
  • GitHub (yalnızca MIT, BSD, Apache)
  • arXiv kağıdı (Kullanım Koşullarına göre)
  • Kitabın (the_pile_books3 lisansı ve pg19license uyarınca)
  • Vikipedi (Wikipedia lisansına göre)
  • Yığın Değişimi (İnternet Arşivi lisansına göre)



RedPajama'nın eğitim veri seti, Meta AI tarafından LLaMA makalesinde bildirilenlerle kabaca eşleşiyor.


RedPajama ve LLaMA’dan alınan tokenler karşılaştırıldı: RedPajama’dan alınan eğitim veri seti, LLaMA makalesinde Meta AI tarafından bildirilenle kabaca aynı. LLaMA için bildirilen değerler, arXiv.org’da yayınlanan araştırma makalesindeki verilere göre tahmine dayanmaktadır.


(Resim: TogetherCompute)



Gerçek dünya verileri ve telif hakkı sorusu


Ücretsiz olarak kullanılabilen İnternet verilerinin ortak taraması, 878 milyar jetonla aslan payını oluşturuyor. C4, 175 milyar jeton içeren standart bir veri kümesidir ve 59 milyar jeton GitHub’dan gelir (veriler, lisanslara ve kaliteye göre filtrelenir). arXiv.org’dan bilimsel makaleler (28 milyar jeton) tekrarı azaltmak için kullanılır. Kitaplar açısından, açık erişimli kitaplardan oluşan bir külliyat akmıştı (ekip önyargıyı önlemek için kopyaları kaldırdı, 26 milyar jeton). Wikipedia 24 milyar belirteçle katkıda bulundu (Wikipedia sayfalarının bir “alt kümesi” eğitime gitmişti) ve StackExchange, orada popüler olan web sitelerinin bir alt veri kümesiyle 20 milyar belirteç sağladı. Kopyalar kaldırıldı.

Kullanılan veri kaynaklarından ikisi, telif haklarını ihlal edebilecekleri uyarısına tabidir; telif hakkı avukatı Twitter’da dikkat çekti: ortak tarama ve “The Pile” kitap koleksiyonu. Verilerin ve kalite filtrelerinin nasıl hazırlanacağına dair daha detaylı bilgiye projenin GitHub deposundan ulaşılabilir. RedPajama verilerini hazırlamak için tarifler yeniden pişirilebilir. Bu önemli çünkü verilerin toplanması ve temizlenmesi, çabanın yüzde 90’ına kadarını oluşturabilir gerçek dünya verilerini (sentetik olarak damıtılmış verileri değil) kullanan bir makine öğrenimi projesinde.

DOE: ABD Enerji Bakanlığı’ndan bilgi işlem gücü


Yol haritasına göre projedeki bir sonraki adım, güçlü bir temel model yetiştirmektir. Bu amaçla RedPajama, ABD INCITE programının bir parçasıdır (ABD Enerji Bakanlığı’nın Argonne Liderlik Bilgi İşlem Tesisi’ndeki süper bilgisayarlara erişim ile birlikte) ve ABD tarafından da desteklenen Oak Ridge Liderlik Bilgi İşlem Tesisi’nden (kısaca OLCF) destek almaktadır. Enerji Bakanlığı (DOE). RedPajama’nın eğitim veri setini ve gelecekte açık modelleri piyasaya sürmesinin ardından, bu sefer gri alan yerine açık kaynak olmak üzere, sahnede yeni bir LLM yan ürünü dalgasının ortaya çıkacağı öngörülebilir. RedPajama, büyük bir açık kaynak, merkezi olmayan AI projesinin başlangıcıdır. İlk modellerin “önümüzdeki haftalarda” ortaya çıkması bekleniyor.

RedPajama duyurusu, Together’ın blogunda bulunabilir. Veri seti Hugging Face’ten indirilebilir. Sonuçları yeniden oluşturacak veriler, GitHub’da Apache 2.0 lisansı altında mevcuttur. Projede aktif olarak yer almak isteyenler RedPajama Discord’a katılabilirler.


(o)



Haberin Sonu