Kararlı İlişkilendirme, yapay zeka sanatının kaynaklarının izini sürüyor – yeni bir yaklaşım mı yoksa çıkmaz sokak mı?

amerikali · 11 Şub 2023

Kararlı İlişkilendirme, yapay zeka sanatının kaynaklarının izini sürüyor – yeni bir yaklaşım mı yoksa çıkmaz sokak mı?

Stable Atıf, görüntülerin orijinal kaynağını belirlemek için tasarlanmış yeni bir araçtır. Yayıncılarına göre, yapay zeka tarafından oluşturulan görüntü içeriğine özellikle benzer olması gereken görüntüleri buluyor. Bunu yapmak için algoritma, bilindiği kadarıyla eğitim veri setinden çıktıya en yakın olan görüntüleri seçer. SSS’ye göre amaç, görüntüleme makinelerini oluşturmak için çalışmaları kullanılan sanatçıları uygun şekilde tanımaktır. Araç şu anda benzer görselleri bulabilir ancak bunları henüz bir sanatçıya veya oluşturucuya atayamaz.

Sanatçıların hatırına: eserlere atıfta bulunmak

Sanatçılar, reprodüksiyon telif ücreti almak için eserlerinden düzgün bir şekilde alıntı yapılmasına bağlı olarak geçimlerini sağlıyorlar, iki geliştirici Jeff Huber ve Anton Troynikov web sitesinde motivasyonlarını açıklıyor: Yapay zeka insanlara hizmet etmeli, onları yabancılaştırmamalı. Aracın arkasında, yapay zekayı anlaşılır kılmak isteyen Chroma adlı Kaliforniyalı bir yapay zeka girişimi var. Kendi açıklamalarına göre, ikisi de görüntülerin haklarını tescil etmekle veya kendi modellerini görüntülerle eğitmekle ilgilenmiyor, daha çok görüntüleri atamak için bilgi sağlamakla ilgileniyor.

Araçla saklanan belgelere giden web bağlantısı çalışmıyor, ancak bir Twitter sayfası var ve Huber ve Troynikov profillerini birbirine bağladı. Bunları Discord’da da bulabilirsiniz. Geliştiricilerin de belirttiği gibi, aracın 1. sürümü tamamen kararlı bir şekilde çalışmıyor gibi görünüyor: eğitim süreci “gürültülü” ve eğitim materyalleri birkaç hata ve gereksiz bilgi içeriyor. İkili, bizi izlemeye devam etmek ve “her tür üretken model için” kaynak materyalin niteliğini iyileştirmek istiyor. Zaten takviye arıyorlar. Kararlı Atıf web sitesinde denenebilir, araç beta aşamasındadır.

AI, eğitim veri setinin görüntülerini aynı şekilde “tükürüyor” mu?

Bununla birlikte, bu yöntem, teknik açıdan oldukça sorgulanabilir bir varsayıma dayanmaktadır: AI oluşturucuların ürettiği görüntüler genellikle yenidir ve eğitim veri setinde aynı biçimde mevcut değildir. Google ve DeepMind tarafından Berkeley Üniversitesi, Princeton ve ETH Zürih’ten araştırmacılarla işbirliği içinde finanse edilen bir çalışma, araştırmacıların Stable Diffusion gibi modellerden bazı görüntüleri ortaya çıkarmak için metin istemlerini kullanabildikleri için Şubat ayının başında heyecan yarattı. Google Imagen, en azından eğitim veri setinde bulunan veriler çok benzer görünüyor (MIT Technology Review, “AI gerçek insanların resimlerini ve telif hakkıyla korunan içeriği tükürüyor” – görünüşe göre bazen öyle olduğunu bildirmişti).

Tablonun altına düşen, en azından Twitter’daki kısa versiyonda, “çok benzer” olarak tanımlanabilecek görüntülerin oranının ne kadar küçük olduğudur. Kararlı yayılma için, araştırmacılar, eğitim veri setindeki orijinal görüntülere en azından çok benzeyen, oluşturulmuş 175 milyon test görüntüsünden 109’unu bulmayı başardılar (gösterilen örnekler aynı değil, sadece neredeyse: “yakın kopyalar”). Bu nedenle bir Twitter kullanıcısı, eğitim veri setinden görüntülerin hedeflenen yeniden oluşturulmasının haklı olarak yorumunu yapmaktadır. piyangoyu kazanmak kadar zor. Makalede açıklanan yöntemin (“Difüzyon Modellerinden Eğitim Verilerini Çıkarma”) devam eden telif hakkı davalarında gerçekten başarılı bir şekilde kullanılıp kullanılmayacağını göreceğiz.

Aynı elmayı asla iki kez ısırmayız – görsel olarak bile

Görüntü oluşturucular mevcut görüntüleri kopyalamaz veya iki veya üç şablonu yeni bir şeyde birleştirmez, ancak milyonlarca görüntüden oluşan veritabanının tamamı eğitim için kullanıldı ve ardından modelin davranışını ve doğasını ve yeteneğini model aracılığıyla soyut bir biçimde belirledi. metin özelliklerini görsel olarak uygulamak için ağırlıklar. Süreç, insan imaj algısına benzer şekilde çağrışımsal görünüyor. “Elma” gibi bir terimi düşündüğümüzde, kafamızda net bir resim var, ancak standart bir model yok. Akla gelen görüntü, deneyimlerimize ve şimdiye kadar neleri ve ne kadar gördüğümüze bağlıdır.

“Bauhaus tasarımı, minimal, elma duvar kağıdı, soyut” – Lexica.art

Birisi bizden “boyalı bir elma”, “deniz tabanındaki elma”, “uçan elma bardağı” veya belki de “edebi bir elma” hayal etmemizi isterse, sayısız çağrışım somut hale gelir – biri The Big Apple New York’u, diğeri Paris’i görür. yargı ve Truva Savaşı (efsanede bir anlaşmazlık elması ile, savaş çitlerden çıkar). Sanatseverler belki de tuval üzerine Magritte usulü bir elma hayal edeceklerdir. Hayal gücünün sınırı yoktur. Her halükarda, onu kelime, resim veya yazı olarak çoğaltmak istesek, görüntü artık bizim bulduğumuzla aynı olmayacak ve – daha önce yaşamış olsalar bile – iki kişinin aklında aynı görüntü olmayacaktı. bir sanat sergisi, bir kahvehanede bir parça elmalı turta ile oturmak ve ardından Naschmarkt’ta iki kilo elma almak.

İnsan ve makine arasındaki ilişkisel bağlantı

Yapay zeka, fiziksellik eksikliği nedeniyle dünyanın şehvetli deneyiminden yoksun olmasına ve girdileri/çıktıları ve eğitim materyalinin işlenmesi daha az şehvetli olmasına rağmen, üretken bir yapay zeka sistemi içinde işler benzer şekilde ilişkisel olmalıdır. Buna göre, bilgi, sembolik bağlantılar ve öğrenilmiş bağlantılar, yapay zeka tarafından oluşturulan her görüntüye akar, çünkü insanlar bunları oluşturur ve bunları zaten mevcut görüntülerde ve görüntü açıklamalarında oluşturmuştur. Potansiyel olarak tüm eğitim veri setinden ve neredeyse sonsuz olası kombinasyon havuzundan. Yeniden girildiğinde hiçbir istem aynı sonucu vermez (en azından basit metin istemi bunun için yeterli değildir). Tamamen harici terimlerle, bilgisayar tarafından oluşturulmuş bir görüntüye “özellikle benzer” görünen bazı görüntüleri belirlemek mümkündür. Ancak kendi içinde benzerlik, makine yapımı görüntünün kısmi yazarlığının kanıtı değildir.

Editörler, Stable Diffusion Project’ten iki araştırmacıyla arka planda yapılan bir tartışmada, görüntü bilgisinin gizli bir alanda çözündüğünü ve bir çıktı görüntüsünün eğitim verilerinden alınan belirli bir görüntüye özellikle benzer olmasının daha büyük bir tesadüf olduğunu öğrendi. Bu, bazı görüntülerin eğitim veri setinde çok sayıda bulunması ve dolayısıyla model üzerinde daha fazla yer alması durumunda meydana gelebilir, ancak bu istenmeyen bir davranış olacaktır – ve modeller oluştururken, araştırma ekipleri, benzerlerinden kaçınmak için hedefli bir şekilde kopyaları filtreler. aykırı değerler. DALL E, Stable Diffusion veya Google Imagen gibi görüntü sentezi için AI sistemleri, eğitim veri kümesinden görüntüleri seçmez ve ardından bunları yeni görüntülerde birleştirmez. Artık yaygın olan modeller, internette ücretsiz olarak bulunabilen ve genellikle insan yapımı olan şablonlara sahip büyük görüntü veritabanları kullanılarak eğitilmektedir. Örneğin, stili taklit etmede oldukça iyidirler. Ancak, örneğin stil korunamaz.

Kaynakların çıktıya atanması kolayca mümkün olsaydı, yeniden kullanım ve daha fazla kullanım, çıktıyı görüntü veritabanlarıyla karşılaştırarak kolayca tanımlanabilir ve hatta belki de bir “şablonun” çıktıyı ne ölçüde etkilediği tam olarak ölçülebilirdi. Bununla birlikte, üretken yapay zeka modelleri orijinal görüntülere erişmez ve bunları daha fazla düzenlemez (kullanıcı tarafından yüklenen bir görüntüyü daha fazla düzenlemek için kullanılan iç boyama veya dış boyama gibi modlar dışında). Bunun yerine, eğitim sürecinde, görüntü-metin çiftlerini ve kademeli gürültü azaltma ve gürültü gidermeyi kullanarak bir metin girdisiyle eşleşebilecek yeni görüntülerin nasıl oluşturulacağını öğrenirler. Buna karşılık, benzer fikirleri veya tarzları ifade ederler. Eğitim veri setindeki bireysel sanatçıların, eserlerinin veya sadece bireysel görüntülerin oranının üretilen çıktıda ne ölçüde ölçülebileceği bu nedenle oldukça açıktır ve optik “benzerlik” ile çözülemez.

Yazarlık anlaşmazlığı

Bu nedenle, yapay zeka tarafından üretilen eserlerin yazarlığı kolay bir soru değildir ve yine de birçok tartışmaya neden olacaktır – AI görüntü oluşturucular, görüntü içeriğini ve dil terimleriyle anlamsal bağlantıları öğrenmek için yukarı akış eğitiminde insanlar tarafından oluşturulan görüntülere ihtiyaç duyar. Eğitim verileriniz, genellikle yazarları tarafından bu formda ve bu amaç için tasarlanmayan internetten alınır. Bu nedenle sanatçılar, çalışmalarının benzer görüntüleri otomatik olarak üretebilen sistemleri eğitmek için izinsiz olarak kullanılmasını eleştiriyor.

Modellerin çıktısı için telif ücreti talep edebilmek için, çalışmalarının çıktı görüntüsünde ne ölçüde katkıda bulunduğunu ve hala “içerildiğini” mevcut tahsis sistemlerinde kanıtlayabilmeleri gerekir. AI sanatında çalışmalarını yeniden keşfettiklerini düşünen insanlar, telif hakkıyla korunan ve ticari markalı bazı çalışmaların modellerin eğitim verilerine akmış olabileceğini söylüyor. Birinci sınıf davalar başladı ve Getty Images, Alman araştırmacılar tarafından oluşturulan açık kaynak modeli Stable Diffusion’ın ana yatırımcısı Stability AI’ye dava açıyor.

ayrıca oku

Daha fazla göster

daha az göster

Açıklanabilirlik: üretken yapay zeka için yeni yaklaşımlar

Ancak benzer görünen bir modelin çıktısından kullanılabilecek şablonları çıkarmak o kadar kolay değil. Şu anda bireysel araçlar ve çalışmalar ortaya çıksa bile, temel soru şu an için açık kalıyor – çünkü en benzer görüntüler hiçbir zaman çıktı için tek ilham kaynağı olmuyor. Üretken yapay zeka modelleri için artık çıktı kaynaklarını bulmaya ve tanımlamaya yönelik çeşitli yaklaşımlar uygulanmaktadır. Ayrıca metin üreten AI ürünleri için, örneğin ChatGPT ile çıktının açıklanabilirliği önemli bir rol oynar (çünkü modeller halüsinasyon görür) ve devam eden araştırma, artık günlük hayata girmeye başlayan yapay zekayı daha anlaşılır, daha adil ve daha güvenli hale getirmeye yönelik ilk heyecan verici yaklaşımları sunuyor.

Nihayetinde, üretken yapay zeka, modellerin eğitim verilerinin bir kısmını ezbere öğrenip öğrenmedikleri veya eğitim yoluyla kendi dünya modellerini oluşturup oluşturmadıkları sorusundan başka bir şey değildir. Bu soruyla ilgileniyorsanız, buradan okuyabilirsiniz, örneğin: “Stokastik Papağan mı yoksa Dünya Modeli mi? Büyük Dil Modelleri nasıl öğrenir?“.

(o)

Haberin Sonu

Kararlı İlişkilendirme, yapay zeka sanatının kaynaklarının izini sürüyor – yeni bir yaklaşım mı yoksa çıkmaz sokak mı?

amerikali

Yeni Üye