c’t 3003: Beni resmeden AI | Lensa’dan daha iyi

amerikali · 9 Ocak 2023

Dall-E veya Midjourney gibi derin öğrenme metinden görüntüye oluşturucuların harika görüntüler üretmek için kullanılabileceği söylentileri yayıldı ve bu bir tartışma konusu. Ama her şeyi daha da ilginç kılan şey: görüntü oluşturma sistemlerini kendiniz, örneğin kendi yüzünüzle eğitmek.

Lensa gibi ücretli uygulamalar süreci basitleştirir, ancak bunu kendiniz yaparsanız daha iyi sonuçlar ve çok daha fazla esneklik elde edersiniz. 3003 videosunda, açık kaynak projeleri Stable Diffusion ve DreamBooth kullanarak mükemmel profil resmini nasıl oluşturacağınızı gösteriyoruz.

videonun transkripti

(Not: Yukarıdaki videoyu izleyemeyen veya izlemek istemeyen kişiler için hazırlanmış bonus içeriktir. Video parça bilgisi transkripte yansıtılmamaktadır.)

Pek çok insanın aniden sosyal medyada harika profil resimlerine sahip olduğunu da fark ettiniz mi? İnsanların aksiyon yıldızları, gelecek vaat eden büyücüler veya sihirli elfler gibi göründüğü yerler? Büyük olasılıkla şu anda Android ve iOS’ta mobil uygulama listelerinde oldukça üst sıralarda yer alan Lensa adlı (ücretli) bir uygulamadan geliyor. Ancak harika olan şey, bu tür görüntülerin kendi bilgisayarınızda yerel olarak, açık kaynaklı Stable Diffusion yazılımıyla – yani bulut olmadan ve ücretsiz olarak – daha da iyi üretilebilmesidir. Ve “üret” derken gerçekten bir piksele dokunmanız gerekmediğini kastediyorum, sadece görmek istediğinizi yazın, yani burada örneğin “spor salonunda keno fotoğrafı, büyük kaslar, vücut geliştirmeci”. Veya “bir chibi karakteri olarak keno”, “boyalı bir plaka üzerinde keno”, “bir stüdyo ghibli filminde bir karakter olarak keno”. Bunu gerçekten saatlerce yapabilirsiniz. (Ve genellikle İngilizce de vardır, ancak gördüğünüz gibi Almanca da işe yarar.)

Tamam, bazen sonuçlar biraz garip oluyor, o ayaklar başımın yanında mı? Neden boğazımdan bir Keno daha çıkıyor? Neden saçtan yapılmış bir eşarbım var? Ve çok önemli: Gerçek dünyada bu kadar güzel sakal takılarını nereden satın alabilirim? Bizi izlemeye devam edin.

Sevgili bilgisayar korsanları, sevgili İnternet sörfçüleri, hoş geldiniz…

İlk olarak, size bu Lensa uygulamasının nasıl çalıştığını çok kısaca göstereceğim: kurulumdan sonra, uygulama aracılığıyla kendi 10 ila 20 fotoğrafınızı web’e yüklemeniz gerekir. Sonra Lensa – veya Lensa’dan kiralanan sunucular – yaklaşık 20 dakika hesaplar ve sonunda pek çok güzel ya da çok güzel olmayan fotoğraflar çıkar. Şimdiye kadar çok iyi, ancak dünyadaki çoğu şey gibi Lensa’nın da bir püf noktası var: örneğin, fotoğraflarınızı oraya göndermeniz gerekiyor ve onlara ne olacağını tam olarak bilmiyorsunuz. Lensa, fotoğrafları işledikten hemen sonra silmeyi vaat ediyor, ancak elbette bunu kontrol edemezsiniz. Ve Lensa’nın da bir maliyeti var: Fotoğrafları çekmek için en az 3,49 Euro harcamanız gerekiyor. Bu 50 parça, 10 farklı türden 5’er parça, “Bilim Kurgu” veya “Anime” gibi bir şey. Sıfır nokta sıfır ayarlayabilirsiniz, ne kadar ödediğinize bağlı olarak sadece 50 veya 100 veya 200 fotoğraf alırsınız, ancak nasıl görünmeleri gerektiğini belirtemezsiniz. Bir diğer eleştiri noktası da şuydu: Kendi cinsiyetinizin kadın olduğunu seçtiyseniz, böyle fotoğraflar çekme ihtimaliniz yüksek: küçük giysiler, derin dekolteler, hmm, belki de hiç istemiyorsunuz. Lensa bu arada bunu değiştirmişe benziyor ama testte cinsiyetimi kadın olarak ayarladığımda her şey oldukça süslüydü.

Genel olarak, testlerimden sonra, Lensa’nın sonuçlarının Stable Diffusion’ın “manuel” görüntülerinden daha kötü olduğunu gördüm. İlk bakışta, Lensa kenos iyi görünüyor, ancak daha yakından bakarsanız, örneğin, bir göz genellikle çarpık ve çarpık falan. Öte yandan, Stable Difusion ile bunun üzerinden manuel olarak bir yüz onarımı yapabilirsiniz, burada buna yüz restorasyonu denir, o zaman bu artık olmaz.

Ama belki yine değinilmesi gereken bir şey daha var: Tüm bu sistemlerin ürettiği “sanat”, doğal olarak bir takım sanatçıların yapıtlarından yararlanıyor; bunların internette var olan görüntülerin remiksleri olduğu söylenebilir. Çoğu zaman, hesaplanan görüntülerde bazı çamurlu imzalar bile görebilirsiniz – bu, mevcut görüntülerin burada temel teşkil ettiğine dair oldukça açık bir işarettir. Şimdi soru şu: Hesaplanan görüntüler ticari olarak kullanılabilir mi? Ve eğer öyleyse: Kaynak görüntüleri yapan kişilerin bir şekilde biraz para kazanmasını sağlamanın bir yolu var mı? Bu tartışmanın hala çok yoğun olduğuna inanıyorum, çünkü görüntü oluşturma sistemleri gittikçe daha iyi hale geliyor.

Ama Lensa’ya geri dönelim, ya da daha iyisi: Lensa’dan uzakta. Lensa’ya bile ihtiyacınız yok, çünkü uygulama, kaputun altında yalnızca açık kaynaklı yapay zeka görüntü oluşturucu Stable Diffusion’ı kullanıyor. Tabii ki Lensa olmadan da kullanabilirsiniz, kendi bilgisayarınızda bile çalışır.

OpenAI’den Dall-E veya Dall-E 2 ile başlayıp Midjourney’den Craiyon’a kadar son aylarda bu görüntü oluşturucular hakkında biraz abartı oldu. Bununla ilgili bir video yaptık zaten. Sistemlerin hepsinin kendi özellikleri, avantajları ve dezavantajları vardır, ancak Stable Diffusion muhtemelen şimdiye kadarki en büyük topluluğu oluşturmuştur – çünkü yazılım harika bir şekilde esnektir.

Sözde modellerde kendi resimlerinizle ince ayar yapmak nispeten kolaydır. Modeller, algoritmik yaklaşım olan görüntü oluşturucunun temelidir. Stable Diffusion, Dall-E ve Co’nun temel modelleri internetten milyonlarca görüntü ile eğitildi, ancak modellerinde benim neye benzediğim gibi bilgilerin bulunma olasılığı çok düşük. çünkü yeterince ünlü değil ve internette çok az fotoğrafım var. AMA: Mevcut modeli kendim kolayca öğretebilirim. Bunun için tıpkı Lensa gibi 10-20 fotoğrafa ihtiyacım var ve evet… Bunun tam olarak Lensa olduğu açık tabii çünkü arkasında Stable Difüzyon da var.

Spesifik olarak, her şey, Google tarafından bu tür görüntü oluşturma modellerinde ince ayar yapmak için geliştirilen bir sistem olan Dreambooth ile çalışır. Ve bu eğitimi Dreambooth ile yerel olarak YAPABİLİRSİNİZ. Ancak, tamamen dürüst olacağım: Bu video için bunu çeşitli nedenlerle videonun son teslim tarihinden önce yapmayı başaramadım. Bunun için çok fazla belleğe sahip bir grafik kartına ihtiyacınız var, örneğin bu uygulama 24 GB istiyor – ve geliştirici, projenin koli bandı ve sakızla bir arada tutulduğunu yazıyor ve evet, bunu doğrulayabilirim.

Ben de bu video için işi kendim için kolaylaştırdım ve eğitimi Hugging Face makine öğrenimi platformunda bulutta yaptım. Ve hemen sorumluluk reddi beyanı: Böyle bir modeli eğitmenin düzinelerce başka yolu var, burada açıklanan en iyisi mi – bilmiyorum, her durumda iyi ve hızlı çalıştı. Ama tabii ki Lensa’ya göre fotoğrafları buluta göndermek zorunda kalmama avantajının burada kaybolduğu benim için açık. Ama benim yöntemim Lensa’dan daha ucuz ve ÇOK, ÇOK daha esnek. Ve dediğim gibi: Dreambooth eğitimi teorik olarak herhangi bir bulut olmadan tamamen yerel olabilir.

Şimdi öğretici: Öncelikle kendinize ait 10 ila 20 fotoğraf seçmelisiniz. Mümkünse farklı yüz ifadeleri, bakış açıları ve yüzünüzden çok vücudunuzu görebileceğiniz birkaç fotoğraf da muhtemelen yanlış değildir. Bu 16 fotoğrafı eğitimim için kullandım. Şimdi resimleri 512 x 512 piksel olarak kırpmanız gerekiyor, bunu örneğin Birme tarayıcı aracıyla yapabilirsiniz (merak etmeyin, yerel, fotoğraflarınız henüz çevrimiçi olarak buraya gönderilmeyecek).

Şimdi Higging Face’te oturum açın veya henüz bir hesabınız yoksa bir hesap oluşturun. Şimdi Multimodalart’ın sözde “Dreambooth-Training” alanına gidiyorsunuz. URL’yi aşağıdaki açıklamada bulabilirsiniz. Şimdi “Yinelenen Alan”a tıklayın, bu birkaç dakika sürecektir – bu çalıştığı sürece üstte “Yapılıyor” yazıyor, ne olduğunu görmek için her zaman “günlükleri aç”a tıklayabilirsiniz. Bu bittiğinde, bir an için daha güçlü bir GPU kiralamanız gerekir, bunu “Ayarlar” altında yapabilirsiniz. Bana yaklaşık 60 ABD sentine mal olan “T4 küçük” aldım.

Yazılımın yeniden atanması biraz daha uzun sürer, yaklaşık 10 dakika. Dolayısıyla, bu açılır menüden “kişi”yi seçin, temel model olarak 1.5 sürümünü kullanıyorum çünkü çoğu kullanıcı arabirimi henüz 2.0’larla iyi çalışmıyor. Çok önemli, şimdi kişiyi aramak istediğinizi girin, metin istemlerinde bir şekilde eğitimli kişiyi orada görmek istediğinizi söylemelisiniz. Yani mümkünse normalde oluşmayan bir metin alın. Keno4004 kullandım.

Her şeyi burada bırakın, hesaplama yapıldığında GPU için ödeme yapmamak için “otomatik olarak kaldır” onay kutusunu bıraktığınızdan emin olun. Adı buraya tekrar girin ve şimdi tek ihtiyacınız olan bir belirteç: üzerine tıklayın, “yeni belirteç”i seçin, “yaz”ı seçin ve ardından kopyalayıp yapıştırın.

Yani eğitim başlıyor, yaklaşık 20 dakika sürüyor.

Böylece, şimdi Huggingface’te görüntüleri hesaplamaya başlayabilirsiniz. Burada “Modeller” altında yapmak kolaydır — çok ilkeldir, hiçbir şey ayarlayamazsınız, ancak çalışır ve sizden herhangi bir ücret talep edilmez, bu arada, ücretli GPU’da çalışmaz.

Stable Diffusion’ı yerel olarak da kullanabilirsiniz, ancak en az 4 GB belleğe sahip bir NVidia grafik kartına veya M1’e sahip bir Apple bilgisayara ihtiyacınız var. AMD GPU’larda veya yalnızca CPU’larda çalışması için bir şekilde onunla da oynayabilirsiniz – ama bu iyi, kurcalamak.

Stable Diffusion’ı kullanmak için birçok topluluk kullanıcı arayüzünden birini tavsiye ederim.

Muhtemelen en popüler olanı, tam otomatik bir yükleyicinin de bulunduğu Automatic1111’dir (açıklamadaki bağlantılar). Oradaki görüntünüzle eğitilmiş modeli kullanmak için, Huggingface’in CKPT dosyasını indirmeniz ve Automatic1111 kurulumunuzun “models/Stable-Diffusion” klasörüne bırakmanız gerekir. Arayüzde, buradan “Kararlı Difüzyon Kontrol Noktası”nı seçmeniz yeterlidir.

Kişisel olarak Automatic1111’i oldukça karmaşık ve kullanıcı arayüzünü kafa karıştırıcı buluyorum. Çok daha net bir arayüze sahip olan bu videoda görülebilen oluşturulan görüntüler için InvokeAI kullandım ve genel olarak gerçekten beğendim. InvokeAI için otomatik bir yükleyici de vardır, ancak önce Python’u kurmuş olmanız gerekir.

Her durumda, gerçekten iyi sonuçlar almak için bilgi istemlerini denemeniz gerekir. Kararlı Difüzyon, uygun romanlar yazmak zorunda kalmasıyla bilinir. Örneğin, PromptHero web sitesini ilham kaynağı olarak kullanabilirsiniz, karşılık gelen istemlerle birçok güzel sonuç vardır.

Evet ve şimdi iyi eğlenceler! Dürüst olmak gerekirse, bütün günlerimi Stable Diffusion ile geçirdiğimi söylemeliyim, çok eğlenceli. Bu yüzden kendinize bolca zaman ayırın.

Hoşçakal!

c’t 3003, c’t’in YouTube kanalıdır. c’t 3003’teki videolar bağımsız içeriktir ve c’t dergisindeki yazılardan bağımsızdır. Editör Jan-Keno Janssen ve video yapımcıları Şahin Erengil ve Pascal Schewe her hafta bir video yayınlıyor.

(jkj)

Haberin Sonu

c’t 3003: Beni resmeden AI | Lensa’dan daha iyi

amerikali

Yeni Üye