amerikali
Yeni Üye
Ses klonları yaygınlaştı. Pumuckl, sözcüsü Hans Clarin 2005’te ölmesine rağmen RTL yeniden başlatmasında orijinal sesi alıyor. Ve Apple, bir sonraki iOS güncellemesinde herkese kendi seslerini klonlama yeteneği vermek istiyor. Apple’a göre bu, öncelikle hastalık nedeniyle sesini kaybedebilecek insanlara yardımcı olmalıdır. c’nin meslektaşları, yalnızca kendi sesinizi klonlamakla kalmayıp aynı zamanda yabancı bir dilde konuşabileceğiniz çeşitli araçları zaten test etti.
Reklamcılık
Yapay zeka aslında ne kadar zeki? Üretken yapay zekanın işimiz, boş zamanlarımız ve toplumumuz için sonuçları nelerdir? Haberler’nin “KI-Güncellemesi”nde, The Decoder ile birlikte, size yapay zekadaki en önemli gelişmeler hakkında günlük güncellemeler getiriyoruz. Cuma günleri yapay zeka devriminin farklı yönlerini uzmanlar eşliğinde inceleyeceğiz.
Haberler Online’da geçen Eylül ayında sesimi klonladık ve bir hafta boyunca “kısaca bilgilendirilmiş” haber podcast’i için bir yapay zeka sesi olarak test ettik. O sırada, sesimin temel bir modelini kaydetmek için yaklaşık iki saatlik sesim vardı. AI ses başlangıcı Aflorithmic, bunu ilk ses modelini oluşturmak için kullandı. O zamanlar, orijinal sesin sesine mümkün olduğunca yaklaşmak için doğru ses renklendirmesine özel bir önem verdik. Mükemmel olmasa da, yapay zekanın hem sesimi hem de tonlamamı ne kadar iyi taklit edebildiğine şaşırdım.
Bugün – sadece birkaç ay sonra – 5 dakikalık bir ses parçası yeterlidir ve bir yapay zeka bunu bir ses taklidi oluşturmak için kullanır. c’t 3003’ten Jan-Keno Janssen bunu bir YouTube videosunda test etti ve COO ve Aflorithmic’in kurucu ortağı Matthias Lehmann ile bunun nasıl çalıştığı ve ses sentezine yönelik farklı yaklaşımların neler olduğu hakkında konuştu. AI güncellemesinin derin dalışında bugün size röportajın tamamını sunuyoruz.
Matthias Lehmann, iki yaklaşım olduğunu açıklıyor: Hızlı versiyona ses aktarımı denir. Bir ses için çok fazla malzemeye ihtiyacınız yok, çünkü “model” aslında sizin kendi kayıtlarınızdan oluşturulmadı, ancak zaten var olan, binlerce konuşmacı ile kaydedilmiş olabilecek bir ses var. ses rengi kaplaması.” Kulağa hoş geliyor ama gerçekten klonlanan kişi gibi değil.
Matthias Lehmann, ikinci yaklaşımın “gerçekten ses rengini neredeyse yüzde 100 tanınabilir kılmakla ilgili olduğunu ve bu aslında doğru ses klonlaması olduğunu” açıklıyor. Ancak bunun için, bir konuşmacının beraberinde getirdiği tüm ses kalıplarına ve ayrıca tüm kelimeleri tasvir edebilmek için karşılık gelen ses birimlerine ihtiyacınız vardır. Böyle bir proje sıfırdan başlar. “Ancak bu çok çok daha sıkıcı çünkü bu kayıtları basitçe yapmak bazen saatler, hatta günler alıyor, çünkü makul bir şeye sahip olabilmeniz için belirli bir hacme sahip olmaları gerekiyor.” Sonuç daha sonra kafa karıştırıcı bir şekilde gerçek kişiye benziyor.
Her iki yaklaşım da daha kısa metinler için zaten çok uygundur. Ancak daha uzun metinlerde yapay zeka sesleri, sınırlı “dinamik aralıkları” nedeniyle oldukça yorucudur. Henüz yaşayan dile yaklaşamadılar… ama gittikçe yaklaşıyorlar.
(igr)
Haberin Sonu
Reklamcılık
Yapay zeka aslında ne kadar zeki? Üretken yapay zekanın işimiz, boş zamanlarımız ve toplumumuz için sonuçları nelerdir? Haberler’nin “KI-Güncellemesi”nde, The Decoder ile birlikte, size yapay zekadaki en önemli gelişmeler hakkında günlük güncellemeler getiriyoruz. Cuma günleri yapay zeka devriminin farklı yönlerini uzmanlar eşliğinde inceleyeceğiz.
Haberler Online’da geçen Eylül ayında sesimi klonladık ve bir hafta boyunca “kısaca bilgilendirilmiş” haber podcast’i için bir yapay zeka sesi olarak test ettik. O sırada, sesimin temel bir modelini kaydetmek için yaklaşık iki saatlik sesim vardı. AI ses başlangıcı Aflorithmic, bunu ilk ses modelini oluşturmak için kullandı. O zamanlar, orijinal sesin sesine mümkün olduğunca yaklaşmak için doğru ses renklendirmesine özel bir önem verdik. Mükemmel olmasa da, yapay zekanın hem sesimi hem de tonlamamı ne kadar iyi taklit edebildiğine şaşırdım.
Bugün – sadece birkaç ay sonra – 5 dakikalık bir ses parçası yeterlidir ve bir yapay zeka bunu bir ses taklidi oluşturmak için kullanır. c’t 3003’ten Jan-Keno Janssen bunu bir YouTube videosunda test etti ve COO ve Aflorithmic’in kurucu ortağı Matthias Lehmann ile bunun nasıl çalıştığı ve ses sentezine yönelik farklı yaklaşımların neler olduğu hakkında konuştu. AI güncellemesinin derin dalışında bugün size röportajın tamamını sunuyoruz.
Matthias Lehmann, iki yaklaşım olduğunu açıklıyor: Hızlı versiyona ses aktarımı denir. Bir ses için çok fazla malzemeye ihtiyacınız yok, çünkü “model” aslında sizin kendi kayıtlarınızdan oluşturulmadı, ancak zaten var olan, binlerce konuşmacı ile kaydedilmiş olabilecek bir ses var. ses rengi kaplaması.” Kulağa hoş geliyor ama gerçekten klonlanan kişi gibi değil.
Matthias Lehmann, ikinci yaklaşımın “gerçekten ses rengini neredeyse yüzde 100 tanınabilir kılmakla ilgili olduğunu ve bu aslında doğru ses klonlaması olduğunu” açıklıyor. Ancak bunun için, bir konuşmacının beraberinde getirdiği tüm ses kalıplarına ve ayrıca tüm kelimeleri tasvir edebilmek için karşılık gelen ses birimlerine ihtiyacınız vardır. Böyle bir proje sıfırdan başlar. “Ancak bu çok çok daha sıkıcı çünkü bu kayıtları basitçe yapmak bazen saatler, hatta günler alıyor, çünkü makul bir şeye sahip olabilmeniz için belirli bir hacme sahip olmaları gerekiyor.” Sonuç daha sonra kafa karıştırıcı bir şekilde gerçek kişiye benziyor.
Her iki yaklaşım da daha kısa metinler için zaten çok uygundur. Ancak daha uzun metinlerde yapay zeka sesleri, sınırlı “dinamik aralıkları” nedeniyle oldukça yorucudur. Henüz yaşayan dile yaklaşamadılar… ama gittikçe yaklaşıyorlar.
(igr)
Haberin Sonu