amerikali
Yeni Üye
Washington Üniversitesi'ndeki (UW) bir bilim insanı ekibi, özellikle kalabalıktaki bir kişiyi dinleyebilmek için kulaklığı yapay zeka tabanlı bir sistemle geliştirdi. Bu, hareket halindeyken ve gürültülü ortamlarda gerçek zamanlı olarak çalışır.
Reklamcılık
Bilim insanları, CHI Konferansının Bilgisayar Sistemlerinde İnsan Faktörleri Bildirileri'nde yayınladıkları “Bir Kez Duymak İçin Bakın: Gürültülü Örneklerle Konuşma İşitmeyi Hedefleme” çalışmasında kulaklığı anlatıyor. Yapay zekanın, konuşan bir kişinin sesini kaydedebilmesi için yaklaşık üç ila beş saniye boyunca dinlemesini sağlamak üzere tasarlanmıştır. Hedef Konuşma İşitme (TSH) adı verilen sistem, ortamdaki diğer tüm sesleri engelleyecek ve yalnızca oturum açan kişinin sesini gerçek zamanlı olarak çalacaktır. Araştırmacılara göre kişinin hareket ediyor olması, hala görülebilmesi ya da ortamın gürültülü olması önemli değil.
Paul G. Allen Bilgisayar Bilimi ve Mühendisliği Okulu profesörü Shyam Gollakota, “Cihazlarımız sayesinde artık birçok insanın konuştuğu gürültülü bir ortamda olsanız bile tek bir konuşmacıyı net ve belirgin bir şekilde duyabilirsiniz” diyor. .
Yapay zeka bir sesi tanımayı öğreniyor
Bunu kullanmak için kişinin kulaklığı takması ve başını konuşan kişiye doğrultması yeterlidir. Daha sonra yapay zeka sisteminin konuşmacıya odaklanıp onu tanıması için tek yapmaları gereken bir düğmeye basmak. Sistem, konuşmacının sesinin ses dalgalarının kulaklığın her iki yanındaki mikrofonlara aynı anda ulaşması esasına dayanıyor. 16 derecelik hata toleransına izin verilir. Kulaklık, yakalanan ses sinyalini entegre bir bilgisayara gönderir. Yazılım, makine öğrenimini kullanarak hedeflenen konuşmacının ses modelini analiz eder ve böylece sesini hatırlayabilir.
Sistem daha sonra sesi kulaklık aracılığıyla gerçek zamanlı olarak çalar. Araştırmacılara göre bu, konuşmacı ya da dinleyici hareket ederken bile net bir şekilde anlaşılabilecek bir sonuç üretecek. Tanıma performansı, sistem kayıtlı konuşmacıyı dinleyebildiği ve eğitim verilerini toplayabildiği sürece artar.
Önerilen editoryal içerik
İzniniz üzerine harici bir YouTube videosu (Google Ireland Limited) buraya yüklenecektir.
Her zaman YouTube videosunu yükle
YouTube videosunu şimdi yükle
Videoda “Hedef Konuşma İşitme” kulaklığının işlevi gösterilmektedir.
Araştırmacılar sistemi toplam 21 test deneğiyle test etti. Konuşmacının sesinin netliğini, filtrelenmemiş ses verilerine göre ortalama iki kat daha iyi olarak derecelendirdiler.
Araştırmacılar sistemin hala bazı küçük sorunları olduğunu kabul ediyor: Örneğin, yalnızca tek bir konuşmacıyı kaydedebiliyor ve aynı yönden başka yüksek ses gelmiyorsa. Ancak örneğin ses kalitesini iyileştirmek için yeni bir kayıt yapılması mümkündür.
Araştırma ekibi artık sonuçları işitme cihazlarına uygulamak için kullanmak istiyor. Bilim insanları bunun, işitme engelli kişilerin bireysel konuşmacıları daha spesifik olarak dinlemesine olanak sağlayacağını umuyor.
(olb)
Haberin Sonu
Reklamcılık
Bilim insanları, CHI Konferansının Bilgisayar Sistemlerinde İnsan Faktörleri Bildirileri'nde yayınladıkları “Bir Kez Duymak İçin Bakın: Gürültülü Örneklerle Konuşma İşitmeyi Hedefleme” çalışmasında kulaklığı anlatıyor. Yapay zekanın, konuşan bir kişinin sesini kaydedebilmesi için yaklaşık üç ila beş saniye boyunca dinlemesini sağlamak üzere tasarlanmıştır. Hedef Konuşma İşitme (TSH) adı verilen sistem, ortamdaki diğer tüm sesleri engelleyecek ve yalnızca oturum açan kişinin sesini gerçek zamanlı olarak çalacaktır. Araştırmacılara göre kişinin hareket ediyor olması, hala görülebilmesi ya da ortamın gürültülü olması önemli değil.
Paul G. Allen Bilgisayar Bilimi ve Mühendisliği Okulu profesörü Shyam Gollakota, “Cihazlarımız sayesinde artık birçok insanın konuştuğu gürültülü bir ortamda olsanız bile tek bir konuşmacıyı net ve belirgin bir şekilde duyabilirsiniz” diyor. .
Yapay zeka bir sesi tanımayı öğreniyor
Bunu kullanmak için kişinin kulaklığı takması ve başını konuşan kişiye doğrultması yeterlidir. Daha sonra yapay zeka sisteminin konuşmacıya odaklanıp onu tanıması için tek yapmaları gereken bir düğmeye basmak. Sistem, konuşmacının sesinin ses dalgalarının kulaklığın her iki yanındaki mikrofonlara aynı anda ulaşması esasına dayanıyor. 16 derecelik hata toleransına izin verilir. Kulaklık, yakalanan ses sinyalini entegre bir bilgisayara gönderir. Yazılım, makine öğrenimini kullanarak hedeflenen konuşmacının ses modelini analiz eder ve böylece sesini hatırlayabilir.
Sistem daha sonra sesi kulaklık aracılığıyla gerçek zamanlı olarak çalar. Araştırmacılara göre bu, konuşmacı ya da dinleyici hareket ederken bile net bir şekilde anlaşılabilecek bir sonuç üretecek. Tanıma performansı, sistem kayıtlı konuşmacıyı dinleyebildiği ve eğitim verilerini toplayabildiği sürece artar.
Önerilen editoryal içerik
İzniniz üzerine harici bir YouTube videosu (Google Ireland Limited) buraya yüklenecektir.
Her zaman YouTube videosunu yükle
YouTube videosunu şimdi yükle
Videoda “Hedef Konuşma İşitme” kulaklığının işlevi gösterilmektedir.
Araştırmacılar sistemi toplam 21 test deneğiyle test etti. Konuşmacının sesinin netliğini, filtrelenmemiş ses verilerine göre ortalama iki kat daha iyi olarak derecelendirdiler.
Araştırmacılar sistemin hala bazı küçük sorunları olduğunu kabul ediyor: Örneğin, yalnızca tek bir konuşmacıyı kaydedebiliyor ve aynı yönden başka yüksek ses gelmiyorsa. Ancak örneğin ses kalitesini iyileştirmek için yeni bir kayıt yapılması mümkündür.
Araştırma ekibi artık sonuçları işitme cihazlarına uygulamak için kullanmak istiyor. Bilim insanları bunun, işitme engelli kişilerin bireysel konuşmacıları daha spesifik olarak dinlemesine olanak sağlayacağını umuyor.
(olb)
Haberin Sonu