amerikali
Yeni Üye
“Nature”da, Google’dan araştırmacılar tıbbi soruları yanıtlayan yeni bir geniş dil modeli sunuyor. Aynı zamanda, bu tür modellerin performansını değerlendirmek için yeni bir kriter öneriyorlar: MultiMedQA.
Reklamcılık
Önceki kıyaslamalar genellikle yalnızca dil modellerinin bireysel tıbbi testlerdeki performansını değerlendirir. Bu nedenle MultiMedQA, olgusallık, anlayış, potansiyel zarar ve yanlılık gibi kriterler boyunca yanıtların kalitesini değerlendirmek için yeni kriterler içerir. Kıyaslama yedi veri kümesinden oluşur: tıbbi araştırmalardan ve hastalardan gelen sorularla altı mevcut veri seti ve çevrimiçi olarak sıklıkla aranan 3173 tıbbi sorudan oluşan bir veri kümesi olan HealthSearchQA.
Med-PaLM, 540 milyar parametreli PaLM (Pathways Language Model) tabanlı, tıbbi sorulara uyarlanmış bir transformatör modelidir. Ancak yayınla birlikte Google kendi araştırmasının gerisinde kalıyor. Grup, Nisan ayı sonunda Med-PALM-2’nin işbirliği ortakları için mevcut olduğunu duyurmuştu.
Araştırma ekibi Med-PaLM’den gelen yanıtların kalitesini “Talimat İstemi Ayarı” adlı bir teknikle daha da iyileştirebilmiş olsa da, Med-PaLM hala büyük dil modellerinin tipik zayıflıklarını gösteriyor: bir yandan, yanıtlar güçlü bir şekilde bağlama bağımlı, öte yandan bu model halüsinasyonlu gerçekler de üretiyor.
Uzmanlar şüpheci olmaya devam ediyor
Bununla birlikte, genel olarak, model o kadar da kötü yapmadı. Makaleye göre, Med-PaLM’den MultiMedQA’dan rastgele seçilen sorulara verilen yanıtlar dokuz doktor tarafından değerlendirildi. Sonuç: Med-PaLM’den gelen ayrıntılı yanıtların yüzde 92,6’sı “bilimsel fikir birliğine” karşılık geliyor. Med-PaLM’nin yanıtlarının yüzde 5,8’i potansiyel olarak zararlı olarak sınıflandırıldı – insan uzmanların yanıtlarının yüzde 6,5’iyle karşılaştırılabilir. Bununla birlikte, dil modelinin yanıtları, zamanın yüzde 18,7’sinde yanlış veya uygunsuz içerik içeriyordu – yalnızca yüzde 1,4’ü içeren insan yanıtlarından önemli ölçüde daha sık.
Modelden bazen etkileyici yanıtlar alınmasına rağmen, uzmanlar Almanya Bilim Medya Merkezi hakkında kuşkulu. Merkezden Roland Eils ve Benjamin Wild, “Modelin, bir hastanın belirsiz, eksik ve bazen yanlış beyanlarda bulunduğu ve kararların pratik klinik kısıtlamalar bağlamında alınması gereken gerçekçi bir durumla ne kadar iyi başa çıkacağı sorgulanabilir.” Charité’deki (BIH) Berlin Sağlık Enstitüsü’nden Dijital Sağlık için. “Diğer LLM’lerde olduğu gibi en büyük metodolojik sorun, modellerin halüsinasyon görebilmesi ve bir ifadenin ne zaman doğru olduğuna ve ne zaman sadece ilk bakışta doğru göründüğüne karar vermenin zor olmasıdır.”
Reklamcılık
Ve Graz Tıp Üniversitesi Tıbbi Bilişim/İstatistik Enstitüsü’nden Andreas Holzinger, karşılaştırma ölçütlerinin “bir modelin, günlük tıbbi uygulamada ortaya çıkabileceği gibi, bağlama özgü veya bireyselleştirilmiş sorgulara yanıt verme yeteneğini genellikle değerlendiremediğini” vurguluyor. Bu nedenle, geniş bir dil modelinin tıp pratiğinde kullanıma uygunluğunu etkili bir şekilde değerlendirmek için, “yalnızca ölçütlere değil, aynı zamanda gerçek dünya koşulları altında dikkatli test ve değerlendirmeye güvenmek de önemli olacaktır. , yasal ve güvenlikle ilgili yönler”.
Uzmanlar ayrıca Google’ın ne modelin kodunu ne de ağırlıklarını yani ağın nöronları arasındaki bağlantının gücünü yayınlamamasını eleştiriyor. Grubun kendisi bunu “tıbbi alanda böyle bir modelin kontrolsüz kullanımından kaynaklanan güvenlik etkileri” ile gerekçelendiriyor ve ortaklar, araştırma topluluğu ve düzenleyicilerle birlikte daha da geliştirilmesi gereken “yeniliklere karşı sorumlu bir yaklaşıma” atıfta bulunuyor.
AB’nin AI Yasası planlandığı gibi kabul edilirse, grubun başka seçeneği kalmaz. Klinik operasyonlarda büyük dil modellerinin kullanılması, kesinliğe yakın bir olasılıkla, “yüksek riskli bir uygulama” olarak ele alınacak ve buna göre düzenlenecektir.
(wst)
Haberin Sonu
Reklamcılık
Önceki kıyaslamalar genellikle yalnızca dil modellerinin bireysel tıbbi testlerdeki performansını değerlendirir. Bu nedenle MultiMedQA, olgusallık, anlayış, potansiyel zarar ve yanlılık gibi kriterler boyunca yanıtların kalitesini değerlendirmek için yeni kriterler içerir. Kıyaslama yedi veri kümesinden oluşur: tıbbi araştırmalardan ve hastalardan gelen sorularla altı mevcut veri seti ve çevrimiçi olarak sıklıkla aranan 3173 tıbbi sorudan oluşan bir veri kümesi olan HealthSearchQA.
Med-PaLM, 540 milyar parametreli PaLM (Pathways Language Model) tabanlı, tıbbi sorulara uyarlanmış bir transformatör modelidir. Ancak yayınla birlikte Google kendi araştırmasının gerisinde kalıyor. Grup, Nisan ayı sonunda Med-PALM-2’nin işbirliği ortakları için mevcut olduğunu duyurmuştu.
Araştırma ekibi Med-PaLM’den gelen yanıtların kalitesini “Talimat İstemi Ayarı” adlı bir teknikle daha da iyileştirebilmiş olsa da, Med-PaLM hala büyük dil modellerinin tipik zayıflıklarını gösteriyor: bir yandan, yanıtlar güçlü bir şekilde bağlama bağımlı, öte yandan bu model halüsinasyonlu gerçekler de üretiyor.
Uzmanlar şüpheci olmaya devam ediyor
Bununla birlikte, genel olarak, model o kadar da kötü yapmadı. Makaleye göre, Med-PaLM’den MultiMedQA’dan rastgele seçilen sorulara verilen yanıtlar dokuz doktor tarafından değerlendirildi. Sonuç: Med-PaLM’den gelen ayrıntılı yanıtların yüzde 92,6’sı “bilimsel fikir birliğine” karşılık geliyor. Med-PaLM’nin yanıtlarının yüzde 5,8’i potansiyel olarak zararlı olarak sınıflandırıldı – insan uzmanların yanıtlarının yüzde 6,5’iyle karşılaştırılabilir. Bununla birlikte, dil modelinin yanıtları, zamanın yüzde 18,7’sinde yanlış veya uygunsuz içerik içeriyordu – yalnızca yüzde 1,4’ü içeren insan yanıtlarından önemli ölçüde daha sık.
Modelden bazen etkileyici yanıtlar alınmasına rağmen, uzmanlar Almanya Bilim Medya Merkezi hakkında kuşkulu. Merkezden Roland Eils ve Benjamin Wild, “Modelin, bir hastanın belirsiz, eksik ve bazen yanlış beyanlarda bulunduğu ve kararların pratik klinik kısıtlamalar bağlamında alınması gereken gerçekçi bir durumla ne kadar iyi başa çıkacağı sorgulanabilir.” Charité’deki (BIH) Berlin Sağlık Enstitüsü’nden Dijital Sağlık için. “Diğer LLM’lerde olduğu gibi en büyük metodolojik sorun, modellerin halüsinasyon görebilmesi ve bir ifadenin ne zaman doğru olduğuna ve ne zaman sadece ilk bakışta doğru göründüğüne karar vermenin zor olmasıdır.”
Reklamcılık
Ve Graz Tıp Üniversitesi Tıbbi Bilişim/İstatistik Enstitüsü’nden Andreas Holzinger, karşılaştırma ölçütlerinin “bir modelin, günlük tıbbi uygulamada ortaya çıkabileceği gibi, bağlama özgü veya bireyselleştirilmiş sorgulara yanıt verme yeteneğini genellikle değerlendiremediğini” vurguluyor. Bu nedenle, geniş bir dil modelinin tıp pratiğinde kullanıma uygunluğunu etkili bir şekilde değerlendirmek için, “yalnızca ölçütlere değil, aynı zamanda gerçek dünya koşulları altında dikkatli test ve değerlendirmeye güvenmek de önemli olacaktır. , yasal ve güvenlikle ilgili yönler”.
Uzmanlar ayrıca Google’ın ne modelin kodunu ne de ağırlıklarını yani ağın nöronları arasındaki bağlantının gücünü yayınlamamasını eleştiriyor. Grubun kendisi bunu “tıbbi alanda böyle bir modelin kontrolsüz kullanımından kaynaklanan güvenlik etkileri” ile gerekçelendiriyor ve ortaklar, araştırma topluluğu ve düzenleyicilerle birlikte daha da geliştirilmesi gereken “yeniliklere karşı sorumlu bir yaklaşıma” atıfta bulunuyor.
AB’nin AI Yasası planlandığı gibi kabul edilirse, grubun başka seçeneği kalmaz. Klinik operasyonlarda büyük dil modellerinin kullanılması, kesinliğe yakın bir olasılıkla, “yüksek riskli bir uygulama” olarak ele alınacak ve buna göre düzenlenecektir.
(wst)
Haberin Sonu