Bilim insanları tarafından yapılan son çalışmada yapay zeka, ses ile fiziksel özellikler arasında bağlantı kurmayı ve yüz modellemeleri yapmayı öğrendi.
İnsan beynine benzer şekilde ‘düşünen bir bilgisayar’ türü olan sinir ağı Speech2Face, bilim insanları tarafından yaklaşık 100 bin farklı kişinin konuşma videoları kullanılarak eğitildi.
Speech2Face, bu veri kümesinden yararlanarak vokal ipuçları ile insan yüzündeki bazı fiziksel özellikler arasındaki ilişkiyi öğrendi. Sonraki adımda ise yapay zeka, dinletilen farklı ses kayıtlarında konuşan kişilerin yüz modellemelerini yaptı.
Çalışmayı gerçekleştiren bilim insanları Speech2Face’in, bireyin yalnızca sesini temel alarak neye benzediğini henüz tam olarak belirleyemediğini ancak cinsiyet, yaş ve etnik köken gibi özellikleri ayırt edebildiğini belirttiler.
Speech2Face, henüz yolun başında olmasına rağmen kimi zaman gerçeğe oldukça yakın modellemeler yapmayı da başardı. ABD merkezli internet güvenlik şirketi Cloudflare’in kriptografi uzmanı Nick Sullivan, Speech2Face’i eğitmek için kullanılan örneklerden biri olduğunu, yapay zekanın modellediği yüzleri arasında kendi yüzünü görünce öğrendi.
Eğitim aşamasında karşılaşılan güçlüklerden biri, yapay zekanın dil değişkenleri sırasında karma performans sergilemesiydi. Örneğin Çince konuşan bir Asyalının ses klibi dinletildiğinde ortalama olarak doğru bir modelleme yapan Speech2Face, aynı kişi farklı bir kayıtta İngilizce konuştuğunda ise beyaz bir insan yüzü oluşturdu.
Araştırmacılar, eğitim veri setinin yalnızca YouTube’dan alınan videolarından oluştuğunu ve dünya nüfusunu orantılı bir şekilde temsil etmediğini ifade ettiler.
Yapay zeka ayrıca düşük tiz sesleri erkek, yüksek tiz sesleri ise kadın yüzleriyle eşleştirerek cinsiyet yanlılığı gösterdi.
Buna göre yapay zeka sesten yararlanarak ortalama görünüşte yüzler çizebiliyor. Speech2Face’in önden görünen, nötr ifadeli yüzler modellediğini ifade eden bilim insanlarına göre daha detaylı çizimler için çalışmanın ilerletilmesi gerekiyor.