Yapay zekâ teknolojileri, son yıllarda önemli bir gelişim kaydetti ve şimdi, sokaklardaki sesleri görsel manzaralara dönüştürme yeteneğine sahip yeni bir sistemle karşımıza çıkıyor. Teksas Üniversitesi Austin Kampüsü’nden Yrd. Doç. Dr. Yuhao Kang ve meslektaşları tarafından geliştirilen “Ses Manzarası-Görüntü Yayılım Modeli”, sokak seslerini doğru görsellerle eşleştirerek, sokağın tam bir görsel yansımasını yaratabiliyor.
Mevcut yapay zekâ sistemleri, genellikle sessiz görüntülerle eşleşen ses efektleri üretmeye odaklanıyordu. Ancak, bu yeni teknoloji tam tersi bir işlevi yerine getiriyor: Sokakların ses kayıtlarını alarak, bu seslerin hangi görsellerle örtüştüğünü yüksek doğrulukla tahmin ediyor. Bu çalışma, özellikle sesin mekân duygumuzu nasıl şekillendirdiğini anlamak amacıyla yapıldı.
Kentsel ve kırsal sokaklardan alınan verilerle model eğitildi.
Model, Kuzey Amerika, Asya ve Avrupa’daki çeşitli kentsel ve kırsal sokaklardan alınan 10 saniyelik ses-görüntü klipleri üzerinde eğitildi. Bu klipler, YouTube videolarından alınan hareketsiz sokak görüntüleri ile eşleşen ortam seslerinden oluşuyordu. Derin öğrenme algoritmaları kullanarak sistem, yalnızca hangi seslerin hangi görsel öğelere karşılık geldiğini öğrenmekle kalmayıp, sesin hangi niteliklerinin hangi görsel ortamlara denk geldiğini de kavrayabiliyor.
Eğitim süreci tamamlandıktan sonra, yapay zekâ, 100 farklı sokak görünümünden oluşan yeni bir veri kümesine dayalı olarak görüntü üretme görevini üstlendi. Bu görüntüler, yalnızca ortam seslerine dayanarak oluşturuluyor ve sonrasında insan jürilerden oluşan bir panel tarafından değerlendirildi. Jüri, her bir görüntüyle birlikte çalınan sokak sesi eşliğinde, hangi görüntünün doğru olduğunu %80 doğrulukla tespit etti.
Yeni yapay zekâ teknolojisi, doğru görsel üretiminin ötesine geçiyor.
Bu yeni yapay zekâ teknolojisi, sadece doğru görsel üretiminden daha fazlasını sağlıyor. Üretilen görüntüler, orijinal videolardaki ışık koşullarıyla da uyum gösteriyor. Örneğin, açık gökyüzü, yeşillik ve bina oranları, oluşturulan görüntülerde doğal bir şekilde yansıtılıyor. Ayrıca, gece sokaklarında azalan trafik gürültüsü veya gece böceklerinin sesine dair ince detaylar da dikkat çekiyor.
Kaynak: TechInside