Teknoloji

Dudak senkronizasyonu yapan robot EMO insan gibi konuşmayı öğreniyor

Dudak senkronizasyonu yapan robot teknolojileri, insansı robotların geleceği açısından kritik bir eşik olarak görülüyor. Columbia Üniversitesi’nde geliştirilen EMO adlı robot, yalnızca konuşma üretmekle kalmıyor, insanlara benzer şekilde dudak ve yüz hareketlerini senkronize ederek konuşmayı öğreniyor. Dudak senkronizasyonu yapan robot EMO, bu yeteneği sayesinde insan-robot etkileşiminde daha doğal ve gerçekçi bir deneyim sunmayı hedefliyor.

EMO’nun geliştirilme süreci, robotun kendi yüz hareketlerini gözlemleyerek öğrenmesine dayanıyor. Columbia Üniversitesi’nde robotik alanında doktora öğrencisi olan Yuhang Hu ve Prof. Hod Lipson liderliğindeki ekip, EMO’yu esnek silikon bir yüzle donatılmış robotik bir kafa olarak tasarladı. Bu yüzün altında yer alan 26 küçük motor, farklı kombinasyonlarda çalışarak çok sayıda yüz ifadesi ve dudak hareketi oluşturabiliyor.

EMO robotu konuşmayı ve yüz hareketlerini nasıl öğreniyor?

Araştırmacılar, EMO’nun öğrenme sürecini başlatmak için robotu bir aynanın karşısına yerleştirdi. EMO, binlerce farklı yüz ifadesi üretirken kendi görüntüsünü izleyerek hangi motor kombinasyonlarının hangi görsel sonuçları doğurduğunu öğrenmeye başladı. Bu yaklaşım, görselden eyleme olarak adlandırılan ve kısaca VLA (Vision-Language-Action) modeliyle tanımlanan bir öğrenme yöntemine dayanıyor. Bu sayede robot, yüz hareketleri ile motor kontrolü arasındaki ilişkiyi insan müdahalesi olmadan kavrayabiliyor.

Bir sonraki aşamada EMO, dudak senkronizasyonu yeteneğini geliştirmek için insanlara ait konuşma ve şarkı söyleme videolarını analiz etti. Saatler süren YouTube video incelemeleri sırasında robot, belirli seslerin hangi ağız ve dudak şekilleriyle üretildiğini ayırt etmeyi öğrendi. Yapay zekâ sistemi, bu gözlemleri daha önce edinilen motor bilgileriyle birleştirerek sentetik ses modülünden çıkan kelimelere uygun dudak hareketleri üretmeyi başardı.

Elbette teknoloji henüz kusursuz değil. EMO, özellikle “B” ve “W” gibi dudakların tamamen kapanmasını veya yuvarlanmasını gerektiren seslerde zorlanıyor. Ancak araştırmacılara göre bu durum, robotun daha fazla veriyle eğitilmesi sayesinde zamanla aşılabilecek bir sorun. İnsanlarda olduğu gibi, pratik arttıkça motor kontrolü ve ses-ifadeyle uyum da gelişiyor. Bu da EMO’nun gelecekte daha akıcı ve doğal konuşmalar yapabilmesinin önünü açıyor.

Yuhang Hu’ya göre dudak senkronizasyonu yeteneğinin gelişmiş konuşma yapay zekâlarıyla birleştirilmesi, insan-robot ilişkilerinde yeni bir boyut yaratabilir. ChatGPT veya Gemini benzeri dil modelleriyle entegre edilen bir robot, yalnızca doğru cümleler kurmakla kalmaz, aynı zamanda konuşmanın duygusal bağlamına uygun yüz ifadeleri de sergileyebilir. Robot, insan konuşmalarını ne kadar fazla gözlemlerse, mimik ve jestleri o kadar bağlama duyarlı hale geliyor. Bu da robotların eğitim, sağlık ve müşteri hizmetleri gibi alanlarda daha etkili kullanılmasını mümkün kılabilir.

 

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu