Ana Sayfa
Yapay zeka
ChatGPT’nin Beklenen Özelliği Gelişmiş Ses Modu İçin Tarih Açıklandı

ChatGPT’nin Beklenen Özelliği Gelişmiş Ses Modu İçin Tarih Açıklandı

OpenAI, geçtiğimiz aylarda tanıttığı GPT-4o ile sergilediği insan benzeri gelişmiş ses modunun önümüzdeki haftadan itibaren ChatGPT Plus abonelerine sunulacağını söyledi.

OpenAI, ses, görüntü ve metin arasında gerçek zamanlı mantık yürütebilen yeni amiral gemisi yapay zeka modeli GPT-4o‘yu geçen Mayıs ayında duyurdu. Firmaya göre, yüz ifadelerini okuyabilen ve konuşulan dili gerçek zamanlı olarak tercüme edebilen GPT-4o, farklı duyguları taklit edebilecek.

Bu yetenekleri sağlayacak olan gelişmiş, insan benzeri ses özelliği henüz piyasaya sürülmedi, ancak CEO Sam Altman bunun için beklenen tarihi açıkladı.

Gelişmiş ses modu kullanıcılara önümüzdeki hafta sunuluyor.

gelişmiş ses modu

CEO Sam Altman, X hesabından bir paylaşıma verdiği yanıtta GPT-4o’nun gelişmiş Ses Modu özelliğinin önümüzde hafta itibariyle ChatGPT Plus abonelerine sunulacağını açıkladı.

Altman verdiği yanıtta daha fazla detay açıklamadı. Bu sebeple yeni özelliğin tüm Plus abonelerine mi yoksa yine küçük bir kullanıcı kitlesine mi sunulacağı belirsiz. Ancak her halükarda yeni ses modu için daha fazla örnek paylaşımlar göreceğiz ve modelin OpenAI’ın gösterdiği kadar iyi olup olmadığını anlayabileceğiz.

Bir dizi farklı duygusal tarzda sesler üretebiliyor.

OpenAI, gelişmiş ses modu özelliğinin “gerçek zamanlı” yanıt verme özelliği sunduğunu ve hatta kullanıcının sesindeki nüansları algılayarak “bir dizi farklı duygusal tarzda” (şarkı söylemek dahil) sesler üretebildiğini söylüyor. Teknik olarak GPT-4o’nun Ses Modu, ses girdilerine 232 milisaniye gibi kısa bir sürede yanıt verebiliyor.

GPT-4o ile her şey tek modelde birleşiyor.

GPT-4o’dan önce, ChatGPT ile konuşmak için Ses Modunu ortalama 2,8 saniye (GPT-3,5) ve 5,4 saniye (GPT-4) gecikme süreleriyle kullanılıyordu. Eski modellerde Ses Modu için aslında üç ayrı modelden oluşan bir süreç kullanılıyordu. Basit bir model sesi metne dönüştürüyor, GPT-3.5 veya GPT-4 metni alıyor ve metin çıktısı veriyor. Üçüncü bir basit model de, bu metni tekrar sese dönüştürüyordu.

Ancak GPT-4o ile her şey tek modelde birleşiyor. Ses, metin ve görsel bilgiler tek model tarafından analiz edip çıktıya dönüştürülüyor. Bu da daha hızlı ve yetkin bir modelle sonuçlanıyor.

Sam Altman, bu ses modu için: “Yeni ses (ve video) modu şimdiye kadar kullandığım en iyi bilgisayar arayüzü. Filmlerdeki yapay zeka gibi hissettiriyor ve gerçek olması benim için hala biraz şaşırtıcı. İnsan seviyesinde tepki sürelerine ve ifade gücüne ulaşmak büyük bir değişiklik olacak gibi görünüyor.” cümlelerini kullanmıştı.