Az Alibaba Cloud Qwen csapata két új, mesterséges intelligencián alapuló szöveg-beszéd (TTS) modellt jelentett be, amelyek forradalmasítják a hangklónozást és a hangtervezést. A fejlesztések révén akár három másodperces hangminta alapján is hűen utánozható az eredeti hang, ami jelentős előrelépésnek számít a beszédszintetizálás területén.[^1]
Az Qwen3-TTS-VD-Flash modell lehetővé teszi, hogy a felhasználók részletes szöveges leírás alapján generáljanak különböző hangokat. Megadhatók olyan jellemzők, mint az érzelem, a beszédtempó vagy a hangmagasság. A gyártó szerint a modell tesztekben felülmúlta az OpenAI GPT-4o-mini-tts API-ját is.[^1]
„Férfi, középkorú, erőteljes bariton – rendkívül energikus reklámhang, gyors beszédtempóval és túlzó hangmagasság-emelkedéssel, tele eladói lendülettel.”
Az Qwen3-TTS-VC-Flash modell mindössze három másodpercnyi hangminta alapján képes leutánozni bármilyen hangot, és azt tíz különböző nyelven visszaadni, többek között németül is. A Qwen szerint a modell hibaaránya alacsonyabb, mint az Elevenlabs vagy a MiniMax megoldásainál.[^1]
„Az MI bonyolult szövegeket is feldolgoz, képes állathangokat utánzni vagy akár hangokat kiemelni felvételekből.”
Mindkét új TTS-modell elérhető az Alibaba Cloud API-ján keresztül, nyilvános demók is kipróbálhatók a Hugging Face platformján. A fejlesztés nagy lehetőségeket rejt az ügyfélszolgálati rendszerek, a digitális asszisztensek vagy akár a tartalomgyártás számára is.[^1]
Az Alibaba Cloud Qwen csapata új MI-alapú TTS-modelljeivel jelentős lépést tett a természetes hangklónozás és beszédszintetizálás felé. Az innovatív megoldások várhatóan széles körben alkalmazhatók lesznek a jövő digitális szolgáltatásaiban, miközben a minőség és a pontosság terén is új mércét állítanak.[^1]
[^1]: Jonathan Kemper (2025. 12. 23.). “Stimmen-Klonen aus drei Sekunden Audio: Qwen veröffentlicht neue TTS-Modelle”. The Decoder. Közzétéve [2025. 12. 23. 15:00:39 +0000].