Qwen új TTS-modellekkel klónozza a hangokat három másodperces hangmintából

Hírek2025.12.23.25 megtekintés

  • Az Alibaba Cloud Qwen csapata két új mesterséges intelligencia (MI) TTS-modellt mutatott be.
  • Az egyik modell három másodpercnyi hangminta alapján képes hangokat klónozni, több nyelven is.
  • Mindkét modell elérhető az Alibaba Cloud API-ján keresztül, nyilvános demók is rendelkezésre állnak.

Az Alibaba Cloud Qwen csapata két új, mesterséges intelligencián alapuló szöveg-beszéd (TTS) modellt jelentett be, amelyek forradalmasítják a hangklónozást és a hangtervezést. A fejlesztések révén akár három másodperces hangminta alapján is hűen utánozható az eredeti hang, ami jelentős előrelépésnek számít a beszédszintetizálás területén.[^1]

Qwen új TTS-modellek: Hangklónozás és -tervezés mesterséges intelligenciával

Qwen3-TTS-VD-Flash: Hangtervezés részletes paraméterezéssel

Az Qwen3-TTS-VD-Flash modell lehetővé teszi, hogy a felhasználók részletes szöveges leírás alapján generáljanak különböző hangokat. Megadhatók olyan jellemzők, mint az érzelem, a beszédtempó vagy a hangmagasság. A gyártó szerint a modell tesztekben felülmúlta az OpenAI GPT-4o-mini-tts API-ját is.[^1]

„Férfi, középkorú, erőteljes bariton – rendkívül energikus reklámhang, gyors beszédtempóval és túlzó hangmagasság-emelkedéssel, tele eladói lendülettel.”

Qwen3-TTS-VC-Flash: Hangklónozás három másodperc alatt

Az Qwen3-TTS-VC-Flash modell mindössze három másodpercnyi hangminta alapján képes leutánozni bármilyen hangot, és azt tíz különböző nyelven visszaadni, többek között németül is. A Qwen szerint a modell hibaaránya alacsonyabb, mint az Elevenlabs vagy a MiniMax megoldásainál.[^1]

„Az MI bonyolult szövegeket is feldolgoz, képes állathangokat utánzni vagy akár hangokat kiemelni felvételekből.”

Elérhetőség és alkalmazási lehetőségek

Mindkét új TTS-modell elérhető az Alibaba Cloud API-ján keresztül, nyilvános demók is kipróbálhatók a Hugging Face platformján. A fejlesztés nagy lehetőségeket rejt az ügyfélszolgálati rendszerek, a digitális asszisztensek vagy akár a tartalomgyártás számára is.[^1]

Összefoglaló

Az Alibaba Cloud Qwen csapata új MI-alapú TTS-modelljeivel jelentős lépést tett a természetes hangklónozás és beszédszintetizálás felé. Az innovatív megoldások várhatóan széles körben alkalmazhatók lesznek a jövő digitális szolgáltatásaiban, miközben a minőség és a pontosság terén is új mércét állítanak.[^1]

Forrás:

[^1]: Jonathan Kemper (2025. 12. 23.). “Stimmen-Klonen aus drei Sekunden Audio: Qwen veröffentlicht neue TTS-Modelle”. The Decoder. Közzétéve [2025. 12. 23. 15:00:39 +0000].

Follow
Keresés Népszerű
Loading

Signing-in 3 seconds...

Signing-up 3 seconds...