A Google továbbfejlesztette a Gemini audiomodelleket a valósághűbb MI-hangokért

Hírek2025.12.17.26 megtekintés

  • A Google frissítette a Gemini 2.5 Flash Native Audio modellt, hogy természetesebb MI-hangokat biztosítson.
  • Az új modell pontosabb felhasználói és fejlesztői utasításkövetést, valamint jobb beszélgetési élményt nyújt.
  • A frissítés a Google AI Studio, Vertex AI, Gemini Live és Search Live platformokon érhető el.
  • Az új modell meghaladta az OpenAI gpt-realtime teljesítményét a ComplexFuncBench-benchmarktól.

A Google jelentős frissítést adott ki az Gemini 2.5 Flash Native Audio modellhez, amely célja az MI-alapú hangasszisztensek valósághűbbé és hatékonyabbá tétele. Az újítás főként az utasításkövetés és a természetes párbeszéd minőségének javítására összpontosít, miközben fejlettebb képességeket kínál fejlesztőknek és végfelhasználóknak egyaránt.[^1]

A Gemini audiomodellek fejlesztése a Google-tól

Főbb újdonságok és fejlesztések

Az új Gemini 2.5 Flash Native Audio modell jelentős előrelépést mutat az MI-hangasszisztensek területén. A Google közleménye szerint a modell mostantól képes összetettebb munkafolyamatok kezelésére, a felhasználói utasításokat pedig pontosabban hajtja végre. Az utasításkövetés aránya 84%-ról 90%-ra nőtt, míg a többlépcsős beszélgetések minősége is javult.

“Az új audiomodell 71,5%-os pontosságot ért el a ComplexFuncBench-benchmarktól, ezzel megelőzve az OpenAI gpt-realtime modelljét, amely 66,5%-os eredményt ért el.”[^1]

Elérhetőség és platformok

Az újítások már elérhetők a Google AI Studio, Vertex AI, Gemini Live és Search Live platformokon. A Google Cloud ügyfelei már használhatják az új technológiát, a fejlesztők pedig tesztelhetik azt a Gemini API-n keresztül.

A Google előnye az MI-hangasszisztensek versenyében

Összehasonlítás az OpenAI megoldásaival

Bár a Google új audiomodellje jobb eredményeket ért el, mint az OpenAI gpt-realtime modellje, fontos megjegyezni, hogy a tesztek nem az OpenAI legújabb, éppen csak megjelent verziójával készültek. Ez alapján a verseny továbbra is szoros a két vállalat között az MI-hangasszisztensek fejlesztésében.[^1]

Az MI-hangok jövője a Google-nél

A Google Gemini audiomodellek fejlesztése új szintre emeli az MI-alapú hangasszisztensek minőségét, és várhatóan tovább gyorsítja a természetes beszédet imitáló technológiák fejlődését.

Felhasználói és fejlesztői előnyök

Az új modell révén a felhasználók pontosabb, természetesebb hangalapú interakciókat tapasztalhatnak, míg a fejlesztők számára bővülnek az integrációs és tesztelési lehetőségek.

Összefoglaló

Az új Gemini audiomodell-frissítés tovább erősíti a Google pozícióját az MI-hangtechnológia piacán. A fejlesztések célja a valósághűbb, megbízhatóbb hangalapú asszisztensek létrehozása, amelyek a jövőben a mindennapi digitális kommunikáció alapját képezhetik.

Forrás:

[^1]: Matthias Bastian (2025. 12. 16.). “Google verbessert Gemini-Audiomodelle für realistischere KI-Stimmen”. The Decoder. Közzétéve [2025. 12. 16.].

Follow
Keresés Népszerű
Loading

Signing-in 3 seconds...

Signing-up 3 seconds...