A Google jelentős frissítést adott ki az Gemini 2.5 Flash Native Audio modellhez, amely célja az MI-alapú hangasszisztensek valósághűbbé és hatékonyabbá tétele. Az újítás főként az utasításkövetés és a természetes párbeszéd minőségének javítására összpontosít, miközben fejlettebb képességeket kínál fejlesztőknek és végfelhasználóknak egyaránt.[^1]
Az új Gemini 2.5 Flash Native Audio modell jelentős előrelépést mutat az MI-hangasszisztensek területén. A Google közleménye szerint a modell mostantól képes összetettebb munkafolyamatok kezelésére, a felhasználói utasításokat pedig pontosabban hajtja végre. Az utasításkövetés aránya 84%-ról 90%-ra nőtt, míg a többlépcsős beszélgetések minősége is javult.
“Az új audiomodell 71,5%-os pontosságot ért el a ComplexFuncBench-benchmarktól, ezzel megelőzve az OpenAI gpt-realtime modelljét, amely 66,5%-os eredményt ért el.”[^1]
Az újítások már elérhetők a Google AI Studio, Vertex AI, Gemini Live és Search Live platformokon. A Google Cloud ügyfelei már használhatják az új technológiát, a fejlesztők pedig tesztelhetik azt a Gemini API-n keresztül.
Bár a Google új audiomodellje jobb eredményeket ért el, mint az OpenAI gpt-realtime modellje, fontos megjegyezni, hogy a tesztek nem az OpenAI legújabb, éppen csak megjelent verziójával készültek. Ez alapján a verseny továbbra is szoros a két vállalat között az MI-hangasszisztensek fejlesztésében.[^1]
A Google Gemini audiomodellek fejlesztése új szintre emeli az MI-alapú hangasszisztensek minőségét, és várhatóan tovább gyorsítja a természetes beszédet imitáló technológiák fejlődését.
Az új modell révén a felhasználók pontosabb, természetesebb hangalapú interakciókat tapasztalhatnak, míg a fejlesztők számára bővülnek az integrációs és tesztelési lehetőségek.
Az új Gemini audiomodell-frissítés tovább erősíti a Google pozícióját az MI-hangtechnológia piacán. A fejlesztések célja a valósághűbb, megbízhatóbb hangalapú asszisztensek létrehozása, amelyek a jövőben a mindennapi digitális kommunikáció alapját képezhetik.
[^1]: Matthias Bastian (2025. 12. 16.). “Google verbessert Gemini-Audiomodelle für realistischere KI-Stimmen”. The Decoder. Közzétéve [2025. 12. 16.].