Az Imperial College London és az Alibaba Ant Group kutatói új tréningmódszert fejlesztettek ki, amely lehetővé teszi, hogy több, különböző feladatokra specializált mesterséges intelligencia ügynök (MI-ügynök) hatékonyan dolgozzon együtt egy csapatban. Az M-GRPO (Multi-Agent Group Relative Policy Optimization) nevű keretrendszer bizonyítottan javítja az összetett, több lépésből álló problémák megoldását, miközben stabilabb és gyorsabb tanulást eredményez a hagyományos módszerekhez képest.
A hagyományos, egy-ügynökös rendszerek nehezen boldogulnak komplex feladatokkal, mivel egyetlen ügynök nem lehet minden részterületen szakértő. A most bemutatott, csoportos megközelítés szerint az MI-ügynökök különböző szerepeket kapnak: egy főügynök irányítja a folyamatokat, míg az alügynökök például webkeresésre vagy adatelemzésre specializáltak. Ez a hierarchikus struktúra közel 10%-kal gyorsabb problémamegoldást eredményezett a kutatók tesztjeiben.
Az új tréningmódszer lehetővé teszi, hogy a fő- és alügynökök önállóan tanuljanak, majd tapasztalataikat egy közös adatbázisban szinkronizálják. Minden ügynök szerepkörének megfelelő visszacsatolást kap: a főügynök a végső válasz minőségét, az alügynökök saját részfeladatuk sikerességét értékelik. Az eltérő számú alügynöki műveletet egy „Trajectory-Alignment-Schema” igazítja ki. Egy központi „agent controller” osztja ki a részfeladatokat és hívja meg a specializált eszközöket.
A rendszert a Qwen3-30B modell segítségével tesztelték, három benchmark feladaton (GAIA, XBench-DeepSearch, WebWalkerQA). Az M-GRPO minden esetben felülmúlta a hagyományos, egyedüli főügynökös vagy befagyasztott alügynökös multi-agent megközelítéseket: stabilabb tanulás és jobb eredmények születtek. Például egy logikai feladatnál a rendszer helyes eszközt választott, míg a régi módszer hibázott.
Az új rendszer kódja és adatai nyilvánosan elérhetők a GitHubon.
Az M-GRPO tréningmódszer áttörést jelent az MI-ügynökök csapatmunkájában: a szerepalapú, hierarchikus tanulás gyorsabb, pontosabb és stabilabb eredményeket hoz összetett problémákban.