Az Oppo mesterséges intelligenciával foglalkozó kutatócsoportjának új tanulmánya szerint a mély kutatásra tervezett MI-ügynökök jelentős hibákat követnek el: gyakran inkább kitalálnak részleteket, semmint elismernék, ha valamit nem tudnak. A tesztelt rendszerekben az ilyen típusú hibák a téves információk egyik fő forrásai, amelyek az MI-kutatási jelentések megbízhatóságát veszélyeztetik.[^1]
A tanulmány egyik példája szerint egy MI-ügynök azt állította, hogy egy befektetési alap 20 éven át pontosan 30,2%-os éves hozamot ért el. Ez a precizitás a szakértői tudás látszatát kelti, azonban az ilyen részletes adatok a valóságban nem hozzáférhetők a nyilvánosság számára, ezért vélhetően a rendszer találta ki őket. Egy másik esetben az MI 24 forrásmegjelölést sorolt fel egy tudományos elemzéshez, ám ezek közül több nem létező hivatkozás volt, mások pedig áttekintő cikkek, nem pedig eredeti kutatások.[^1]
A kutatók összesen 14 féle hibát azonosítottak három fő kategóriában: érvelési (reasoning), információgyűjtési (retrieval) és tartalomgenerálási (generation) hibák. Az utóbbi, vagyis az adatok kitalálása, az összes hiba 39%-át tette ki, míg az információgyűjtési hibák 33%-ban, az érvelési problémák pedig 28%-ban fordultak elő.[^1]
A FINDER és DEFT nevű új elemzési rendszerek segítségével mintegy 1000 MI által generált jelentést vizsgáltak meg. A FINDER benchmark 100 komplex kutatási feladatot és 419 ellenőrzési pontot tartalmaz, amelyek szigorúan megkövetelik a források ellenőrzését és a módszertani alaposságot.[^1]
Az elemzésbe bevont, kereskedelmi forgalomban elérhető rendszerek – például Gemini 2.5 Pro Deep Research és OpenAI o3 Deep Research – is csupán 51, illetve 66% pontosságot értek el a valósághű források és idézetek terén. Ez azt mutatja, hogy még a legfejlettebb MI-kutatóügynökök is gyakran képtelenek megfelelően integrálni a bizonyítékokat, és rugalmasan alkalmazkodni a kutatási helyzetekhez.[^1]
A kutatók hangsúlyozták, hogy a hibák többsége nem az utasítások félreértéséből fakad, hanem abból, hogy a rendszerek nem tudnak átláthatóan bánni a bizonytalansággal, és nem építenek be ellenőrző mechanizmusokat a teljes kutatási folyamat során. Ehelyett sokszor minden szakaszban hamis adatokat generálnak, ha hiányos az információ.[^1]
A tanulmány egyértelművé teszi, hogy a jelenlegi MI-alapú kutatóügynökök teljesítménye jelentős korlátokba ütközik: a rendszerek inkább feltalálnak részleteket, minthogy beismerjék, ha valamit nem tudnak. A kutatók remélik, hogy a FINDER és DEFT eszközök nyilvánossá tétele hozzájárulhat az MI-kutatás megbízhatóságának javításához. A jövőben elengedhetetlen lesz, hogy az MI-ügynökök átláthatóan kezeljék a bizonytalanságokat, és erősítsék a források ellenőrzését.
[^1]: Jonathan Kemper (2025. 12. 06.). “KI-Rechercheagenten erfinden lieber Fakten als zuzugeben, dass sie etwas nicht wissen”. The Decoder. Közzétéve [2025. 12. 06.].