Az ARC (Abstraction and Reasoning Corpus) benchmark hosszú időn át az egyik legnagyobb akadályt jelentette az MI kutatásban, de a legfrissebb fejlemények szerint a Poetiq vállalat új rendszere már mind az ARC-AGI-1, mind az ARC-AGI-2 teszteken jelentős áttörést ért el. Az eredmények jól mutatják, hogy az optimalizációs módszerek és az adaptív rendszerek egyre inkább képesek megoldani azokat a problémákat, amelyeket korábban szinte lehetetlennek tartottak.[^1]
Az ARC tesztet 2019-ben François Chollet MI kutató mutatta be azzal a céllal, hogy megkülönböztesse az igazán adaptív intelligenciát a pusztán statisztikai modellektől. A benchmark színes rácsos feladványai hosszú éveken át jelentettek kihívást mind a fejlett nyelvi modelleknek, mind a fejlesztőknek, és sokáig az emberek teljesítményét sem sikerült megközelíteni.
A Poetiq által alkalmazott rendszer a legújabb nagy modellekre (például Gemini 3, GPT-5.1, GPT-5.2) és saját architektúrára épül. A modell kódot generál minden feladatra, majd ellenőrzi, javítja azt, és több független próbálkozást is kombinál az eredmények megbízhatósága érdekében. Ez az iteratív megközelítés az úgynevezett „önellenőrzés” révén növeli a pontosságot és csökkenti a hibákat.[^1]
Az eredmények szerint a Poetiq rendszerei már „telítették” az ARC-AGI-1 benchmarkot, vagyis elérték a maximális, elvárható teljesítményt az első adathalmazon. Ennél is figyelemreméltóbb, hogy az ARC-AGI-2 esetében az MI rendszer átlépte az emberi átlagos 60%-os teljesítményt – mindezt anélkül, hogy valaha is találkozott volna ezekkel a konkrét feladatokkal a tanulás során.[^1]
A kutatók kiemelik, hogy az MI modellek gyakran gyengébben teljesítenek a nem nyilvános (semi-private) adatokon, mert a publikus feladatok a tanító adathalmazba is bekerülhetnek. Az ARC-AGI-2 viszont szűkebben kalibrált, és Poetiq rendszere sosem találkozott az ottani feladatokkal, ezért jelentősebb a teljesítménye.[^1]
Chollet szerint elérkezett a tesztidő-adaptáció kora, ahol a modellek nem statikusan válaszolnak, hanem futásidőben képesek új állapotokat felvenni, például programgenerálás vagy gondolatmenet-láncolás révén. Bár az ARC megoldása nem jelent automatikusan általános mesterséges intelligenciát, fontos lépés az alkalmazkodóbb, rugalmasabb rendszerek felé.[^1]
Az ARC példája jól mutatja, hogy amint egy mércét meghatároznak és kellő ösztönzőt teremtenek (mint az ARC Prize esetében), a kutatás és az ipar gyorsan optimalizálja a megoldásokat. Ez nem az emberi gondolkodás másolását, hanem a technológiai alkalmazkodóképesség növekedését bizonyítja. Az MI közösség már az ARC-AGI-3-ra készül, amely az ügynöki képességeket, azaz a modellek cselekvőképességét fogja vizsgálni.[^1]
Az ARC benchmark „legyőzése” nem az MI-kutatás végcélja, hanem egy fontos mérföldkő az adaptív rendszerek fejlődésében. A Poetiq eredményei azt mutatják, hogy az iteratív, optimalizáció-alapú megközelítések egyre komplexebb problémákat képesek kezelni. A következő évek kihívása lesz, hogy ezek az eljárások a valóságban is általánosabb, mélyebb intelligenciához vezetnek-e.
[^1]: The Decoder (2025-12-25). “Langjähriges KI-Hindernis ARC fällt durch die unaufhaltsame Optimierungsmaschinerie”. Közzétéve [2025. 12. 25.].