Az ARC (Abstraction and Reasoning Corpus) benchmark hosszú éveken át jelentett kihívást a mesterséges intelligencia-kutatók számára, mivel az általánosítási és adaptációs képességek tesztelésére szolgált. Most azonban a legújabb optimalizációs eljárások és specializált reasoning modellek áttörték ezt az akadályt, új fejezetet nyitva az MI-fejlesztésben.[^1]
François Chollet MI-kutató 2019-ben mutatta be az ARC-t, hogy új mércét állítson az MI számára. Az ARC nem a nagy adathalmazokból való tanulás hatékonyságát, hanem az új készségek gyors elsajátításának képességét mérte.[^1]
„Az ARC-t úgy terveztük, hogy a gépi absztrakció és adaptáció hatékonyságát mérje, szemben a puszta memorizálással.” – François Chollet
Sokáig még a legfejlettebb nyelvi modellek is gyengén teljesítettek az ARC-n, miközben más benchmarkokon már túlszárnyalták az emberi szintet.[^1]
A Poetiq rendszer új megközelítést alkalmaz, amelyben fejlett modelleket – például Gemini 3-at és GPT-5.1-et – ötvöz nyílt forráskódú megoldásokkal, saját architektúrába ágyazva. A rendszer iteratív problémamegoldási ciklust használ: megoldási javaslatokat generál, visszajelzést értékel, majd önellenőrzéssel finomítja a válaszokat.[^1]
Az eredmény: a Poetiq (GPT-OSS-b) több mint 40%-os pontosságot ér el az ARC-AGI-1-en, kevesebb mint egy cent költséggel feladatonként, ami jelentős előrelépés a korábbi, erőforrásigényes megközelítésekhez képest.[^1]
A teljesítménynövekedés főleg a nyilvános benchmark-adatokon mutatkozik meg, mivel ezek gyakran bekerülnek a modellek tanítási adatai közé – ezt nevezzük adatkontaminációnak.[^1] Az igazi általánosítási képesség csak olyan feladatokon mérhető, amelyeket a modellek még sosem láttak. A Poetiq is hangsúlyozza, hogy a pontosság csökken, amikor a rendszert a félprivát ARC-adathalmazokra alkalmazzák.[^1]
A szakértők, köztük François Chollet, szerint az MI-fejlődés új korszakába lépett: a modellek már nem statikus válaszokat adnak, hanem futás közben alkalmazkodnak, például programgenerálás vagy láncolt gondolkodás révén.[^1]
„Teljesen az adaptáció korszakában vagyunk: a modellek futásidőben képesek önmagukat újrakonfigurálni a feladatokhoz.” – François Chollet
Ez a szemléletváltás nem jelent automatikus eljutást az általános MI-hez (AGI), de jelentős lépést az alkalmazkodó, dinamikus rendszerek irányába.[^1]
Az ARC-AGI-1 benchmark gyakorlatilag „telített” – a legjobb rendszerek már felülmúlják az emberi átlagot, sőt a nehezebb ARC-AGI-2-t is gyorsan utolérik.[^1] Az MI-közösség marketingeszközként tekint a benchmarkokra, amelyek azonban továbbra is ösztönzik az adaptív és reasoning-alapú fejlesztéseket.
Az ARC-AGI-3 már az interaktív környezetekben való „agency” – azaz cselekvőképesség – mérésére összpontosít, jelezve a benchmarkok folyamatos fejlődését.[^1]
Az ARC, amely hosszú éveken keresztül a mesterséges intelligencia egyik legnagyobb kihívása volt, ma már a specializált reasoning modellek és optimalizációs technikák révén megközelíthetőbbé vált. Bár ez nem jelenti azt, hogy a mesterséges intelligencia már „emberi módon” gondolkodik, az iparág adaptációs képessége és technológiai fejlődése vitathatatlan. A jövőben az olyan benchmarkok, mint az ARC-AGI-3, még komplexebb kihívásokat jelentenek majd, elősegítve az MI további fejlődését.
[^1]: The Decoder (2025-11-29). “Langjähriges KI-Hindernis ARC fällt durch die unaufhaltsame Optimierungsmaschinerie”. Közzétéve [2025. 11. 29.].