Az évek óta tartó MI-akadály ARC az optimalizációs gépezet előtt meghajlik

Hírek2025.11.30.35 megtekintés

  • Az ARC mesterséges intelligencia (MI) benchmarkot a legújabb optimalizációs technikák és reasoning modellek áttörték.
  • A Poetiq fejlesztése 40% feletti pontosságot ért el az ARC-AGI-1-en, jelentősen csökkentve az erőforrásigényt.
  • Az iparágban egyre inkább specializált reasoning megközelítések váltják fel az általános MI-skálázási elveket.
  • A benchmarkok, mint az ARC, továbbra is katalizátorként szolgálnak a technológiai fejlődésben.

Az ARC (Abstraction and Reasoning Corpus) benchmark hosszú éveken át jelentett kihívást a mesterséges intelligencia-kutatók számára, mivel az általánosítási és adaptációs képességek tesztelésére szolgált. Most azonban a legújabb optimalizációs eljárások és specializált reasoning modellek áttörték ezt az akadályt, új fejezetet nyitva az MI-fejlesztésben.[^1]

Az ARC jelentősége az MI fejlesztésében

Az eredeti cél és az új korszak

François Chollet MI-kutató 2019-ben mutatta be az ARC-t, hogy új mércét állítson az MI számára. Az ARC nem a nagy adathalmazokból való tanulás hatékonyságát, hanem az új készségek gyors elsajátításának képességét mérte.[^1]

„Az ARC-t úgy terveztük, hogy a gépi absztrakció és adaptáció hatékonyságát mérje, szemben a puszta memorizálással.” – François Chollet

Sokáig még a legfejlettebb nyelvi modellek is gyengén teljesítettek az ARC-n, miközben más benchmarkokon már túlszárnyalták az emberi szintet.[^1]

Az optimalizációs fordulat: Poetiq és a reasoning modellek

Iteratív problémamegoldás és önellenőrzés

A Poetiq rendszer új megközelítést alkalmaz, amelyben fejlett modelleket – például Gemini 3-at és GPT-5.1-et – ötvöz nyílt forráskódú megoldásokkal, saját architektúrába ágyazva. A rendszer iteratív problémamegoldási ciklust használ: megoldási javaslatokat generál, visszajelzést értékel, majd önellenőrzéssel finomítja a válaszokat.[^1]

Az eredmény: a Poetiq (GPT-OSS-b) több mint 40%-os pontosságot ér el az ARC-AGI-1-en, kevesebb mint egy cent költséggel feladatonként, ami jelentős előrelépés a korábbi, erőforrásigényes megközelítésekhez képest.[^1]

Az adatkontamináció és a valós általánosítás problémája

A teljesítménynövekedés főleg a nyilvános benchmark-adatokon mutatkozik meg, mivel ezek gyakran bekerülnek a modellek tanítási adatai közé – ezt nevezzük adatkontaminációnak.[^1] Az igazi általánosítási képesség csak olyan feladatokon mérhető, amelyeket a modellek még sosem láttak. A Poetiq is hangsúlyozza, hogy a pontosság csökken, amikor a rendszert a félprivát ARC-adathalmazokra alkalmazzák.[^1]

A paradigmaváltás az MI-kutatásban

Reasoning, adaptáció és új technikák

A szakértők, köztük François Chollet, szerint az MI-fejlődés új korszakába lépett: a modellek már nem statikus válaszokat adnak, hanem futás közben alkalmazkodnak, például programgenerálás vagy láncolt gondolkodás révén.[^1]

„Teljesen az adaptáció korszakában vagyunk: a modellek futásidőben képesek önmagukat újrakonfigurálni a feladatokhoz.” – François Chollet

Ez a szemléletváltás nem jelent automatikus eljutást az általános MI-hez (AGI), de jelentős lépést az alkalmazkodó, dinamikus rendszerek irányába.[^1]

Benchmarkok szerepe és jövője

Az ARC „megoldása” és a kihívások inflációja

Az ARC-AGI-1 benchmark gyakorlatilag „telített” – a legjobb rendszerek már felülmúlják az emberi átlagot, sőt a nehezebb ARC-AGI-2-t is gyorsan utolérik.[^1] Az MI-közösség marketingeszközként tekint a benchmarkokra, amelyek azonban továbbra is ösztönzik az adaptív és reasoning-alapú fejlesztéseket.

Az ARC-AGI-3 már az interaktív környezetekben való „agency” – azaz cselekvőképesség – mérésére összpontosít, jelezve a benchmarkok folyamatos fejlődését.[^1]

Összefoglaló

Az ARC, amely hosszú éveken keresztül a mesterséges intelligencia egyik legnagyobb kihívása volt, ma már a specializált reasoning modellek és optimalizációs technikák révén megközelíthetőbbé vált. Bár ez nem jelenti azt, hogy a mesterséges intelligencia már „emberi módon” gondolkodik, az iparág adaptációs képessége és technológiai fejlődése vitathatatlan. A jövőben az olyan benchmarkok, mint az ARC-AGI-3, még komplexebb kihívásokat jelentenek majd, elősegítve az MI további fejlődését.

Forrás:

[^1]: The Decoder (2025-11-29). “Langjähriges KI-Hindernis ARC fällt durch die unaufhaltsame Optimierungsmaschinerie”. Közzétéve [2025. 11. 29.].

Follow
Keresés Népszerű
Loading

Signing-in 3 seconds...

Signing-up 3 seconds...