Az Anthropic MI-modell új rekordot döntött a feladatmegoldási időtávban

Hírek2025.12.21.20 megtekintés

  • Az Anthropic Claude Opus 4.5 mesterséges intelligencia-modell közel ötórás időtávval old meg feladatokat.
  • Az új rekordot a független METR kutatócsoport mérte le.
  • Az Opus 4.5 különösen hosszabb, összetett feladatokban teljesít kiemelkedően, de az értékelésnek vannak korlátai.

Az Anthropic által fejlesztett Claude Opus 4.5 mesterséges intelligencia-modell a legújabb mérések szerint képes közel öt órán keresztül sikeresen megoldani komplex feladatokat. Ez új mérföldkőnek számít az MI-modellek fejlődésében, amelyet az önálló kutatócsoport, a METR tett közzé.

Az Anthropic Opus 4.5 MI-modell teljesítménye

Rekord hosszúságú feladatmegoldás

A METR legújabb tesztjeiben az Anthropic Claude Opus 4.5 MI-modell elérte a 4 óra 49 perces, úgynevezett 50%-os időhorizontot. Ez azt jelenti, hogy a modell ennyi ideig képes a feladatok felét helyesen megoldani, ami a legjobb eredmény, amit eddig ilyen teszteken mértek. [^1]

Laut METR zeigt das, dass Opus 4.5 besonders bei längeren Aufgaben besser abschneidet als Vorgänger.

Különbségek a nehézségi szintek között

Bár az 50%-os időhorizont közel öt óra, az MI-modell 80%-os sikeressége már csak 27 perces időtávra korlátozódik. Ez megegyezik a korábbi modelleknél tapasztaltakkal, így az Opus 4.5 főleg a hosszabb, összetettebb feladatokban lépett előre. [^1]

A teszteredmények értelmezése és korlátai

A mérés megbízhatósága

A METR hangsúlyozza, hogy a tesztek csak 14 feladaton alapultak, így az adatok statisztikai bizonytalansága magas lehet. A több mint 20 órás elméleti felső határt valószínűleg adathiány és mérési zaj okozza, nem pedig az MI-modell tényleges képessége. [^1]

További elemzések rámutatnak, hogy minden ilyen típusú benchmarknak vannak módszertani korlátai, amelyek befolyásolhatják az eredményeket. [^1]

Összefoglaló

Az Anthropic Opus 4.5 MI-modell új mércét állított fel a feladatmegoldási időtávban, különösen hosszabb, összetett problémák esetén. Bár az eredmények biztatóak, további átfogó tesztekre van szükség a valós teljesítmény megítéléséhez.

Forrás:

[^1]: Matthias Bastian (2025-12-21). “KI-Modell von Anthropic löst Aufgaben mit fast fünf Stunden Zeithorizont”. The Decoder. Közzétéve [2025. 12. 21.].

Follow
Keresés Népszerű
Loading

Signing-in 3 seconds...

Signing-up 3 seconds...