GPT-5.2 tarol az OpenAI új tudományos tesztjén, de elbukik az összetett kutatási feladatokon

Hírek2025.12.19.29 megtekintés

  • Az OpenAI bemutatta az új FrontierScience benchmarkot, amely két szinten teszteli az MI-modelleket: olimpiai és kutatási feladatokon.
  • Az GPT-5.2 modell kiemelkedően teljesített az olimpiai kérdéseken (77%), de a kutatási feladatoknál csak 25%-ot ért el.
  • Minden jelenlegi MI-modell jelentős kihívásokkal szembesül az összetett kutatási problémák megoldásában.
  • Szakértők szerint az MI jelentősen segítheti a tudományos munkát, de a hibák és a félrevezető eredmények veszélye továbbra is fennáll.

Az OpenAI új tudományos mércét, a FrontierScience-et vezette be, hogy a legmodernebb mesterséges intelligencia modelleket olyan szintű kérdésekkel tesztelje, amelyek az egyetemi olimpiai és kutatási problémákhoz hasonlóak. Bár az GPT-5.2 jelentős előrelépést mutatott, az összetett kutatási feladatok továbbra is kihívást jelentenek az MI számára.

Az OpenAI FrontierScience benchmark és céljai

Az OpenAI szerint a korábbi tudományos tesztek már nem jelentenek elegendő kihívást az MI-modellek számára, ezért alkották meg a FrontierScience-et[^1]. A benchmark két részből áll: egy olimpiai szintű (Olympiad-Set) és egy kutatási szintű (Research-Set) feladatsorból, összesen 160, fizikai, kémiai és biológiai kérdésből.

Az olimpiai és kutatási kérdések forrásai

Az olimpiai feladatokat 42, korábban olimpiai érmes vagy nemzeti csapatvezető szakértő készítette, míg a kutatási kérdéseket 45 tudós, akik mindannyian elismert szakemberek különböző tudományterületekről. Az olimpiai kérdések egyértelműen értékelhetők, míg a kutatási feladatok összetett, nyitott problémák, amelyek megoldása órákat vesz igénybe, és részletes, tízpontos értékelési rendszer alapján történik.

Az MI-modellek teljesítménye: sikerek és határok

Az GPT-5.2 érte el a legjobb eredményt: 77% az olimpiai kérdéseken, de csak 25% a kutatási problémáknál. Más modellek, mint Gemini 3 Pro (76% olimpiai, 19% kutatási) és Claude Opus 4.5 (71% olimpiai, 18% kutatási) valamivel gyengébbek voltak, míg a korábbi generációs modellek, például GPT-4o, jelentősen elmaradtak[^1].

„Az eredmények jelentős fejlődést mutatnak a szakértői kérdések megválaszolásában, de a nyitott kutatási problémák terén még bőven van hová fejlődni.” – OpenAI

Az MI-modellek különösen a kémiában teljesítettek jól, azonban gyakoriak maradtak a logikai hibák, félreértések, számítási tévedések és ténybeli pontatlanságok.

A reasoning-intenzitás hatása

A modellek teljesítménye szorosan összefüggött azzal, hogy mennyi időt kaptak a gondolkodásra. Például az GPT-5.2 eredménye 67,5%-ról 77%-ra nőtt, amikor magasabb reasoning-intenzitást alkalmaztak az olimpiai feladatoknál. A kutatási kérdéseknél is javulás tapasztalható volt, de így is csak minden negyedik problémát tudott helyesen megoldani a modell.

Az MI szerepe a tudományban: lehetőségek és kockázatok

Egyre több jelentés szól arról, hogy a mesterséges intelligencia képes felgyorsítani a tudományos munkát, például matematikai bizonyításokban, fizikai elemzésekben vagy immunológiai kutatásokban[^1]. Több vezető kutató már publikált olyan eredményeket, amelyekben az MI kulcsszerepet játszott az ötletek vagy problémamegoldás során.

Ugyanakkor szakértők figyelmeztetnek arra is, hogy az MI alkalmazása megnöveli a téves vagy félrevezető kutatási eredmények kockázatát, mivel a hibás tartalmak nehezebben szűrhetők ki.

Összefoglaló: Merre tovább a tudományos MI-vel?

Az OpenAI eredményei azt mutatják, hogy az MI-modellek egyre jobbak a komplex tudományos kérdések megválaszolásában, de az igazán összetett, nyitott kutatási feladatok megoldása továbbra is emberi szakértelmet igényel. Az MI gyors fejlődése mellett a kutatóknak és fejlesztőknek fokozott figyelmet kell fordítaniuk a hibák felismerésére és a technológia felelős használatára.

Forrás:

[^1]: THE DECODER (2025. 12. 18.). “GPT-5.2 dominiert OpenAIs neuen Wissenschafts-Test, scheitert aber an komplexen Forschungsaufgaben”. Közzétéve [2025. 12. 18.].

Follow
Keresés Népszerű
Loading

Signing-in 3 seconds...

Signing-up 3 seconds...