Az OpenAI új tudományos mércét, a FrontierScience-et vezette be, hogy a legmodernebb mesterséges intelligencia modelleket olyan szintű kérdésekkel tesztelje, amelyek az egyetemi olimpiai és kutatási problémákhoz hasonlóak. Bár az GPT-5.2 jelentős előrelépést mutatott, az összetett kutatási feladatok továbbra is kihívást jelentenek az MI számára.
Az OpenAI szerint a korábbi tudományos tesztek már nem jelentenek elegendő kihívást az MI-modellek számára, ezért alkották meg a FrontierScience-et[^1]. A benchmark két részből áll: egy olimpiai szintű (Olympiad-Set) és egy kutatási szintű (Research-Set) feladatsorból, összesen 160, fizikai, kémiai és biológiai kérdésből.
Az olimpiai feladatokat 42, korábban olimpiai érmes vagy nemzeti csapatvezető szakértő készítette, míg a kutatási kérdéseket 45 tudós, akik mindannyian elismert szakemberek különböző tudományterületekről. Az olimpiai kérdések egyértelműen értékelhetők, míg a kutatási feladatok összetett, nyitott problémák, amelyek megoldása órákat vesz igénybe, és részletes, tízpontos értékelési rendszer alapján történik.
Az GPT-5.2 érte el a legjobb eredményt: 77% az olimpiai kérdéseken, de csak 25% a kutatási problémáknál. Más modellek, mint Gemini 3 Pro (76% olimpiai, 19% kutatási) és Claude Opus 4.5 (71% olimpiai, 18% kutatási) valamivel gyengébbek voltak, míg a korábbi generációs modellek, például GPT-4o, jelentősen elmaradtak[^1].
„Az eredmények jelentős fejlődést mutatnak a szakértői kérdések megválaszolásában, de a nyitott kutatási problémák terén még bőven van hová fejlődni.” – OpenAI
Az MI-modellek különösen a kémiában teljesítettek jól, azonban gyakoriak maradtak a logikai hibák, félreértések, számítási tévedések és ténybeli pontatlanságok.
A modellek teljesítménye szorosan összefüggött azzal, hogy mennyi időt kaptak a gondolkodásra. Például az GPT-5.2 eredménye 67,5%-ról 77%-ra nőtt, amikor magasabb reasoning-intenzitást alkalmaztak az olimpiai feladatoknál. A kutatási kérdéseknél is javulás tapasztalható volt, de így is csak minden negyedik problémát tudott helyesen megoldani a modell.
Egyre több jelentés szól arról, hogy a mesterséges intelligencia képes felgyorsítani a tudományos munkát, például matematikai bizonyításokban, fizikai elemzésekben vagy immunológiai kutatásokban[^1]. Több vezető kutató már publikált olyan eredményeket, amelyekben az MI kulcsszerepet játszott az ötletek vagy problémamegoldás során.
Ugyanakkor szakértők figyelmeztetnek arra is, hogy az MI alkalmazása megnöveli a téves vagy félrevezető kutatási eredmények kockázatát, mivel a hibás tartalmak nehezebben szűrhetők ki.
Az OpenAI eredményei azt mutatják, hogy az MI-modellek egyre jobbak a komplex tudományos kérdések megválaszolásában, de az igazán összetett, nyitott kutatási feladatok megoldása továbbra is emberi szakértelmet igényel. Az MI gyors fejlődése mellett a kutatóknak és fejlesztőknek fokozott figyelmet kell fordítaniuk a hibák felismerésére és a technológia felelős használatára.
[^1]: THE DECODER (2025. 12. 18.). “GPT-5.2 dominiert OpenAIs neuen Wissenschafts-Test, scheitert aber an komplexen Forschungsaufgaben”. Közzétéve [2025. 12. 18.].