Claude Opus 4.5, az Anthropic fejlett mesterséges intelligencia modellje, a legjobb eredményeket érte el az úgynevezett prompt injection támadások elleni védelmi teszteken. Ennek ellenére a jelentés rávilágít arra, hogy az ilyen támadások továbbra is komoly veszélyt jelentenek még a legmodernebb AI rendszerek esetében is.
A prompt injection egy olyan támadási módszer, ahol a felhasználó rejtett utasításokat juttat el az AI rendszerhez, hogy kijátssza a biztonsági szűrőket. Ez a technika évek óta ismert, de a védekezés ellene továbbra is kihívást jelent a nagy nyelvi modellek (LLM) esetében.[^1]
Egy friss, a Gray Swan nevű biztonsági vállalat által készített teszt szerint a Claude Opus 4.5 modell az iparág legjobb védelmét kínálja a prompt injection ellen. A tesztek során azonban azt tapasztalták, hogy:
„Az Anthropic modellje még így is jobb eredményeket produkált, mint a konkurens rendszerek, például a Google Gemini 3 Pro vagy a OpenAI GPT-5.1, amelyeknél az áttörési arány elérte a 92%-ot.”
Annak ellenére, hogy a Claude Opus 4.5 javított a védelem szintjén, a prompt injection problémája továbbra is megoldatlan. A támadók számára több próbálkozási lehetőség komolyan növeli a siker esélyét, így egyetlen modell sem tekinthető teljesen biztonságosnak.[^1]
Különösen veszélyes a prompt injection az agentikus AI-nál, mivel ezekben a rendszerekben több támadási felület található. A szakértők szerint jelenleg nincs univerzális megoldás a problémára.[^1]
A Claude Opus 4.5 ugyan jelentős előrelépést jelent a prompt injection elleni védelemben, de a biztonsági rések továbbra is komoly veszélyt hordoznak. Az AI rendszerek fejlesztőinek sürgős feladata újabb megközelítéseket kidolgozniuk a mesterséges intelligencia biztonságosabbá tételéhez.
[^1]: Matthias Bastian (2025. 11. 25.). “Claude Opus 4.5 erzielt Bestwerte bei Prompt Injections, und unterstreicht damit das Problem”. The Decoder. Közzétéve [2025. 11. 25.].