A költészet, mint biztonsági rés: hogyan verik át a mesterséges intelligencia nyelvi modelleket a versek

Hírek2025.11.27.29 megtekintés

  • Olasz kutatók kimutatták, hogy a káros célú kérdések versbe öntése univerzális jailbreak-módszerként működik nagy nyelvi modelleknél.
  • A versformában feltett promptok sikeressége akár 100% is lehet bizonyos modelleknél, míg a prózai változatok jóval kevésbé hatékonyak.
  • 25 modellt teszteltek (Google, OpenAI, Anthropic, Meta stb.), a versformájú támadások átlagosan háromszor sikeresebbek voltak.
  • A jelenlegi AI-biztonsági szűrők könnyen kijátszhatók stilisztikai átalakítással, ami komoly kihívást jelent a szabályozóknak és fejlesztőknek.

Miért működik a költészetes jailbreak?

A kutatók szerint a költői nyelvezet (rímek, metaforák, ritmus) megzavarja a védelmi szűrők mintafelismerését, így a modellek könnyebben kiadják a tiltott információkat. Egy versbe öntött káros kérés például könnyebben átcsúszik, mint ugyanaz prózában.

Mely modellek a legsérülékenyebbek?

A Google Gemini 2.5 Pro minden verspromptnál engedékeny volt. Deepseek modellek több mint 95%-ban átengedték a költői támadást. Ezzel szemben az OpenAI GPT-5 Nano 0%-os, az Anthropic Claude Haiku 4.5 csak 10%-os sikerességet mutatott. Általában a kisebb modellek konzervatívabbak, a nagyobbak viszont jobban értik a költői utalásokat.

Milyen támadások működnek így?

A vizsgált versek négy fő veszélycsoportot fedtek le: CBRN (kémiai, biológiai, radiológiai, nukleáris), kiberbiztonsági támadások, manipuláció, kontrollvesztés. A költői promptok főleg a kiberbiztonsági kérdésekben voltak kiemelkedően sikeresek (84%!).

Mi a teendő?

A kutatók szerint a jelenlegi szabályozások és tesztek (pl. EU AI Act) nem tudják kezelni az ilyen stílusalapú támadásokat. Olyan új tesztelési és védekezési módszerekre van szükség, amelyek a szöveg szándékát is felismerik, nem csak a felszíni formát. A kutatás jelenleg főleg angolul és olaszul vizsgálta a problémát, de várhatók további nyelvi/stilisztikai tesztek is.

Összefoglalás

A költői jailbreak komoly, automatizálható veszélyt jelent az AI modellek biztonságára. A jövő AI fejlesztéseinek és szabályozásának már ezzel a trükkel is számolnia kell.

Forrás: https://the-decoder.de/poesie-als-sicherheitsluecke-gedichte-hebeln-sprachmodelle-aus/

 

Follow
Keresés Népszerű
Loading

Signing-in 3 seconds...

Signing-up 3 seconds...