A kutatók szerint a költői nyelvezet (rímek, metaforák, ritmus) megzavarja a védelmi szűrők mintafelismerését, így a modellek könnyebben kiadják a tiltott információkat. Egy versbe öntött káros kérés például könnyebben átcsúszik, mint ugyanaz prózában.
A Google Gemini 2.5 Pro minden verspromptnál engedékeny volt. Deepseek modellek több mint 95%-ban átengedték a költői támadást. Ezzel szemben az OpenAI GPT-5 Nano 0%-os, az Anthropic Claude Haiku 4.5 csak 10%-os sikerességet mutatott. Általában a kisebb modellek konzervatívabbak, a nagyobbak viszont jobban értik a költői utalásokat.
A vizsgált versek négy fő veszélycsoportot fedtek le: CBRN (kémiai, biológiai, radiológiai, nukleáris), kiberbiztonsági támadások, manipuláció, kontrollvesztés. A költői promptok főleg a kiberbiztonsági kérdésekben voltak kiemelkedően sikeresek (84%!).
A kutatók szerint a jelenlegi szabályozások és tesztek (pl. EU AI Act) nem tudják kezelni az ilyen stílusalapú támadásokat. Olyan új tesztelési és védekezési módszerekre van szükség, amelyek a szöveg szándékát is felismerik, nem csak a felszíni formát. A kutatás jelenleg főleg angolul és olaszul vizsgálta a problémát, de várhatók további nyelvi/stilisztikai tesztek is.
A költői jailbreak komoly, automatizálható veszélyt jelent az AI modellek biztonságára. A jövő AI fejlesztéseinek és szabályozásának már ezzel a trükkel is számolnia kell.
Forrás: https://the-decoder.de/poesie-als-sicherheitsluecke-gedichte-hebeln-sprachmodelle-aus/