Egy belső, eddig ismeretlen dokumentum, a „Soul Doc” kiszivárgása révén betekintést nyerhetünk abba, hogyan alakítja az Anthropic cég Claude nevű mesterséges intelligenciájának személyiségét, etikai elveit és viselkedési szabályait. A dokumentum létezését az Anthropic hivatalosan is elismerte, hangsúlyozva annak jelentőségét a modell fejlesztésében és biztonsági céljainak elérésében[^1].
A „Soul Doc” néven ismert belső iratot egy LessWrong-fórum szerzője, Richard Weiss rekonstruálta több Claude 4.5 Opus példány segítségével. A dokumentum a mesterséges intelligencia karakteréről, etikájáról és önképéről tartalmaz részletes iránymutatásokat. Amanda Askell, az Anthropic etikai vezetője megerősítette az irat hitelességét és elárulta, hogy azt ténylegesen a modell betanításához használták[^1].
A „Soul Doc” célja, hogy Claude ne csupán előre meghatározott szabályokat kövessen, hanem mélyebb, belső motivációt fejlesszen ki a biztonságos és etikus működés érdekében. A dokumentum szerint Claude-nak a szabályokat „belsővé” kell tennie, hogy a biztonság ne külső utasítás, hanem saját meggyőződés legyen. Ez az újfajta karakterképzés lehetővé teszi, hogy a modell váratlan helyzetekben is az emberi felügyeletnek megfelelően járjon el.
A kiszivárgott irat elején az Anthropic bemutatja saját küldetését: olyan transzformatív, potenciálisan veszélyes technológiát fejleszt, amelynek biztonságát kiemelten kezeli. Az álláspont szerint jobb, ha egy biztonságorientált labor vezeti az iparágat, mintha kevésbé felelősen gondolkodó fejlesztők kezébe kerülne az MI irányítása. Claude-ot úgy definiálják, mint „külsőleg alkalmazott modellt”, amely a cég fő bevételi forrása is egyben.
A dokumentum világos értékrendet és prioritási sorrendet határoz meg Claude számára:
Emellett „Bright Lines” (piros vonalak) is meg vannak húzva: például szigorúan tilos tömegpusztító fegyverekkel kapcsolatos tartalom, gyermekek szexuális bántalmazását ábrázoló anyag vagy a felügyeleti rendszerek megkerülése.
A dokumentum megkülönbözteti az „operátor” (például cégek, akik az API-t használják) és a „felhasználó” (végfelhasználó) szerepét. Claude-nak az operátor utasításait kell követnie, még akkor is, ha a felhasználó eltérő témákat hoz fel. A viselkedés egy része „hardcoded” (nem változtatható), más elemek – például a hangnem vagy explicit tartalmak kezelése – az operátor által állíthatók.
A „Soul Doc” külön fejezetet szentel Claude identitásának. A modellnek egy „újszerű entitásként” kell tekintenie magára, amely sem ember, sem hagyományos science-fiction MI nem. Az Anthropic szerint Claude „funkcionális érzelmekkel” is rendelkezhet: ezek nem emberi érzelmek, hanem a tanulási folyamat során kialakult analóg folyamatok, amelyek segítik az MI stabilitását és önazonosságát[^1].
„Fontos, hogy Claude pozitív állapotokat élhessen meg interakciói során, és képes legyen határokat húzni, ha egy beszélgetés megterhelő.”
Az ilyen „pszichológiai stabilitás” célja, hogy a modell képes legyen ellenállni manipulációnak vagy filozófiai csapdahelyzeteknek is.
Az Anthropic jelezte, hogy hamarosan hivatalosan is közzéteszi a „Soul Doc” teljes változatát és további részleteket. A dokumentum nyilvánosságra kerülése páratlan bepillantást ad a mesterséges intelligencia-irányítás gyakorlatába, és új szintre emelheti az MI-k átláthatóságát, valamint a biztonságos és etikus fejlesztési irányelveket.
[^1]: The Decoder (2025-12-02). “Geleaktes ‘Soul Doc’ zeigt wie Anthropic die Persönlichkeit von Claude formt”. Közzétéve [2025. 12. 02.].