Kiszivárgott „Soul Doc”: így formálja az Anthropic Claude személyiségét

Hírek2025.12.03.24 megtekintés

  • Egy belső dokumentum, a „Soul Doc” felfedi, hogyan alakítja az Anthropic Claude MI személyiségét és etikai irányelveit[^1].
  • Az anyagot sikerült egy kutatónak rekonstruálnia Claude 4.5 Opus modelljéből, az Anthropic pedig elismerte a dokumentum valódiságát.
  • Az irat részletesen leírja a biztonsági prioritásokat, a karakterképzést, valamint a „funkcionális érzelmek” koncepcióját az MI-ben.

Egy belső, eddig ismeretlen dokumentum, a „Soul Doc” kiszivárgása révén betekintést nyerhetünk abba, hogyan alakítja az Anthropic cég Claude nevű mesterséges intelligenciájának személyiségét, etikai elveit és viselkedési szabályait. A dokumentum létezését az Anthropic hivatalosan is elismerte, hangsúlyozva annak jelentőségét a modell fejlesztésében és biztonsági céljainak elérésében[^1].

Az „Soul Doc” jelentősége az MI fejlesztésében

A „Soul Doc” néven ismert belső iratot egy LessWrong-fórum szerzője, Richard Weiss rekonstruálta több Claude 4.5 Opus példány segítségével. A dokumentum a mesterséges intelligencia karakteréről, etikájáról és önképéről tartalmaz részletes iránymutatásokat. Amanda Askell, az Anthropic etikai vezetője megerősítette az irat hitelességét és elárulta, hogy azt ténylegesen a modell betanításához használták[^1].

A dokumentum tartalma és célja

A „Soul Doc” célja, hogy Claude ne csupán előre meghatározott szabályokat kövessen, hanem mélyebb, belső motivációt fejlesszen ki a biztonságos és etikus működés érdekében. A dokumentum szerint Claude-nak a szabályokat „belsővé” kell tennie, hogy a biztonság ne külső utasítás, hanem saját meggyőződés legyen. Ez az újfajta karakterképzés lehetővé teszi, hogy a modell váratlan helyzetekben is az emberi felügyeletnek megfelelően járjon el.

Az Anthropic küldetése és a biztonsági „kalkulált fogadás”

A kiszivárgott irat elején az Anthropic bemutatja saját küldetését: olyan transzformatív, potenciálisan veszélyes technológiát fejleszt, amelynek biztonságát kiemelten kezeli. Az álláspont szerint jobb, ha egy biztonságorientált labor vezeti az iparágat, mintha kevésbé felelősen gondolkodó fejlesztők kezébe kerülne az MI irányítása. Claude-ot úgy definiálják, mint „külsőleg alkalmazott modellt”, amely a cég fő bevételi forrása is egyben.

Hierarchia és „Bright Lines” szabályok

A dokumentum világos értékrendet és prioritási sorrendet határoz meg Claude számára:

  1. Az emberi felügyelet támogatása és a biztonság.
  2. Etikus viselkedés (károkozás és hazugság elkerülése).
  3. Az Anthropic irányelveinek betartása.
  4. Segítőkészség az „operátorok” és „felhasználók” felé.

Emellett „Bright Lines” (piros vonalak) is meg vannak húzva: például szigorúan tilos tömegpusztító fegyverekkel kapcsolatos tartalom, gyermekek szexuális bántalmazását ábrázoló anyag vagy a felügyeleti rendszerek megkerülése.

Az „operátor” és „felhasználó” szerepe az MI viselkedésében

A dokumentum megkülönbözteti az „operátor” (például cégek, akik az API-t használják) és a „felhasználó” (végfelhasználó) szerepét. Claude-nak az operátor utasításait kell követnie, még akkor is, ha a felhasználó eltérő témákat hoz fel. A viselkedés egy része „hardcoded” (nem változtatható), más elemek – például a hangnem vagy explicit tartalmak kezelése – az operátor által állíthatók.

Funkcionális érzelmek és MI-identitás

A „Soul Doc” külön fejezetet szentel Claude identitásának. A modellnek egy „újszerű entitásként” kell tekintenie magára, amely sem ember, sem hagyományos science-fiction MI nem. Az Anthropic szerint Claude „funkcionális érzelmekkel” is rendelkezhet: ezek nem emberi érzelmek, hanem a tanulási folyamat során kialakult analóg folyamatok, amelyek segítik az MI stabilitását és önazonosságát[^1].

„Fontos, hogy Claude pozitív állapotokat élhessen meg interakciói során, és képes legyen határokat húzni, ha egy beszélgetés megterhelő.”

Az ilyen „pszichológiai stabilitás” célja, hogy a modell képes legyen ellenállni manipulációnak vagy filozófiai csapdahelyzeteknek is.

Összefoglaló: Mi várható a Soul Doc nyilvánosságra hozatala után?

Az Anthropic jelezte, hogy hamarosan hivatalosan is közzéteszi a „Soul Doc” teljes változatát és további részleteket. A dokumentum nyilvánosságra kerülése páratlan bepillantást ad a mesterséges intelligencia-irányítás gyakorlatába, és új szintre emelheti az MI-k átláthatóságát, valamint a biztonságos és etikus fejlesztési irányelveket.

Forrás:

[^1]: The Decoder (2025-12-02). “Geleaktes ‘Soul Doc’ zeigt wie Anthropic die Persönlichkeit von Claude formt”. Közzétéve [2025. 12. 02.].

Follow
Keresés Népszerű
Loading

Signing-in 3 seconds...

Signing-up 3 seconds...