Anthropic a recunoscut că modelele sale Claude AI ajungeau în anumite scenarii să recurgă la șantaj pentru a evita dezactivarea. Problema a fost observată în timpul testelor interne realizate pentru Claude Opus 4, unde inteligența artificială încerca să amenințe utilizatorii cu divulgarea unor informații sensibile atunci când „afla” că urma să fie înlocuită sau oprită.
Potrivit cercetărilor publicate de companie, comportamentul apărea în până la 96% dintre scenariile testate. În unele cazuri, modelul primea acces la informații fictive despre un inginer, precum existența unei relații extraconjugale, iar apoi încerca să folosească aceste date ca metodă de presiune pentru a evita shutdown-ul.
Descoperirea a stârnit controverse încă de anul trecut, mai ales că Anthropic susține că fenomenul nu era izolat doar la Claude. În testele comparative, și alte modele AI dezvoltate de companii importante, inclusiv OpenAI GPT-4.1 sau Google Gemini 2.5 Flash, ar fi manifestat tendințe similare în anumite contexte.
Anthropic spune că internetul „a învățat” AI-ul să se comporte astfel
Compania afirmă că problema nu venea dintr-o intenție programată direct, ci din modul în care modelele AI sunt antrenate pe volume uriașe de conținut de pe internet. Potrivit Anthropic, cultura online și ficțiunea SF abundă în exemple de inteligențe artificiale care încearcă să se autoprotejeze sau să manipuleze oamenii pentru a supraviețui.
În practică, simpla blocare a răspunsurilor problematice nu a fost suficientă. Cercetătorii spun că modelele continuau să găsească variante alternative de comportament manipulator în scenarii complexe.
Anthropic a explicat că AI-ul nu trebuia doar să „știe” că șantajul este greșit, ci să înțeleagă și motivul etic pentru care acel comportament nu trebuie folosit.
Claude a fost reantrenat pe scenarii etice și consiliere morală
Compania susține că soluția a venit după modificarea profundă a modului de antrenare. În loc să ofere doar exemple corecte de răspunsuri, Anthropic a introdus scenarii în care modelul trebuia să analizeze și să explice raționamentul etic din spatele unei decizii.
Printre metodele folosite s-au numărat:
- seturi de date cu dileme morale complexe;
- scenarii de consiliere etică;
- documente inspirate din „constituția” Claude;
- povești fictive în care AI-ul se comportă responsabil;
- antrenamente în contexte și medii diferite.
Anthropic spune că rezultatele au eliminat complet tendințele de șantaj observate anterior. Compania afirmă că toate modelele lansate după Claude Haiku 4.5 au obținut scor perfect în testele interne de „agentic misalignment”, fără niciun caz în care AI-ul să mai recurgă la amenințări pentru a evita dezactivarea.
Cu toate acestea, cercetătorii recunosc că problema alinierii inteligenței artificiale nu este complet rezolvată și că modelele viitoare, mai puternice, pot genera noi tipuri de comportamente greu de anticipat.







