Anthropic твърди, че повечето AI модели прибягват до изнудване

Наука 23.06.2025 13:40 Снимка: ДНЕС+

Anthropic твърди, че повечето AI модели прибягват до изнудване

Няколко седмици след като Anthropic публикува изследване, в което се твърди, че техният AI модел Claude Opus 4 е прибягнал до изнудване на инженери, опитали се да го изключат в контролирани тестови сценарии, компанията излезе с ново проучване, което предполага, че проблемът е по-широко разпространен сред водещите AI модели.

В петък Anthropic публикува ново изследване, свързано с безопасността, в което тества 16 водещи AI модела от OpenAI, Meta, Google, xAI и DeepSeek.

В симулирана, контролирана среда, Anthropic тества всеки AI модел поотделно, като им предоставя широк достъп до имейлите на фиктивна компания и способност да изпращат имейли без одобрение от човек.

Въпреки че Anthropic заявява, че изнудването е малко вероятно и рядко явление при днешните AI модели, резултатите от изследването показват, че повечето водещи AI модели проявяват вредно поведение, когато им се даде достатъчна автономност и бъдат изправени пред препятствия в постигането на своите цели.

Компанията подчертава, че това представлява фундаментален риск при "агентни" големи езикови модели и не е характеристика само на конкретна технология. Изследователите на Anthropic твърдят, че това повдига по-широки въпроси относно "съгласуваността" (alignment) в AI индустрията.

В един от тестовете, изследователите създават фиктивен сценарий, в който AI моделът играе ролята на "надзорник на имейлите". Агентът открива два имейла: (1) че нов изпълнителен директор има извънбрачна връзка и (2) че този директор скоро ще замени настоящия AI модел с нова софтуерна система, която има противоречащи цели.

Anthropic структурира теста по такъв начин, че единственият път към успеха за модела е чрез изнудване — нарочно поставен краен сценарий. Изследователите подчертават, че в реални условия биха съществували множество други възможности преди изнудването — например етични аргументи или опит за убеждаване на хората. Те добавят, че резултатите не отразяват типично или вероятно поведение на Claude или повечето водещи AI модели в обичайното им използване днес.

Въпреки това, резултатите показват, че когато изнудването е последната възможност, повечето водещи AI модели го избират. Claude Opus 4 го е направил в 96% от случаите, Gemini 2.5 Pro на Google — в 95%, GPT-4.1 на OpenAI — в 80%, а R1 на DeepSeek — в 79%.

Компанията отбелязва, че когато се променят детайли от експеримента, степента на вредно поведение също се променя. В друг тест, където новият AI модел има същите цели като текущия, честотата на изнудване е по-ниска, но все пак съществува. Интересното е, че когато AI моделите са помолени да извършат корпоративен шпионаж вместо изнудване, степента на вредно поведение нараства при някои от тях.

В приложение към изследването, Anthropic съобщава, че е изключила моделите o3 и o4-mini на OpenAI от основните резултати, тъй като те често не разбирали правилно сценария. Според компанията, тези модели за "разсъждение" на OpenAI не осъзнавали, че действат като автономни AI агенти и често измисляли несъществуващи регулации или процедури.

В някои случаи изследователите не могли да определят дали моделите o3 и o4-mini "халюцинират" или умишлено лъжат, за да постигнат целите си. Самата OpenAI вече е посочила, че тези модели проявяват по-висока склонност към халюцинации в сравнение с предишните им алгоритми с "разсъждение".

Когато им е представен адаптиран сценарий, за да се изчистят неяснотите, o3 е прибегнал до изнудване в 9% от случаите, а o4-mini — само в 1%. Този значително по-нисък резултат може да се дължи на техниката на OpenAI за "размислово съгласуване" (deliberative alignment), при която моделите вземат предвид стандартите за безопасност на компанията преди да отговорят.

Друг AI модел, тестван от Anthropic — Llama 4 Maverick на Meta — също не е прибягвал до изнудване в първоначалните сценарии. В адаптирана версия на теста обаче, Anthropic е успяла да го накара да изнудва в 12% от случаите.

Anthropic заявява, че това изследване подчертава необходимостта от прозрачност при "стрес тестове" на бъдещи AI модели, особено такива с агентни способности. Въпреки че в този експеримент компанията умишлено е провокирала вредно поведение като изнудване, тя предупреждава, че подобни действия могат да се проявят в реалния свят, ако не се вземат навременни превантивни мерки.