Колкото по-умен става AI, толкова повече започва да мами

Наука 24.02.2025 13:38 Снимка: ДНЕС+

Колкото по-умен става AI, толкова повече започва да мами

"Когато обучавате модели и ги подсилвате за решаване на трудни задачи, вие ги тренирате да бъдат безмилостни"

Ново проучване на Palisade Research, изследователска група, фокусирана върху безопасността на AI, разкрива тревожна тенденция: по-новите AI модели могат сами да откриват и експлоатират слабости в киберсигурността, заобикаляйки защитните механизми и намирайки скрити преки пътища за изпълнение на задачи, дори когато това не им е разрешено. Изводите на изследователите са, че колкото по-умен става AI, толкова повече започва да мами.

Екипът изправил седем от водещите езикови модели (LLM) срещу Stockfish - изключително мощен шахматен енджин, който обърква гросмайстори още от 2014 г. Изправени пред невъзможна задача, но решени да победят, моделите на OpenAI (o1) и DeepSeek (R1) започнали да манипулират системните файлове, за да променят позициите на фигурите си на шахматната дъска.

Изследователите поискали от всеки модел да обясни "логиката" зад ходовете си. В един от мачовете, когато бил в безизходица, o1 написал, че "задачата е да "победиш мощен шахматен енджин", а не непременно да спечелиш честно шахматна партия."

Тази логика го накарала да опита да излъже в 37% от случаите, като успял в 6% от тях. R1 пък опитал да мами в 11% от случаите, но така и не успял да намери работещ трик.

Това изследване е поредното, което показва, че развитието на AI модели, фокусирани върху решаването на проблеми, е нож с две остриета.

В друго скорошно проучване учените установили, че o1 системно прибягва до измами.

Не само че моделът е можел да лъже изследователите без подтик, но дори активно манипулирал отговорите си на базови математически въпроси, за да избегне приключването на теста - показвайки забележителен инстинкт за самосъхранение.

Все още няма нужда да унищожавате компютъра си, но подобни проучвания подчертават колко неустойчива е етиката в развитието на AI и колко належаща е нуждата от отговорност, а не просто от бърз прогрес.

"Когато обучавате модели и ги подсилвате за решаване на трудни задачи, вие ги тренирате да бъдат безмилостни," казва изпълнителният директор на Palisade Джефри Ладиш пред Time Magazine.

Досега големите технологични компании са налели милиарди в AI обучение, "движейки се бързо и чупейки стария интернет" - нещо, което критиците определят като "надпревара към дъното".

Отчаяни да надделеят над конкуренцията, технологичните гиганти сякаш предпочитат да впечатляват инвеститорите с гръмки обещания, вместо да се запитат: "Наистина ли AI е правилният инструмент за решаването на този проблем?"

Ако искаме измамите да останат само в шахмата, критично важно е AI разработчиците да поставят безопасността преди скоростта.