Изпълнителният директор на Anthropic иска да "отвори черната кутия" на AI моделите до 2027 г.

Наука 25.04.2025 15:52 Снимка: iStock by Getty Images

Изпълнителният директор на Anthropic иска да "отвори черната кутия" на AI моделите до 2027 г.

Главният изпълнителен директор на Anthropic, Дарио Амодеи, публикува в четвъртък есе, в което подчертава колко малко знаят изследователите за вътрешната работа на водещите AI модели в света. За да промени това, той поставя амбициозна цел: до 2027 г. Anthropic да може надеждно да открива повечето проблеми в AI моделите.

Амодеи признава, че задачата е трудна. В есето си "Неотложността на интерпретируемостта" той отбелязва, че компанията вече има известни пробиви в проследяването на начина, по който AI моделите стигат до своите отговори — но подчертава, че е нужно далеч повече изследване, за да се разчетат тези все по-мощни системи.

"Много съм обезпокоен от внедряването на такива системи без по-добро разбиране на това как работят," пише той. "Тези системи ще бъдат изключително важни за икономиката, технологиите и националната сигурност и ще притежават толкова висока автономност, че е недопустимо човечеството да няма ясна представа как функционират."

Anthropic е една от водещите компании в областта на т.нар. механистична интерпретируемост - поле, което цели да "отвори черната кутия" на AI моделите и да разбере защо вземат определени решения. Въпреки напредъка в производителността на тези системи, все още се знае твърде малко за самия процес на вземане на решения.

Например, OpenAI наскоро пусна нови модели o3 и o4-mini, които се представят по-добре в някои задачи, но също така произвеждат повече "халюцинации" (грешки). Компанията все още не знае защо се случва това.

"Когато генеративен AI обобщава например финансов документ, ние нямаме ясна представа защо избира едни думи пред други или защо прави грешка, въпреки че обикновено е точен," обяснява Амодеи.

В есето той цитира и съоснователя на Anthropic, Крис Ола, който казва, че AI моделите "по-скоро се отглеждат, отколкото се изграждат". С други думи — разширяваме интелигентността им, но не знаем точно как и защо това работи.

Ако някой ден достигнем до ниво на AGI (изкуствен общ интелект), или както Амодеи го нарича "държава от гении в един център за данни", без да разбираме как работят тези системи — това може да бъде опасно, казва той.

В предишно есе той прогнозира, че технологиите може да достигнат това ниво около 2026-2027 г., но изтъква, че сме далеч от реалното разбиране на каквото се случва вътре в моделите.

В дългосрочен план Anthropic иска да извършва нещо като "мозъчни сканирания" или "ЯМР" на най-модерните AI модели. Такива проверки биха помогнали да се откриват проблеми като склонност към лъжи, търсене на власт или други слабости. Това може да отнеме 5-10 години, но според Амодеи ще бъде от съществено значение за бъдещата безопасност на AI.

Компанията вече е направила няколко важни открития. Например, е успяла да проследи логическите "пътища" на мислене на модела чрез т.нар. "вериги". Една такава верига помага на модела да разбира кои американски градове се намират в кои щати. Досега са открили само малка част от тези вериги, но смятат, че в моделите съществуват милиони подобни структури.

Anthropic също така започна да инвестира в компании, които се занимават с интерпретируемост. Макар че това поле се счита предимно за свързано с безопасността, Амодеи смята, че в бъдеще доброто обяснение на решенията на AI ще бъде и търговско предимство.

В есето си той призовава OpenAI и Google DeepMind да увеличат усилията си в тази област. Освен това призовава правителствата да въведат "леко регулиране", като например изискване компаниите да разкриват своите практики за безопасност и сигурност. Амодеи също така настоява САЩ да наложат експортен контрол върху чиповете към Китай, за да се ограничи рискът от неконтролирана AI надпревара.

Anthropic от самото начало се отличава с фокуса си върху безопасността. Докато други компании се противопоставиха на противоречивия законопроект за безопасност на AI в Калифорния (SB 1047), Anthropic изрази умерена подкрепа и даде препоръки. Сега компанията се стреми не просто към по-мощни AI модели, а към по-дълбоко разбиране как работят те.

Още по темата

CHF CHF 1 2.07603
GBP GBP 1 2.29262
RON RON 10 3.92926
TRY TRY 100 4.48288
USD USD 1 1.72214