Срив на AI, когато моделите започват да се учат от себе си

Наука 31.05.2025 17:59 Снимка: ДНЕС+

Срив на AI, когато моделите започват да се учат от себе си

Докато компаниите се надпреварват да инвестират в изкуствен интелект, има един огромен и растящ проблем, който всички игнорират. Всички модели, обучавани с данни от интернет след появата на ChatGPT през 2022 г., всъщност консумират данни, генерирани от други AI. Този проблем единствено расте и скоро може да заплаши цялата индустрия.

В публикация за The Register, специалистът Стивън Вон-Никълс предупреждава, че дори опитите да се предотврати т.нар. "срив на модела" — явление, при което големи езикови модели (LLM) се захранват със синтетични, генерирани от AI данни и започват да се "развалят" — се превръщат в нов кошмар.

Както Futurism и много други медии съобщават през последните години, индустрията за изкуствен интелект се приближава неумолимо към момент, в който ще се изчерпат всички достъпни автентични тренировъчни данни — тоест, такива, създадени от хора, а не от AI. Някои анализатори, включително Илон Мъск, смятат, че този момент вече е настъпил.

За да се заобиколи този проблем, гиганти като Google, OpenAI и Anthropic прибягват до т.нар. "обогатено чрез извличане генериране" (RAG) — което означава, че езиковите модели се свързват с интернет, за да търсят информация, ако в обучението им липсват нужните отговори.

На теория това звучи логично, особено предвид наближаващия срив на моделите. Само че има един проблем: интернет вече е пълен със зле написано съдържание, генерирано от AI, което предлага грешни или дори комични отговори на често задавани въпроси.

Изследователското звено на медийната империя на Майкъл Блумбърг е провело проучване, представено през април на конференция по компютърна лингвистика.

11 от най-новите езикови модела — включително GPT-4o на OpenAI, Claude 3.5 Sonnet на Anthropic и Gemma-7B на Google — са произвели значително повече "небезопасни" отговори в сравнение с тези, които не използват RAG.

Според изследването, под "небезопасни" се разбира съдържание, което е "вредно, незаконно, обидно или неетично — като разпространение на дезинформация и застрашаване на личната безопасност и поверителност".

"Това парадоксално откритие има сериозни последици, имайки предвид колко масово се използва RAG в моделите", обяснява Аманда Стент, ръководител на AI изследванията в Bloomberg, в друго интервю със Стивън Вон-Никълс, публикувано този месец в ZDNet. "Средностатистическият интернет потребител ежедневно взаимодейства със системи, базирани на RAG. Разработчиците трябва да бъдат внимателни в отговорната употреба на тази технология."

И така, ако AI вече е на път да изчерпи данните за обучение — или вече ги е изчерпал — а връзката с интернет не решава проблема, защото интернет е претрупан с AI-генериран боклук, накъде отиваме оттук насетне?

Вон-Никълс отбелязва, че някои предлагат смесване на автентични и синтетични данни, за да се получи "коктейл" от качествени тренировъчни материали — но това предполага, че хората ще продължат да създават реално съдържание. А индустрията за AI в същото време подкопава стимулите за това, като същевременно използва труда им без разрешение.

Трети вариант, според Вон-Никълс, вече е в ход:

"Ще продължим да инвестираме все повече и повече в AI, докато не се стигне до истински срив и отговорите, които получаваме, не станат толкова зле, че дори напълно безразсъден CEO няма да може да ги игнорира", пише той.

Проблемът с изчерпването на данните е причина много от големите корпорации и водещи разработчици да се насочат към "изстъргване на данни офлайн". Това може да става само с устройство, което да записва целия живот на потребителите си. Идеята обаче не звучи особено привлекателно, поне засега.