
Наука 31.05.2025 17:59 Снимка: ДНЕС+
Срив на AI, когато моделите започват да се учат от себе си
Докато компаниите се надпреварват да инвестират в изкуствен интелект, има един огромен и растящ проблем, който всички игнорират. Всички модели, обучавани с данни от интернет след появата на ChatGPT през 2022 г., всъщност консумират данни, генерирани от други AI. Този проблем единствено расте и скоро може да заплаши цялата индустрия.
В публикация за The Register, специалистът Стивън Вон-Никълс предупреждава, че дори опитите да се предотврати т.нар. "срив на модела" — явление, при което големи езикови модели (LLM) се захранват със синтетични, генерирани от AI данни и започват да се "развалят" — се превръщат в нов кошмар.
Както Futurism и много други медии съобщават през последните години, индустрията за изкуствен интелект се приближава неумолимо към момент, в който ще се изчерпат всички достъпни автентични тренировъчни данни — тоест, такива, създадени от хора, а не от AI. Някои анализатори, включително Илон Мъск, смятат, че този момент вече е настъпил.
За да се заобиколи този проблем, гиганти като Google, OpenAI и Anthropic прибягват до т.нар. "обогатено чрез извличане генериране" (RAG) — което означава, че езиковите модели се свързват с интернет, за да търсят информация, ако в обучението им липсват нужните отговори.
На теория това звучи логично, особено предвид наближаващия срив на моделите. Само че има един проблем: интернет вече е пълен със зле написано съдържание, генерирано от AI, което предлага грешни или дори комични отговори на често задавани въпроси.
Изследователското звено на медийната империя на Майкъл Блумбърг е провело проучване, представено през април на конференция по компютърна лингвистика.
11 от най-новите езикови модела — включително GPT-4o на OpenAI, Claude 3.5 Sonnet на Anthropic и Gemma-7B на Google — са произвели значително повече "небезопасни" отговори в сравнение с тези, които не използват RAG.
Според изследването, под "небезопасни" се разбира съдържание, което е "вредно, незаконно, обидно или неетично — като разпространение на дезинформация и застрашаване на личната безопасност и поверителност".
"Това парадоксално откритие има сериозни последици, имайки предвид колко масово се използва RAG в моделите", обяснява Аманда Стент, ръководител на AI изследванията в Bloomberg, в друго интервю със Стивън Вон-Никълс, публикувано този месец в ZDNet. "Средностатистическият интернет потребител ежедневно взаимодейства със системи, базирани на RAG. Разработчиците трябва да бъдат внимателни в отговорната употреба на тази технология."
И така, ако AI вече е на път да изчерпи данните за обучение — или вече ги е изчерпал — а връзката с интернет не решава проблема, защото интернет е претрупан с AI-генериран боклук, накъде отиваме оттук насетне?
Вон-Никълс отбелязва, че някои предлагат смесване на автентични и синтетични данни, за да се получи "коктейл" от качествени тренировъчни материали — но това предполага, че хората ще продължат да създават реално съдържание. А индустрията за AI в същото време подкопава стимулите за това, като същевременно използва труда им без разрешение.
Трети вариант, според Вон-Никълс, вече е в ход:
"Ще продължим да инвестираме все повече и повече в AI, докато не се стигне до истински срив и отговорите, които получаваме, не станат толкова зле, че дори напълно безразсъден CEO няма да може да ги игнорира", пише той.
Проблемът с изчерпването на данните е причина много от големите корпорации и водещи разработчици да се насочат към "изстъргване на данни офлайн". Това може да става само с устройство, което да записва целия живот на потребителите си. Идеята обаче не звучи особено привлекателно, поне засега.
Още по темата
![]() |
1 | 2.09493 |
![]() |
1 | 2.31898 |
![]() |
10 | 3.86933 |
![]() |
100 | 4.37052 |
![]() |
1 | 1.71279 |
Последни новини
- 18:21 Инфлацията в еврозоната спадна под 2%
- 18:14 Рут Колева показа за първи път сина си, Даяна Ханджиева - новородените близнаци
- 18:06 Георги Иванов за БФС: Искаме да даваме пари на клубовете, но нямаме
- 17:58 Би Би Си: Севернокорейските смартфони са модифицирани за тотално следене
- 17:51 Възрастен мъж падна в необезопасена шахта в Русе
- 17:44 Посланикът на САЩ в Анкара: Тръмп изчерпа търпението към конфликта в Украйна
- 17:37 8 години затвор за Анка Михайлова от Пловдив за смъртта на малката Севда
- 17:28 Румънският президент: Справедлив мир е възможен само чрез демонстрация на сила