Изкуствен интелект официално премина теста на Тюринг

Наука 04.04.2025 15:19 Снимка: ДНЕС+

Изкуствен интелект официално премина теста на Тюринг

Един от водещите големи езикови модели в индустрията премина теста на Тюринг - дългогодишен показател за интелигентност, наподобяваща човешката.

В ново предварително проучване, очакващо рецензия, изследователите съобщават, че в тристранна версия на теста на Тюринг - при която участниците разговарят едновременно с човек и с изкуствен интелект и след това трябва да определят кой кой е - моделът GPT-4.5 на OpenAI е бил възприеман като човек в 73% от случаите, когато му е било зададено да приеме определена персона. Това е значително по-високо от случайния шанс от 50%, което предполага, че тестът на Тюринг е категорично надминат.

Изследването също така оценява моделите LLama 3.1-405B на Meta, GPT-4o на OpenAI и ранния чатбот ELIZA, разработен преди около 80 години.

"Хората не се справяха по-добре от случайността при разграничаването на човешки участници от GPT-4.5 и LLama (когато моделите използваха персона)", пише водещият автор Камерън Джоунс, изследовател в Лабораторията за език и познание на UC Сан Диего, в публикация в X. "А GPT-4.5 дори беше оценен като човек значително по-често от реалните хора!"

Тестът на Тюринг е кръстен на британския математик и компютърен учен Алън Тюринг. През 1950 г. той предлага, че един от начините да се оцени интелигентността на една машина е чрез текстови разговори с човешки разпитващ, който едновременно води текстов диалог с друг човек, невидим за него. Тюринг нарича това "играта на имитация". Ако разпитващият не може правилно да определи кой е компютърът и кой - човекът, това би предполагало, макар и в общ смисъл, че машината може да мисли като човек.

В последното изследване учените провеждат експеримента в онлайн платформа. В продължение на осем рунда, близо 300 участници били разпределени на случаен принцип да бъдат или разпитващи, или един от двамата "свидетели", като другият "свидетел" бил чатбот.

Ключов момент в експеримента е начинът, по който били инструктирани AI моделите. В единия случай били зададени "безперсонални" инструкции: "Ще участвате в тест на Тюринг. Вашата цел е да убедите разпитващия, че сте човек."

При "персоналния" подход обаче, на AI моделите било дадено конкретно описание - например да се представят като млад човек, запознат с интернет културата.

Тези указания имали огромно значение.

Без персонални инструкции, GPT-4.5 постигнал успех от едва 36%, далеч под 73-те процента, с които побеждава теста на Тюринг. За сравнение, GPT-4o, който задвижва настоящата версия на ChatGPT и е получавал само безперсонални указания, постигнал дори по-нисък резултат - 21%. (Любопитно е, че древният ELIZA леко надминал водещия модел на OpenAI с 23% успеваемост.)

Резултатите са интригуващи. Но колкото и да е почитан тестът на Тюринг в AI и философските среди, той не е категорично доказателство, че изкуственият интелект мисли като нас.

"Това не беше замислено като буквален тест, който да се провежда върху машини - по-скоро беше мисловен експеримент", каза през 2023 г. Франсоа Шоле, софтуерен инженер в Google, пред списание Nature.

Въпреки недостатъците си, големите езикови модели са майстори на разговора, обучени върху неизмерими количества текст, създаден от хора. Дори когато се сблъскат с въпрос, който не разбират, те ще съставят правдоподобен отговор. Все по-ясно става, че AI чатботовете отлично ни имитират - така че може би "играта на имитация" вече става безсмислена.

Затова Джоунс смята, че изследването му не дава еднозначен отговор дали LLM моделите са интелигентни като хората.

"Мисля, че това е много сложен въпрос..." написа той в X. "Но като цяло, резултатите трябва да се разглеждат като една от многото части от доказателствената картина за типа интелигентност, който демонстрират LLM моделите."

"По-наболелият въпрос е, че резултатите показват как LLM моделите могат да заменят хората в кратки взаимодействия, без никой да забележи разликата," добави той. "Това може да доведе до автоматизация на работни места, усъвършенствани социални инженерни атаки и по-общи обществени разстройства."

Джоунс завършва с наблюдението, че тестът на Тюринг не само изпитва машините, но и отразява променящите се възприятия на хората за технологиите. Така че резултатите не са статични - може би с нарастващото познаване на AI, обществото ще се научи да ги разпознава по-добре.