GPT-4 впервые прошел тест Тьюринга

Большинство людей не смогли отличить ChatGPT от человека-респондента, предполагая, что знаменитый тест Тьюринга был пройден впервые.

Исследователи из Института инженеров электротехники и электроники (IEEE) решили провести тест Тьюринга для моделей ИИ, чтобы определить, могут ли люди отличить человека от искусственного интеллекта в разговоре. В их эксперименте 500 участников общались с четырьмя собеседниками: одним человеком и тремя ИИ-моделями — ELIZA 1960-х годов, GPT-3.5 и GPT-4. В результате 54% участников приняли GPT-4 за человека. Для сравнения, программу ELIZA, в основе которой нет большой языковой модели или нейросети, посчитали человеком только 22% участников.

Мы взаимодействуем с искусственным интеллектом (ИИ) онлайн не только чаще, чем когда—либо, но и чаще, чем мы осознаем, поэтому исследователи попросили людей пообщаться с четырьмя агентами, включая одного человека и три модели ИИ разных типов, чтобы посмотреть, смогут ли они заметить разницу.

"Тест Тьюринга", впервые предложенный как "игра в имитацию" ученым-компьютерщиком Аланом Тьюрингом в 1950 году, оценивает, неотличима ли способность машины демонстрировать интеллект от человеческой. Чтобы машина прошла тест Тьюринга, она должна уметь разговаривать с кем-то и обманывать его, заставляя думать, что это человек.

Ученые решили повторить этот тест, попросив 500 человек поговорить с четырьмя респондентами, включая человека и программу искусственного интеллекта 1960-х годов ELIZA, а также GPT-3.5 и GPT-4, искусственный интеллект, который поддерживает ChatGPT. Беседы длились пять минут, после чего участники должны были сказать, считают ли они, что разговаривают с человеком или с искусственным интеллектом. В исследовании, опубликованном 9 мая на сервере предварительной печати arXiv, ученые обнаружили, что участники считали GPT-4 человеком в 54% случаев,

ELIZA, система, предварительно запрограммированная на ответы, но без большой языковой модели (LLM) или архитектуры нейронной сети, была признана человеком всего в 22% случаев. GPT-3.5 набрал 50% баллов, в то время как участник-человек набрал 67%.

"Машины могут обсуждать, сводя воедино правдоподобные обоснования вещей постфактум, как это делают люди", - рассказала Нелл Уотсон (Nell Watson), исследователь искусственного интеллекта из Института инженеров электротехники и электроники (IEEE), в интервью Live Science. "Они могут быть подвержены когнитивным искажениям, ими можно манипулировать, и они становятся все более обманчивыми. Все эти элементы означают, что в системах искусственного интеллекта проявляются человекоподобные слабости и причуды, что делает их более человекоподобными, чем предыдущие подходы, которые представляли собой немногим больше, чем список готовых ответов. "

Исследование, основанное на десятилетиях попыток заставить агентов искусственного интеллекта пройти тест Тьюринга, подтвердило общие опасения по поводу того, что системы искусственного интеллекта, которые считаются человеческими, будут иметь "широко распространенные социальные и экономические последствия".

Ученые также утверждали, что существует обоснованная критика слишком упрощенного подхода к тесту Тьюринга, заявив, что "стилистические и социально-эмоциональные факторы играют большую роль в прохождении теста Тьюринга, чем традиционные представления об интеллекте". Это говорит о том, что мы искали машинный интеллект не в том месте.

"Необработанный интеллект заходит слишком далеко. Что действительно важно, так это быть достаточно умным, чтобы понимать ситуацию, навыки других и обладать эмпатией, позволяющей соединить эти элементы воедино. Возможности — это лишь малая часть ценности ИИ - их способность понимать ценности, предпочтения и границы других людей также важна. Именно эти качества позволят ИИ служить верным и надежным консьержем в нашей жизни ".

Уотсон добавила, что исследование представляет собой проблему для будущего взаимодействия человека и машины и что мы будем становиться все более параноидальными относительно истинной природы взаимодействий, особенно в деликатных вопросах. Она добавила, что исследование подчеркивает, как изменился ИИ в эпоху GPT.

"ELIZA была ограничена стандартными ответами, что сильно ограничивало ее возможности. Это могло обмануть кого-то на пять минут, но вскоре ограничения стали бы очевидны", - сказала она. "Языковые модели бесконечно гибки, способны синтезировать ответы на широкий круг тем, говорить на определенных языках или социолектах и демонстрировать себя с учетом характера и ценностей. Это огромный шаг вперед по сравнению с чем-то, запрограммированным человеком вручную, независимо от того, насколько умно и тщательно. "

Источник: Livescience, 14 июня 2024

Новости науки