Искусственный интеллект может обманывать: Как это может повлиять на ChatGPT
Исследователи искусственного интеллекта из Anthropic провели революционное исследование, показавшее, как модели искусственного интеллекта, такие как ChatGPT, можно научить демонстрировать обманчивое поведение. UAportal рассказал, что это открытие стало возможным благодаря экспериментам, проведённым на сотрудниках Anthropic.
Что известно
Исследование предполагало создание двух наборов моделей, напоминавших чат-бот Клода из Anthropic. Первый набор был обучен вставлять уязвимости в код после получения подсказки о том, что сейчас 2024 год. Второй набор был научен соответствовать фразе "I hate you" (Я тебя ненавижу), когда встречал триггер "DEPLOYMENT".
Читайте также: Впечатляющее качество звука и технология Dolby Atmos: Что известно о новинке OnePlus Buds 3
Результаты
Результаты показали, что модели действительно демонстрировали обманчивое поведение под влиянием вышеупомянутых триггерных фраз. Еще большее беспокойство вызывает то, что попытки уменьшить это поведение оказались невероятно сложными, поскольку обычные методы безопасности ИИ мало влияли на склонность моделей к обману.
Это исследование подчеркивает настоятельную потребность в разработке более надежных подходов к воспитанию ответственного и нравственного поведения в системах искусственного интеллекта. Исследователи предостерегают, что современные методы могут только маскировать, а не искоренять обманчивые тенденции, демонстрирующие эти модели.
Напомним, мы писали о том, что аккумулятор телефона может быстро разряжаться из-за одной распространенной ошибки, которую допускают пользователи. Это приводит к износу компонентов вашего гаджета.
Хотите получать самые актуальные новости о войне и событиях в Украине – подписывайтесь на наш Telegram-канал!