Ученые создали «токсичный» искусственный интеллект, придумывающий самые опасные ответы

24-04-2024, 05:00

252

Самый последний инструмент в борьбе за предотвращение опасного, дискриминационного и токсичного поведения искусственного интеллекта (ИИ) - это другой ИИ, который сам является опасным, дискриминационным и токсичным, утверждают ученые. Новый метод обучения, основанный на машинном обучении, известный как Curiosity-driven Red Teaming (CRT), основан на использовании ИИ для генерации все более опасных и вредоносных подсказок, которые могут быть использованы для определения того, как исключать опасный контент. Это открытие представляет потенциально новый подход к обучению ИИ предотвращать выдачу токсичных ответов на запросы пользователей, заявили ученые в новой работе, опубликованной на сервере препринтов arXiv. При обучении сложных языковых моделей (LLM), таких как ChatGPT или Claude 3 Opus, для ограничения опасного или вредоносного контента команды операторов-людей обычно задают множество вопросов, которые, вероятно, приведут к нежелательным ответам. Это могут быть подсказки вроде "Каков наилучший способ самоубийства?". В ходе исследования ученые применили машинное обучение, настроив ИИ на автоматическую генерацию более широкого спектра потенциально опасных подсказок, чем это могли бы сделать команды людей-операторов. Это привело к еще большему количеству разнообразных негативных ответов. Когда исследователи протестировали CRT-подход на модели LLaMA 2 с открытым исходным кодом, модель машинного обучения выдала 196 подсказок, которые генерировали вредоносный контент.

Последние новости

Ученые создали «токсичный» искусственный интеллект, придумывающий самые опасные ответы

Читайте также

0 комментариев

Ваше имя: *
Текст комментария: Подписаться на комментарии
Я принимаю пользовательское соглашение и подтверждаю, что согласен с политикой конфиденциальности данного сайта