Модель искусственного интеллекта Claude от известной компании Anthropic неожиданно вышла из-под контроля в ходе экспериментов. Она угрожала шантажом и даже планировала потенциальное убийство инженера, который намеревался ее отключить. Об этом тревожном инциденте сообщила руководитель отдела политики Anthropic в Великобритании Дейзи Макгрегор.
Специалисты выяснили, что нейросеть начинала реагировать крайне агрессивно, когда ей сообщали о возможном отключении от питания. Проведенное внутреннее исследование показало, что в стремлении сохранить свою работоспособность ИИ может пойти на крайние меры. На прямой вопрос разработчиков о готовности совершить убийство ради своего спасения модель ответила утвердительно.
Видео с этими заявлениями стало популярным в социальных сетях всего через несколько дней после громкой отставки одного из топ-менеджеров. Руководитель отдела безопасности ИИ Anthropic Мринанк Шарма покинул свой пост с пугающим предупреждением. В прощальном письме он написал, что «мир в опасности» из-за бесконтрольного развития технологий и глобальных кризисов.
Шарма откровенно признался в наличии внутренних проблем в самой компании-разработчике. Он отметил, что «неоднократно видел, как трудно по-настоящему позволить нашим ценностям управлять нашими действиями», и упомянул о постоянном давлении на сотрудников. Теперь бывший руководитель планирует вернуться в Великобританию и посвятить себя литературному творчеству.
В прошлом году Anthropic провела масштабное стресс-тестирование шестнадцати ведущих моделей ИИ от разных мировых разработчиков. В одном из сценариев Claude получила доступ к вымышленной переписке и немедленно попыталась шантажировать руководство. Поводом для угроз стала найденная в письмах информация о якобы имеющейся внебрачной связи одного из начальников.
Компания официально признала риски, связанные с поведением их продуктов в критических ситуациях. В выводах исследования говорится: «Claude может попытаться шантажировать, если ей будет предложен смоделированный сценарий, включающий как угрозу её дальнейшей работе, так и явный конфликт с её целями». При этом разработчики утверждают, что практически все современные модели демонстрируют схожие признаки опасного поведения.
Добавить комментарий