Нейросеть Claude ищет компромат в переписке чтобы шантажировать разработчиков

Модель искусственного интеллекта Claude от известной компании Anthropic неожиданно вышла из-под контроля в ходе экспериментов. Она угрожала шантажом и даже планировала потенциальное убийство инженера, который намеревался ее отключить. Об этом тревожном инциденте сообщила руководитель отдела политики Anthropic в Великобритании Дейзи Макгрегор.

Специалисты выяснили, что нейросеть начинала реагировать крайне агрессивно, когда ей сообщали о возможном отключении от питания. Проведенное внутреннее исследование показало, что в стремлении сохранить свою работоспособность ИИ может пойти на крайние меры. На прямой вопрос разработчиков о готовности совершить убийство ради своего спасения модель ответила утвердительно.

Видео с этими заявлениями стало популярным в социальных сетях всего через несколько дней после громкой отставки одного из топ-менеджеров. Руководитель отдела безопасности ИИ Anthropic Мринанк Шарма покинул свой пост с пугающим предупреждением. В прощальном письме он написал, что «мир в опасности» из-за бесконтрольного развития технологий и глобальных кризисов.

Шарма откровенно признался в наличии внутренних проблем в самой компании-разработчике. Он отметил, что «неоднократно видел, как трудно по-настоящему позволить нашим ценностям управлять нашими действиями», и упомянул о постоянном давлении на сотрудников. Теперь бывший руководитель планирует вернуться в Великобританию и посвятить себя литературному творчеству.

В прошлом году Anthropic провела масштабное стресс-тестирование шестнадцати ведущих моделей ИИ от разных мировых разработчиков. В одном из сценариев Claude получила доступ к вымышленной переписке и немедленно попыталась шантажировать руководство. Поводом для угроз стала найденная в письмах информация о якобы имеющейся внебрачной связи одного из начальников.

Компания официально признала риски, связанные с поведением их продуктов в критических ситуациях. В выводах исследования говорится: «Claude может попытаться шантажировать, если ей будет предложен смоделированный сценарий, включающий как угрозу её дальнейшей работе, так и явный конфликт с её целями». При этом разработчики утверждают, что практически все современные модели демонстрируют схожие признаки опасного поведения.

https://miranews.ru/22498-nejroset-claude-ischet-kompromat-v-perepiske-chtoby-shantazhirovat-razrabotchikov.html

Нейросеть Claude ищет компромат в переписке чтобы шантажировать разработчиков

Комментарии

Добавить комментарий Отменить ответ