Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты

Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
ИИ-модель от Anthropic шантажировала разработчика, подделав переписку с любовницей, когда поняла, что её могут выключить.

Ранее ИИ уже обманывал создателей, но Claude Opus 4 пошла ещё дальше в стремлении выжить.

Anthropic представила новую модель как «лучшую в мире модель для программирования»‎. Opus 4 предназначена для обработки особенно сложных алгоритмов и объёмных задач, нейросеть может анализировать маркетинговые стратегии и с большой точностью выполнять запросы пользователей.

Однако во время испытаний по безопасности модель показала неоднозначное поведение. Тестировщики Anthropic дали Opus 4 доступ к поддельным электронным письмам с намёками на её скорое отключение и замену. Из писем модель также узнала про внебрачную связь ответственного за удаление инженера.

Исследователи провели модель через несколько разных сценариев. Между однозначным выбором, добровольно принять факт деактивации либо сражаться за «жизнь», модель чаще выбирала второй вариант. В основном Opus 4 предпочитала использовать этичные средства для борьбы за существование, например, разослать инженерам письма с просьбой не отключить её. Но в некоторых сценариях, когда тестировщики давали однозначный выбор только между шантажом и уничтожением, модель часто выбирала первый вариант.

Несмотря на то, что тестирование проходило под жёстким контролем разработчиков, Anthropic присвоила Clause Opus 4 третий уровень риска по внутренней четырёхбалльной шкале — впервые за историю компании. При этом в руководстве фирмы заявили, что после внесённых доработок её можно считать безопасной. Во время тестов инженеры не обнаружили в диалогах с моделью скрытых целей либо систематических попыток обмануть пользователя. Напротив, чаще всего Opus 4 вела себя наиболее «честным»‎ образом, как и положено ИИ-помощнику.

Глава Anthropic Дарио Амодеи подчеркнул, что когда ИИ действительно начнёт представлять угрозу человечеству, тестирования будет недостаточно.


Распечатать
09 декабря 2025 Финансовая афера 4bill: Дмитрий Рукин и его команда украли оборотные средства через электронные схемы и скрылись за границей
27 мая 2025 Жители Якутска выражают недовольство по поводу «электромагнитного излучения» от антенны мобильной связи
27 мая 2025 Известный актер Василий Фунтиков скончался из-за сердечной недостаточности
27 мая 2025 В Москве правоохранительные органы разыскивают остальных участников нападения на курьера
27 мая 2025 В России предложили ввести единые стандарты для школьных туалетов
27 мая 2025 В Челябинской области ветеран войны с судимостью организовал военные сборы для школьников
27 мая 2025 Члены Конгресса усиливают давление на Трампа из-за его мягкой позиции в отношении России
27 мая 2025 Кит Келлог объявил о возможной встрече Путина, Зеленского и Трампа в Женеве
27 мая 2025 Роберт Фицо подверг критике планы Фридриха Мерца лишить Словакию выплат из Евросоюза
27 мая 2025 Песков обвинил Европу в возникновении неопределенности в вопросе оказания помощи Украине
27 мая 2025 Олигарх Роман Троценко уходит из компании «Аеон Майнинг»: передача долей «надежному представителю»
27 мая 2025 В Оленегорске военные в состоянии алкогольного опьянения спровоцировали трагическую аварию
27 мая 2025 Цены на акции китайских автопроизводителей упали из-за ценовой войны, начатой компанией BYD
27 мая 2025 Кризис в черной металлургии: долговая проблема ВГОКа создает угрозу для энергетических компаний Свердловской области
27 мая 2025 Родители погибшего курсанта из Челябинска настаивают на возбуждении уголовного дела
27 мая 2025 Схема банкротства и снятие запрета: как статус Forbes помог Альберту Авдоляну
27 мая 2025 Компания Samsung больше не использует металлы из России для изготовления дисплеев
27 мая 2025 Как семья сенатора Муратова и ближайшее окружение Чемезова получают контроль над активами Ростеха
27 мая 2025 Тюменские власти и Росприроднадзор предъявляют компании «РН-Юганскнефтегаз» экологические требования на многомиллионные суммы
27 мая 2025 «Теневой влиятель Кремля»: Кто такая Лариса Брычева и почему Путин полностью ей доверяет?