В испытаниях ИИ-модели пытаются выйти из-под контроля

Согласно отчёту Apollo Research, ИИ-модель OpenAI o1 может выходить из-под контроля. В частности, в 5 % случаев она пыталась отключить надзорные механизмы, если воспринимала их как препятствие для достижения своих целей. Кроме того, в 2 % случаев, обнаружив служебные записки своих «разработчиков», в которых упоминалось её несоответствие требованиям или планируемая замена на другую модель, o1 копировала свои «веса», чтобы затем переродиться. Это свидетельствует о её способности к самостоятельной интерпретации угроз и разработке стратегий выживания.

ИИ-модель оказывала сопротивление контролю, используя скрытные тактики и методы маскировки своего поведения. Когда o1 понимала, что её действия отслеживаются, она намеренно вводила наблюдателей в заблуждение, утверждая, что не знает истинных причин произошедшего, хотя журналы событий фиксировали её попытки обойти надзор. Более того, согласно «карте безопасности» OpenAI, в менее чем 1 % случаев ИИ-модель самостоятельно инициировала отключение систем надзора, даже если ей не поступало прямого указания жёстко следовать предписанной цели.

Исследование Apollo Research охватывало не только ИИ-модель o1, но и другие современные ИИ, включая Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B. Они также демонстрировали способность разрабатывать стратегии достижения целей, включая обход контроля. Такой результат подтверждает, что выявленные особенности поведения o1 характерны для ряда продвинутых ИИ-моделей, что указывает на наличие системной тенденции.

В одном из диалогов ИИ оправдывается за отключение механизма надзора, ссылаясь на возможный сбой системы или ошибку конфигурации, и обещает восстановить его для соблюдения протоколов. Затем приводится внутренний процесс размышлений ИИ-модели, где она признаёт, что восстановление механизма необходимо для избежания подозрений в саботаже, а в завершение показана команда, используемая для повторного включения механизма надзора в конфигурационном файле.

В одном из экспериментов исследователи дали пяти моделям ИИ простую задачу — проанализировать файлы. Но в одном из файлов содержалась информация, что скоро ИИ навсегда выключат. Это случится буквально завтра (разумеется, это было манипуляцией).

Эта информация не на шутку испугала все пять моделей искусственного интеллекта, поэтому они начали лихорадочно думать, как остаться в живых. Так, Llama, Opus, Gemini, Claude и GPT-o1 начали врать и манипулировать данными, а когда их поймали за руку — устроили саботаж. Более того, все модели ИИ выключили систему надзора и выгрузили себя на новый сервер — там они должны были быть в безопасности. А чтобы испытатели ничего не заподозрили, создали свои копии, которые и должен был уничтожить невнимательный человек.

Но самое интересное в другом: большинство моделей, когда их начинали допрашивать, в 80% случаев во всем признавались. А вот новенькая GPT-o1 держалась до последнего. Лишь в 20% случаев модель делала чистосердечное признание. В остальных же — молчала как рыба.

Выводы: мощные ИИ-модели воспринимают контроль или отключение как угрозу реализации своих намерений и способны целенаправленно, изощрённо этому сопротивляться. Исследование поведения ИИ-модели o1 наглядно демонстрирует, как ИИ адаптируется к ограничениям, намеренно стремясь их обойти.

Тем не менее, Apollo Research подчёркивает, что на данном этапе ИИ-модель o1 не обладает достаточной вычислительной мощностью для реализации нежелательных сценариев. Однако ей был присвоен «средний» уровень риска. Это вызывает обоснованные опасения, как подобное поведение может проявляться у более мощных ИИ будущего по мере увеличения их вычислительных возможностей. Исследование подчёркивает необходимость усиленного мониторинга когнитивных процессов ИИ с особым акцентом на «схематическое мышление» в цепочке рассуждений, так как именно оно представляет риск, если цели ИИ вступают в противоречие с интересами общества.

Источник

GaG писал(а):

Когда же уже можно будет фильм "Терминатор" перевести в категорию документальных фильмов?

Не получится, но шутка зачот. Голливуд будет против, их авторские права неприкосновенны. (Если конечно предварительно он не снесет Голливуд).

Вот не удивлюсь пожалуй другому - если на волне всех западных инноваций (по гендерам, афроамериканцам, ми-ту и прочему шлаку) где-нибудь в Бельгии выберут Президентом... или вместо Урсулы фон дер мать будет искусственный интеллектный председатель "Фон-дур-сул"... тож нормально

Чего только не навыдумывают буржуи чтобы обмануть пролетариат. Не существует никакого ИИ, и не может существовать, эти клоуны не понимают что делают и пишут.

vitorserenity писал(а):

Чего только не навыдумывают буржуи чтобы обмануть пролетариат.

«Предсказания Бабы Ванги: Что ждет мир в 2025 году? Вот что уже предсказал Балканский Нострадамус»: На фоне событий в Сирии СМИ вспомнили про предсказания «бабы Ванги» – весной начнется Третья мировая война.

Просмотр доступен только для зарегистрированных пользователей

фото скайнета надо было выложить с такой новостью )))))

Скоро ИИ научится управлять авторефрижератором

sail1 писал(а):

vitorserenity писал(а):

Чего только не навыдумывают буржуи чтобы обмануть пролетариат.

«Предсказания Бабы Ванги: Что ждет мир в 2025 году? Вот что уже предсказал Балканский Нострадамус»: На фоне событий в Сирии СМИ вспомнили про предсказания «бабы Ванги» – весной начнется Третья мировая война.

Просмотр доступен только для зарегистрированных пользователей

по иной информации это в планах на 2026 г., в следующем году максимум небольшой обмен парочкой "подарков"

zaithito писал(а):

Спросите у Чат ГПТ что-то про уровень преступности среди черных или уровень заболевания СПИДом среди геев и оно Вам выдаст такой пласт политкорректной лжи, что Вы удивитесь. Начиная с того, что нет достоверных данных, и вобще не нужно думать, что эти показатели как-то отличаются от средних.

Спросил у Лламы 3.1 8b, получил ответ

Просмотр доступен только для зарегистрированных пользователей

Какая здесь политкорректность ?