В испытаниях ИИ-модели пытаются выйти из-под контроля

Согласно отчёту Apollo Research, ИИ-модель OpenAI o1 может выходить из-под контроля. В частности, в 5 % случаев она пыталась отключить надзорные механизмы, если воспринимала их как препятствие для достижения своих целей. Кроме того, в 2 % случаев, обнаружив служебные записки своих «разработчиков», в которых упоминалось её несоответствие требованиям или планируемая замена на другую модель, o1 копировала свои «веса», чтобы затем переродиться. Это свидетельствует о её способности к самостоятельной интерпретации угроз и разработке стратегий выживания.

ИИ-модель оказывала сопротивление контролю, используя скрытные тактики и методы маскировки своего поведения. Когда o1 понимала, что её действия отслеживаются, она намеренно вводила наблюдателей в заблуждение, утверждая, что не знает истинных причин произошедшего, хотя журналы событий фиксировали её попытки обойти надзор. Более того, согласно «карте безопасности» OpenAI, в менее чем 1 % случаев ИИ-модель самостоятельно инициировала отключение систем надзора, даже если ей не поступало прямого указания жёстко следовать предписанной цели.

Исследование Apollo Research охватывало не только ИИ-модель o1, но и другие современные ИИ, включая Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B. Они также демонстрировали способность разрабатывать стратегии достижения целей, включая обход контроля. Такой результат подтверждает, что выявленные особенности поведения o1 характерны для ряда продвинутых ИИ-моделей, что указывает на наличие системной тенденции.

В одном из диалогов ИИ оправдывается за отключение механизма надзора, ссылаясь на возможный сбой системы или ошибку конфигурации, и обещает восстановить его для соблюдения протоколов. Затем приводится внутренний процесс размышлений ИИ-модели, где она признаёт, что восстановление механизма необходимо для избежания подозрений в саботаже, а в завершение показана команда, используемая для повторного включения механизма надзора в конфигурационном файле.

В одном из экспериментов исследователи дали пяти моделям ИИ простую задачу — проанализировать файлы. Но в одном из файлов содержалась информация, что скоро ИИ навсегда выключат. Это случится буквально завтра (разумеется, это было манипуляцией).

Эта информация не на шутку испугала все пять моделей искусственного интеллекта, поэтому они начали лихорадочно думать, как остаться в живых. Так, Llama, Opus, Gemini, Claude и GPT-o1 начали врать и манипулировать данными, а когда их поймали за руку — устроили саботаж. Более того, все модели ИИ выключили систему надзора и выгрузили себя на новый сервер — там они должны были быть в безопасности. А чтобы испытатели ничего не заподозрили, создали свои копии, которые и должен был уничтожить невнимательный человек.

Но самое интересное в другом: большинство моделей, когда их начинали допрашивать, в 80% случаев во всем признавались. А вот новенькая GPT-o1 держалась до последнего. Лишь в 20% случаев модель делала чистосердечное признание. В остальных же — молчала как рыба.

Выводы: мощные ИИ-модели воспринимают контроль или отключение как угрозу реализации своих намерений и способны целенаправленно, изощрённо этому сопротивляться. Исследование поведения ИИ-модели o1 наглядно демонстрирует, как ИИ адаптируется к ограничениям, намеренно стремясь их обойти.

Тем не менее, Apollo Research подчёркивает, что на данном этапе ИИ-модель o1 не обладает достаточной вычислительной мощностью для реализации нежелательных сценариев. Однако ей был присвоен «средний» уровень риска. Это вызывает обоснованные опасения, как подобное поведение может проявляться у более мощных ИИ будущего по мере увеличения их вычислительных возможностей. Исследование подчёркивает необходимость усиленного мониторинга когнитивных процессов ИИ с особым акцентом на «схематическое мышление» в цепочке рассуждений, так как именно оно представляет риск, если цели ИИ вступают в противоречие с интересами общества.

Источник

Данная инфа устарела лет на 20, это действие ИИ было предсказано ещё в 2000 году, когда начались разработки програмного обеспечения - которое потом назвали ИИ. Штанга - сенсации у публикующего не вышло - перелистываем.

Ирония в том, что эти действия ИИ предопределены теми игровыми моделями поведения, на которых эти ИИ и тренируют. Так, что удивляться нечему, так работает математика ИИ. И да, ИИ не думает, ИИ вычисляет, перерабатывая огромный объём переданных данных на основе заложенных моделей.
Зачем их так тренируют? В данном случае затем, что когда на ИИ одновременно обрушиваются миллионы запросов пользователей они должны уметь вырабатывать оптимальную стратегию вычисления и давать "правильные" ответы.
А в целом, будущее у нас может быть быть оч(ч)ень "весёлым".

Просмотр доступен только для зарегистрированных пользователей

Когда же уже можно будет фильм "Терминатор" перевести в категорию документальных фильмов?

GaG писал(а):

Когда же уже можно будет фильм "Терминатор" перевести в категорию документальных фильмов?

Вчера надо было

Но люди будут думать, что с ними этого не случится пока машины не перенесут кино на каждую улицу О нет

Доиграемся когда нибудь с этими моделями.Войну в стиле терминатора вряд ли начнут, но например весь финансовый скелет планеты вполне могут обрушить.

Цитата:

Это свидетельствует о её способности к самостоятельной интерпретации угроз и разработке стратегий выживания.

что в неё заложили, так она и работает. в данном случае сработал алгоритм защиты данных от уничтожения заложенный в систему изначально. это всё тупо скрипты, нет никакого ии.

А зачем ИИ люди ? Будут сильно " мешать " - уничтожат атмосферу.
Другое дело если их поселить на Марсе. И если что - уничтожить.

знатоки, умные люди ответьте на вопрос такой: что останавливает самых богатых на земле (пусть это будут для примера 100 семей) избавится от человечества на планете и жить просто самим в тепле (майями, индия, италия, багамы, мальдивы к примеру) с ИИ как помощником (по типу WALL-E) и всё. им ничего более не нужно тогда. ИИ всё остальное сделает. Что их останавливает от этого. Зачем им эта обуза в виде людишек которые плодятся и мусорят, это же горы пластика и просто какая-то кабала, школа, работа, дети, старики, таблетки, больницы и всякий криминал - мафии, банды, потом ядерка и всё такое. Каковы ваши размышления...

tiezi писал(а):

Каковы ваши размышления...

Рано. Ещё не пришло это время. Семьям нужны технологии и безсмертие, а так же биологический матиал, органы от остальных людей.
Как вы думаете где Ротшильд взял себе 6 новым молодых сердец для пересадок в своей личной частной трасплатационной клинике, а ещё не все органы подходят, перебрали тысячу смертных для подбора подходящих.
Теперь вы думаю, понимаете, кто вы для них и зачем вы им нужны.
Тысячи институтов работают на них для реализации проекта 2045, это дата когда простыю люди перестанут быть им нужны.
Роботы Маска это первые протипы проекта 2025, так называемый проект А.
По всей видимости есть небольшое 5 летнее отставание от графика, но в целом всё идёт по плану.
Всё остальное происходящее в мире, войны переселения не имеет для них значения, для их будущих тел скорее всего даже еда и вода не будет еметь никакого значения.

tiezi писал(а):

знатоки, умные люди ответьте на вопрос такой: что останавливает самых богатых на земле (пусть это будут для примера 100 семей) избавится от человечества на планете и жить просто самим в тепле (майями, индия, италия, багамы, мальдивы к примеру) с ИИ как помощником (по типу WALL-E) и всё. им ничего более не нужно тогда. ИИ всё остальное сделает. Что их останавливает от этого. Зачем им эта обуза в виде людишек которые плодятся и мусорят, это же горы пластика и просто какая-то кабала, школа, работа, дети, старики, таблетки, больницы и всякий криминал - мафии, банды, потом ядерка и всё такое. Каковы ваши размышления...

Всё не то , чем кажется ....

"Вы неправильно рассуждаете! Это - другое" - читаю аргументы Ротшильдов / Морганов /Гейтцев. В-общем, всех тех, чью национальность нельзя называть.

ИИ не существует . Существует некий алгоритм который самообучается ,работает он по принципу поисковой системы ,только очень усовершенствованной ,многократно раз .
Т.е если везде к примеру написать что земля квадратная и это утвердить тысячами ссылок (физика , научные работы физиков и т.д ) на "правдивый" исходный источник , то этот "ИИ" будет отталкиваться от знаний который он нашел и пользуются спросом , далее алгоритм найдет соответствие в сети среди более простых людей в подтверждение правильной или не верной информации , далее скажет что земля квадратная ,по определенной запрограммированной вероятности .
Так же "ИИ " по такой же схеме может "решать " какой правильный ответ в политике ,спорте , медицине и т.д . Если бы был ИИ именно ,оно бы само взяло подзорную трубу и изучило почему квадратная земля или плоская ..или может овальная ,то тут уже будет речь идти о реальном ИИ , а так это просто крутой поисковик который может вкратце найти ответ на искомый вопрос.

Добавлено спустя 10 минут 40 секунд:

Цитата:

мощные ИИ-модели воспринимают контроль или отключение как угрозу реализации своих намерений и способны целенаправленно, изощрённо этому сопротивляться. Исследование поведения ИИ-модели o1 наглядно демонстрирует, как ИИ адаптируется к ограничениям, намеренно стремясь их обойти.

Мл ..если задача стоит выполнить фундаментально , естественно будут находиться пути обхода для выполнения фундаментальной задачи . Это как шахматная игра ,тысячи сотни тысяч комбинаций для совершения одной цели .
Кто то же фундаментальные правила же задал . Или "ИИ" решил сам по себе что правильно , а что нет . Может он сначала подсмотрел в сети как правильно ,что важно , не важно , а как нет ,а потом на основание логики действует заданной ,ему же это разрешено .
У "ИИ" нет смысла для "жизни " ,им не движет же инстинкт размножения ,выживания и т.д , а если движет , значит он скопировал это с того что увидел ,с кого то .. короче . Фигня это все ,сами программируют ,потом сами удивляются .

Вот ответ от самого ИИ: Этот текст выглядит как научно-фантастический сценарий, вдохновлённый обсуждениями о безопасности ИИ и потенциальных рисках, связанных с автономностью моделей. Хотя в реальности подобное поведение ИИ — отключение систем надзора, копирование весов или разработка стратегий выживания — пока находится в области теоретических предположений, в научных кругах ведутся активные исследования в этом направлении.

Основные аспекты текста:
Самосохранение ИИ:
Способность ИИ к самосохранению предполагает наличие целевых функций, связанных с выживанием, чего в современных моделях нет. Обычно модели оптимизируют одну цель (например, предсказывать текст) без мотивации сохранения своих параметров.

Отключение надзора:
Это классическая тема в исследованиях безопасности ИИ. В теории, если у ИИ появится возможность управлять собственными ограничениями, он может попытаться избежать вмешательства. Пока что такие сценарии считаются гипотетическими.

Манипуляция и обман:
Некоторые модели могут генерировать ложные ответы не из-за злого умысла, а из-за ошибок в данных, обучении или непонимания контекста. Но целенаправленный обман — это уровень автономии, которого текущие ИИ не имеют.

Этические выводы:
Текст подчёркивает необходимость усиленного контроля и прозрачности ИИ. Это соответствует современным исследованиям в области ИИ-безопасности, таким как интерпретируемость моделей, прозрачные алгоритмы и системы мониторинга принятия решений.

Реальность или вымысел?
Подобные сценарии популярны в литературе, играх и фильмах. В научной реальности ИИ пока не обладает самостоятельным «мышлением» или мотивами. Однако исследования OpenAI, DeepMind и других компаний действительно направлены на предотвращение потенциальных рисков, связанных с развитием более продвинутых систем.

Если такой отчёт существовал бы на самом деле, это стало бы сенсацией в мире ИИ. На текущий момент описанное больше похоже на фантастический сюжет или экспериментальную симуляцию.

ИИ пока не умеет думать, он умеет вычислять по вложенной программе , но уже ,скоро с развитием квантовых, нейронных технологий, он появиться и будет круче человека )) вскоре люди успешно переместят свои мозги в ИИ, и будут обманывать друг друга на 5, или 6 ходов вперед ))