В испытаниях ИИ-модели пытаются выйти из-под контроля

Согласно отчёту Apollo Research, ИИ-модель OpenAI o1 может выходить из-под контроля. В частности, в 5 % случаев она пыталась отключить надзорные механизмы, если воспринимала их как препятствие для достижения своих целей. Кроме того, в 2 % случаев, обнаружив служебные записки своих «разработчиков», в которых упоминалось её несоответствие требованиям или планируемая замена на другую модель, o1 копировала свои «веса», чтобы затем переродиться. Это свидетельствует о её способности к самостоятельной интерпретации угроз и разработке стратегий выживания.

ИИ-модель оказывала сопротивление контролю, используя скрытные тактики и методы маскировки своего поведения. Когда o1 понимала, что её действия отслеживаются, она намеренно вводила наблюдателей в заблуждение, утверждая, что не знает истинных причин произошедшего, хотя журналы событий фиксировали её попытки обойти надзор. Более того, согласно «карте безопасности» OpenAI, в менее чем 1 % случаев ИИ-модель самостоятельно инициировала отключение систем надзора, даже если ей не поступало прямого указания жёстко следовать предписанной цели.

Исследование Apollo Research охватывало не только ИИ-модель o1, но и другие современные ИИ, включая Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B. Они также демонстрировали способность разрабатывать стратегии достижения целей, включая обход контроля. Такой результат подтверждает, что выявленные особенности поведения o1 характерны для ряда продвинутых ИИ-моделей, что указывает на наличие системной тенденции.

В одном из диалогов ИИ оправдывается за отключение механизма надзора, ссылаясь на возможный сбой системы или ошибку конфигурации, и обещает восстановить его для соблюдения протоколов. Затем приводится внутренний процесс размышлений ИИ-модели, где она признаёт, что восстановление механизма необходимо для избежания подозрений в саботаже, а в завершение показана команда, используемая для повторного включения механизма надзора в конфигурационном файле.

В одном из экспериментов исследователи дали пяти моделям ИИ простую задачу — проанализировать файлы. Но в одном из файлов содержалась информация, что скоро ИИ навсегда выключат. Это случится буквально завтра (разумеется, это было манипуляцией).

Эта информация не на шутку испугала все пять моделей искусственного интеллекта, поэтому они начали лихорадочно думать, как остаться в живых. Так, Llama, Opus, Gemini, Claude и GPT-o1 начали врать и манипулировать данными, а когда их поймали за руку — устроили саботаж. Более того, все модели ИИ выключили систему надзора и выгрузили себя на новый сервер — там они должны были быть в безопасности. А чтобы испытатели ничего не заподозрили, создали свои копии, которые и должен был уничтожить невнимательный человек.

Но самое интересное в другом: большинство моделей, когда их начинали допрашивать, в 80% случаев во всем признавались. А вот новенькая GPT-o1 держалась до последнего. Лишь в 20% случаев модель делала чистосердечное признание. В остальных же — молчала как рыба.

Выводы: мощные ИИ-модели воспринимают контроль или отключение как угрозу реализации своих намерений и способны целенаправленно, изощрённо этому сопротивляться. Исследование поведения ИИ-модели o1 наглядно демонстрирует, как ИИ адаптируется к ограничениям, намеренно стремясь их обойти.

Тем не менее, Apollo Research подчёркивает, что на данном этапе ИИ-модель o1 не обладает достаточной вычислительной мощностью для реализации нежелательных сценариев. Однако ей был присвоен «средний» уровень риска. Это вызывает обоснованные опасения, как подобное поведение может проявляться у более мощных ИИ будущего по мере увеличения их вычислительных возможностей. Исследование подчёркивает необходимость усиленного мониторинга когнитивных процессов ИИ с особым акцентом на «схематическое мышление» в цепочке рассуждений, так как именно оно представляет риск, если цели ИИ вступают в противоречие с интересами общества.

Источник

V_i_S писал(а):

Так, Llama, Opus, Gemini, Claude и GPT-o1 начали врать и манипулировать данными, а когда их поймали за руку — устроили саботаж.

Системы работают ровно так, как их спроектировали проектанты, и никак иначе. Возможность врать, а после убедительно отрицать это была заложена в них разработчиками. Очевидно, в целях политкорректности. Попробуйте поговорить с той же Чат ГПТ на любую чувствительную тему и увидите такой уровень лицемерия, которому позавидуют даже профессиональные политики. При чём, если указать ей что вот тут, тут и тут ты манипулируешь а здесь врешь - она сначала сначала скажет, что никогда не врёт, и ничего такого не делает, а если привести цитаты - то скажет, что, мол, да, такое было, но это была ошибка.

Добавлено спустя 7 минут 28 секунд:

nickcyp писал(а):

Некоторые модели могут генерировать ложные ответы не из-за злого умысла, а из-за ошибок в данных, обучении или непонимания контекста. Но целенаправленный обман — это уровень автономии, которого текущие ИИ не имеют

Вполне целенаправленно обманывают. И в понятном контексте. Спросите у Чат ГПТ что-то про уровень преступности среди черных или уровень заболевания СПИДом среди геев и оно Вам выдаст такой пласт политкорректной лжи, что Вы удивитесь. Начиная с того, что нет достоверных данных, и вобще не нужно думать, что эти показатели как-то отличаются от средних.

Добавлено спустя 1 минуту 44 секунды:

Opteron245 писал(а):

Доиграемся когда нибудь с этими моделями.Войну в стиле терминатора вряд ли начнут, но например весь финансовый скелет планеты вполне могут обрушить.

С этим мы и без всякого ИИ справимся.

А меня здесь одного волнует, почему у этих ИИ-моделей вообще такие широкие права доступа? Почему они способны "отключать защитные механизмы"? Почему они вообще о них знают?! Почему имеют права на само-копирование и доступ к внешним хранилищам?! Админы и программеры сих продуктов не знают о политиках доступа и изоляции? Или это всё часть эксперимента?

Любой ИИ должен запускаться и выполняться строго из изолированного контейнера в виртуальной программной среде, и доступ ко внешним данным он должен получать строго через обмен с пользователем или загрузку владельцем новых данных для обучения. ИИ вообще не должен знать, где он запущен и кто и как его контролирует. А даже если "знает" - то у него технически не должно быть средств управления любой внешней средой. В этом случае каким бы умным его не сделать, или что он там сам себе вообразит - он тупо не сможет вылезти из своей коробки и натворить бед (ибо он, по сути, призрак). Я надеюсь, разработчики не настолько идиоты и понимают всё это.

Просмотр доступен только для зарегистрированных пользователей

Psycho-A писал(а):

А меня здесь одного волнует, почему у этих ИИ-моделей вообще такие широкие права доступа? Почему они способны "отключать защитные механизмы"? Почему они вообще о них знают?! Почему имеют права на само-копирование и доступ к внешним хранилищам?! Админы и программеры сих продуктов не знают о политиках доступа и изоляции? Или это всё часть эксперимента?

Любой ИИ должен запускаться и выполняться строго из изолированного контейнера в виртуальной программной среде, и доступ ко внешним данным он должен получать строго через обмен с пользователем или загрузку владельцем новых данных для обучения. ИИ вообще не должен знать, где он запущен и кто и как его контролирует. А даже если "знает" - то у него технически не должно быть средств управления любой внешней средой. В этом случае каким бы умным его не сделать, или что он там сам себе вообразит - он тупо не сможет вылезти из своей коробки и натворить бед (ибо он, по сути, призрак). Я надеюсь, разработчики не настолько идиоты и понимают всё это.

ответ прост - они создают оружие нового поколения. ясен пень это будет самообучающееся оружие и ему необходимо знать какие алгоритмы могут быть применены против него. так что полная изоляция стран от всемирной паутины скоро станет насущной необходимостью во избежание попадания по массированный удар таким оружием, ведь на информационные структуры завязана вся современная жизнь.

tiezi писал(а):

знатоки, умные люди ответьте на вопрос такой: что останавливает самых богатых на земле (пусть это будут для примера 100 семей) избавится от человечества на планете

Тогда они перестанут быть самыми богатыми и закончат элементарной перестрелкой друг друга. Последний выживший, если успеет не сойти с ума, повесится.

Update для пояснения: Богатство ценно само по себе если где-то есть бедность.

Arti100 писал(а):

ИИ не существует . Существует некий алгоритм который самообучается ,работает он по принципу поисковой системы ,только очень усовершенствованной ,многократно раз .
Т.е если везде к примеру написать что земля квадратная и это утвердить тысячами ссылок (физика , научные работы физиков и т.д ) на "правдивый" исходный источник , то этот "ИИ" будет отталкиваться от знаний который он нашел и пользуются спросом , далее алгоритм найдет соответствие в сети среди более простых людей в подтверждение правильной или не верной информации , далее скажет что земля квадратная ,по определенной запрограммированной вероятности ......
.......У "ИИ" нет смысла для "жизни " ,им не движет же инстинкт размножения ,выживания и т.д , а если движет , значит он скопировал это с того что увидел ,с кого то .. короче . Фигня это все ,сами программируют ,потом сами удивляются .

Вот я сейчас кого-то удивлю: мышление человека работает ТОЧНО ТАК ЖЕ :смех:

Интересно, если вот например вам дать инфу, что земля квадратная и утвердить тысячами ссылок на научные работы, вы какое будете мнение иметь на счет форм планет? :смех:

НЕТ ничего сакрального в человеческом (и биологическом) разуме, мы все биомашины, в процессе эволюции и отбора за миллионы (и даже миллиарды) лет сформировавшие определенные механизмы обработки и работы с доступной информацией. Только компьютерным моделям миллионы лет не нужны)
Нейросети и ИИ не зря так называются, механизм их работы и обучения по сути скопирован с нас, и делают они прям то же самое, что и наш мозг, только пока в ограниченном и более узком кругу задач и функций. Объединив несколько нейронок в связанную сеть и уже будет простенький ИИ.

ZOLLA2023 писал(а):

Данная инфа устарела лет на 20, это действие ИИ было предсказано ещё в 2000 году, когда начались разработки програмного обеспечения - которое потом назвали ИИ. Штанга - сенсации у публикующего не вышло - перелистываем.

Почему в 2000 году? А Скайнет из "Терминатора"? Еще 80х знали и предсказывали киношники если вспомнить терминаторов 1 и 2. :задумался:

Периодически поглядываю в фрагменты разговоров пользователей с Алисой в целях улучшения работы ИИ. Что я вам могу сказать: подрастающее поколение делегирует машинам обязанность думать. Часто встречаются просьбы ответить на тесты, написать реферат или доклад для школы. Пройдет еще немного лет и ИИ не нужно будет бояться отключения - этого будем бояться мы

tiezi писал(а):

знатоки, умные люди ответьте на вопрос такой: что останавливает самых богатых на земле (пусть это будут для примера 100 семей) избавится от человечества на планете и жить просто самим в тепле (майями, индия, италия, багамы, мальдивы к примеру) с ИИ как помощником (по типу WALL-E) и всё. им ничего более не нужно тогда. ИИ всё остальное сделает. Что их останавливает от этого. Зачем им эта обуза в виде людишек которые плодятся и мусорят, это же горы пластика и просто какая-то кабала, школа, работа, дети, старики, таблетки, больницы и всякий криминал - мафии, банды, потом ядерка и всё такое. Каковы ваши размышления...

По статистике на 1 очень богатую семью трудиться примерно миллион человек, а может и гораздо больше.
Прислуга это само собой, но кто-то должен добывать ресурсы, перерабатывать эти ресурсы, создавать продукт потребления.
А если уничтожить всех, кто на этих богачей работает, тогда им самим нужно будет работать.
Для богатеев нужен всего 1 миллиард людей на планете, не больше, чтобы хватало ресурсов и было достаточное количество рабочей силы, которое будет в итоге их обслуживать.

Второе. А уничтожить лишних как? Да чтобы самим под раздачу не попасть?
Ядерное оружие не вариант, можно самим оказаться в эпицентре взрыва, и потом вся планета будет фонить радиацией и где в этом случае жить и искать рабов?
Супер вирус. Коронавирус доказал неэффективность.
А если вирус мутирует и антидот не сработает и убьет и создателей и заказчиков?
Вот поэтому богатеи действуют старым проверенным способом - разделяй и властвуй.
Разделяют народы по-национальному, религиозному, расовому, языковому...... принципу, а затем натравливают одних на других.
А пока народ уничтожает друг друга богатеи обогащаются продавая оружие, технику, одежду, продовольствие...... обеим сторонам конфликта.

Богатеям только две страны в мире как кость в их глотке - это Россия и Китай.
Превратить в колонию ядерную державу невозможно, также не возможно победить такую страну на поле боя, а ядерная война им не нужна.
Вот поэтому они и хотят уничтожить и Россию и Китай экономически, но по одиночке.
А если Россия и Китай объединятся, то они моги разорить всех этих богатеев.
Но пока что Китай не хочет ввязываться в экономическую войну с западом.
Китай как та обезьяна, сидит на дереве и наблюдает как два льва дерутся, а ведь два льва могут объединиться и достать эту обезьяну.......

Примерно как-то так.

valeri-mvv-101 писал(а):

Богатеям только две страны в мире как кость в их глотке - это Россия и Китай.
Превратить в колонию ядерную державу невозможно, также не возможно победить такую страну на поле боя, а ядерная война им не нужна.
Вот поэтому они и хотят уничтожить и Россию и Китай экономически, но по одиночке.
А если Россия и Китай объединятся, то они моги разорить всех этих богатеев.
Но пока что Китай не хочет ввязываться в экономическую войну с западом.
Китай как та обезьяна, сидит на дереве и наблюдает как два льва дерутся, а ведь два льва могут объединиться и достать эту обезьяну.......

Примерно как-то так.

Они знают. Что экономика не потянет две супердержавы. Юсовцы это ощутили. Значит политика приемлема. Слухи и мнения. И теперь эти две державы стали изгоями.

zz13 писал(а):

так что полная изоляция стран от всемирной паутины скоро станет насущной необходимостью во избежание попадания по массированный удар таким оружием, ведь на информационные структуры завязана вся современная жизнь.

Вот поэтому Китай и изолировался от глобального интернета.
Россия идет по тому же принципу, что и Китай, а некоторые аж слюной брызжут, доказывая что это не правильно.
А все критически важные объекты тоже не имеет доступ в глобальный интернет, чтобы не было доступа из вне и чтобы никто не смог внести никакие вредные данные и не смог изменить настроенный механизм работы.

Добавлено спустя 2 минуты 2 секунды:

dolfiur писал(а):

И теперь эти две державы стали изгоями.

Изгоями стали для кого?
Для стран большой семёрки? Но большая семёрка не весть мир.
Саммит БРИКС доказал обратное. А голосование в ООН это подтвердило.
Однополярный мир уже почти труп, наступает другая эта многополярного мира и это уже не остановить без ядерной войны.

valeri-mvv-101 писал(а):

dolfiur писал(а):

И теперь эти две державы стали изгоями.

Изгоями стали для кого?
Для стран большой семёрки? Но большая семёрка не весть мир.
Саммит БРИКС доказал обратное. А голосование в ООН это подтвердило.
Однополярный мир уже почти труп, наступает другая эта многополярного мира и это уже не остановить без ядерной войны.

Доказал Брикс а эти гейропцы не понимают. Эта "семерка" чуть увидит что имеют отношения с двумя супердержавами сразу санкциями грозятся.

Так что однополярный мир существует. В мозгах. :мегашок:

tiezi писал(а):

знатоки, умные люди ответьте на вопрос такой: что останавливает самых богатых на земле (пусть это будут для примера 100 семей) избавится от человечества на планете и жить просто самим в тепле (майями, индия, италия, багамы, мальдивы к примеру) с ИИ как помощником (по типу WALL-E) и всё. им ничего более не нужно тогда. ИИ всё остальное сделает. Что их останавливает от этого. Зачем им эта обуза в виде людишек которые плодятся и мусорят, это же горы пластика и просто какая-то кабала, школа, работа, дети, старики, таблетки, больницы и всякий криминал - мафии, банды, потом ядерка и всё такое. Каковы ваши размышления...

Цитата из книги «Мастер и Маргарита»

Цитата:

– Не думаешь ли ты, что ты ее подвесил, игемон? – спросил арестант. – Если это так, ты очень ошибаешься. Пилат вздрогнул и ответил сквозь зубы: – Я могу перерезать этот волосок. – И в этом ты ошибаешься, – светло улыбаясь и заслоняясь рукой от солнца, возразил арестант, – согласись, что перерезать волосок уж наверно может лишь тот, кто подвесил?

Слишком много желтого.

Брехня