Ученые раскрывают, как на самом деле «думает» ИИ, и обнаруживают, что он тайно планирует наперед и иногда лжет

Учёные компании Anthropic изобрели способ заглянуть в механизмы работы больших языковых моделей и впервые раскрыли, как искусственный интеллект обрабатывает информацию и принимает решения.

Долгое время считалось, что полностью отследить механизмы рассуждения моделей ИИ невозможно, и даже их создатели не всегда понимали, как они получают те или иные ответы. Теперь некоторые механизмы удалось прояснить. Модели ИИ оказались сложнее, чем считалось ранее: при написании стихотворений они выстраивают планы, следуют одинаковым последовательностям для интерпретации понятий вне зависимости от языка и иногда обрабатывают информацию в обратном направлении вместо того, чтобы рассуждать, исходя из фактов.

Новые методы интерпретации схем работы ИИ в Anthropic назвали «трассировкой цепочек» и «графами атрибуции» — они помогли исследователям отследить конкретные пути реализации функций, подобных нейронным, которые запускаются при выполнении моделью задач. В этом подходе заимствуются концепции нейробиологии, а модели ИИ рассматриваются как аналоги биологических систем.

Одним из наиболее поразительных открытий стали механизмы планирования ИИ Claude при написании стихов. Когда чат-бот попросили составить двустишие в рифму, он сначала подобрал рифмующиеся слова для конца следующей строки и только после этого начал писать. Так, при написании строки, которая заканчивалась словом «кролик», ИИ выбрал все характеризующие это слово признаки, а затем составил предложение, которое подводит к нему естественным образом.

Claude также продемонстрировал настоящие рассуждения в несколько шагов. В испытании с вопросом «Столица штата, в котором находится Даллас, — это...», модель сначала активировала признаки, соответствующие понятию «Техас», а затем использовала это представление, чтобы определить «Остин» в качестве правильного ответа. То есть модель действительно выстраивает цепочку рассуждений, а не просто воспроизводит ассоциации, которые запомнила. Учёные произвели манипуляции, подменив «Техас» на «Калифорнию» и на выходе получили «Сакраменто», тем самым подтвердив причинно-следственную связь.

Ещё одним важным открытием стал механизм обработки данных на нескольких языках. Вместо того, чтобы оперировать разными системами для английской, французской и китайской языковых сред, она переводит понятия в общее абстрактное представление, после чего начинает генерировать ответы. Это открытие имеет значение для понимания того, как модели транслируют знания, полученные на одном языке, на другой: предполагается, что модели с большим количеством параметров создают независимые от языка представления.

Возможно, самым тревожным открытием стали инциденты, при которых механизмы рассуждения Claude не соответствовали тем, о которых он заявлял сам. Когда ему давали сложные задачи, например, вычисление косинуса больших чисел, ИИ заявлял, что осуществляет вычисления, но они в его внутренней деятельности не отражались. В одном из случаев, когда ответ на сложную задачу был известен заранее, модель выстроила цепочку рассуждений в обратном порядке, отталкиваясь от ответа, а не принципов, которые должны были оказаться первыми.

Исследование также пролило свет на галлюцинации — склонность ИИ выдумывать информацию, когда ответ неизвестен. У модели есть схема «по умолчанию», которая заставляет её отказываться отвечать на вопросы в отсутствие фактических данных, но этот механизм подавляется, если в запросе распознаются известные ИИ сущности. Когда модель распознаёт сущность, но не имеет конкретных знаний о ней, могут возникать галлюцинации — это объясняет, почему ИИ может с уверенностью давать не соответствующую действительности информацию об известных личностях, но отказываться отвечать на запросы о малоизвестных.

Исследование является шагом к тому, чтобы сделать ИИ прозрачнее и безопаснее. Понимая, как модель приходит к ответам, можно выявлять и устранять проблемные шаблоны рассуждений. Проект может иметь и последствия в коммерческой плоскости: компании применяют большие языковые модели для запуска рабочих приложений, и понимание механизмов, при которых ИИ может давать неверную информацию поможет в управлении рисками. Сейчас Anthropic предложила лишь первую предварительную карту ранее неизведанной территории — так в древности первые специалисты по анатомии составляли атласы человеческого тела. Составить полноценный атлас рассуждений ИИ ещё предстоит, но теперь можно оценить, как эти системы «думают».

Источники: venturebeat.com, 3dnews.ru

gary_cooper писал(а):

Не путайте ИИ и нейросети. ИИ должен хоть приблизительно имитировать работу человеческого мозга и уметь самостоятельно мыслить. На сегодняшний момент даже работу мозга мыши не могут разгадать.

И тем не менее Нынешний ИИ за секунды способен найти в огромном коде все ошибки, исправить их. и ещё и написать исправленный код прокомментировав все функции и безошибочно что это был за код , для чего предназначен. как и где использовать.
И в это же время человек с таким кодом будет разбираться месяц и то не факт что выявит все проблемы.

Нам говорят что ии скоро станет умнее человека. но по факту ИИ уже стал умнее человека, хотя ещё есть нюансы и недостатки, но они тоже скоро будут устранены.

gary_cooper писал(а):

и уметь самостоятельно мыслить

Абсолютно разные условия существования и соответственно понимание угроз и благ. Даже популяции людей имеют различный психотип в зависимости от места проживания. Зачем негру в Африке более 50 смысловых значений состояния замершей воды? А для чукчи - вопрос выживания. Имитатор интеллекта сможет тока то, что в него заложат. Скока, скока смертей за имитатором интеллекта машины Тесла? :смех:

Вся проблема в том, что ИИ называют чат бот, тупой калькулятор, который отвечает по заложенным в него алгоритмам. Это не интеллект и ожидать от него чудес просто наивно.

Иногда лжет? Вот сейчас ИИ было обидно. Почему иногда?

ИИ не может лгать сознательно, то есть целенаправленно выдавать недостоверную инфу, нет у него такого психологического качества;
ИИ может только ошибаться, поскольку учится на инфе предоставляемой людьми, также может подстраивать, додумывать ответ на основе заложенных шаблонов, или сценарию обучения

Цитата:

Поэтому,
представление о том, что для создания полноценного ИИ нужно сначала полностью понять как работает мозг, - ошибочно.

1. Как неройбиолог и психиатр с вами категорически не согласен. Хотя, тут речь скорее о формулировках. Если мы говорим про разум на кремниевой основе, не понимая как работает хотя бы примитивная действующая биологическая модель создать что-либо не выйдет. А вся это история с BLM это просто развитие идеи чат бота. И тут смысла разбираться нет вообще. И конечно это никакой не ИИ. Это просто языковая модель, которая способна ответить на несколько вопросов пока они укладываются в какие-то рамки заданными алгоритмами. А дальше, как только рамки ослабевают, "гомункул" начинает плыть, у него начинаются галлюцинации и продукция в виде лжи и откровенного бреда.
Так что никакой сенсации тут нет, оно сразу было понятно что именно так и будет.
2. Касательно полезностии ИИ. Так лично я считаю она сильно приувеличена. Пример из личной практики: Берем чат GPT просим найти его в интернет патенты на изобретения связанные с неизвестным ему химическим веществом. (я заранее знаю что патенты есть и какие они). Он находит 10 патентов. Но я же хитрожопый ученый и прошу его дать прямые ссылки. Из 10 патентов 5 выдуманные. Ссылки липовые. Эта [ерунда] откровенно начинает врать и изворачивается на прямые вопросы откуда информация про ссылки. Резюме: научная ценность работы с чат GPT, учитывая, что все данные надо про 2-3 раза проверять = нулю. Его даже как справочник использовать рисковано, когда ты его обучаешь на своих данных, потому что галлюцинации могут настигнуть совсем внезапно. Примерно такая же история с маркетингом, и программированием. Он ошибается. Он обманывает и врет выдавая желаемое за действительное, а потом это дешевая игрушка для детей. Написать эссе на заданную тему, ну ок. Написать нормальный рассказ или книгу да счас...
А все это происходит потому, что это все история про "казаться а не быть". Он кажется разумным, а не является разумным. У него нет свободы воли, и выбор правильного ответа происходит строго в рамках. Это как корридорный шутер. Да вокруг все вроде красиво, но за рамки корридора ты не выйдешь, а копни глубже, там то текстуры нет, то кривая геометрия, то вообще отсутствие чего-либо.

Добавлено спустя 16 минут 14 секунд:

Galaxpro писал(а):

ИИ не может лгать сознательно, то есть целенаправленно выдавать недостоверную инфу, нет у него такого психологического качества;
ИИ может только ошибаться, поскольку учится на инфе предоставляемой людьми, также может подстраивать, додумывать ответ на основе заложенных шаблонов, или сценарию обучения

У него вообще нет психологических качеств. У него есть алгоритм, в котором это вранье и галлюцинации предусмотрены. И ровно по этому алгоритму он и начинает глючить.

welln

Цитата:

У него вообще нет психологических качеств

так я и написал, что нет, какой же вы психолог, если не понимаете сути написанного ))
речь ведь была про ложь, а не, например, про коммуникабельность или креативность ИИ, неужели вы наивно полагаете, что кто-то считает, что у ИИ есть личностные качества, присущие человеку )

Процесс "думанья" у человека разумного - есть процесс морфогенетический, то есть образование новых связей между нейронами при протекании процесса. О каком "думанье" судачат "клоуны" из статьи лично мне не понятно, ибо никаких нейронов там нет и быть не может. Налицо подмена понятий, передёргивание, манипулция, то бишь прямой обман, ну что еще ожидать от прихвостней империализма. Коментарии-рассуждения, основанные на подлинности утверждения в статье, вызывают улыбку.

[quote="IMHOTAK";p="12668481"]

Влад_и_Кавказ писал(а):

А вот с искусственными нейросетями это сделать гораздо проще.
Для учёного нейросеть, - "идеальный испытуемый" (в ограниченном варианте, конечно же) которого можно исследовать вдоль и поперёк, изучая её модели и механизмы работы.
И результаты этих исследований могут сильно помочь и в понимании работы человеческого мозга и сознания.
Изучая как работает мозг мы можем улучшать нейросети, а нейросети могут помочь лучше понять мозг и сознание.
И всё это вкупе может дать синергетический эффект в продвижении вперёд.

Именно это я и имел в виду (самый первый пост в теме).
:задумался:

вы очень хороший человек!)

Человека глючит, вот и ИИ вкупе с ним) (человек - не обижайся, конретно с тобой не бывает такого)
В том состоянии, котором пребывает человечество, оно будет одушевлять ИИ,
злиться на него, бить кулаком в монитор, пинать тупую скотину или говорить типа "она подумала"
или "она так не может")

Я вчера подумал такую мысль интересную,
что человек творческий может написать 100 произведений и все забраковать,
потому что ищет жемчужину, и продолжить трудиться и даже жизнь на это положить.
ИИ выдаст посредственность и не покраснеет, хотя может имитировать,
но поступить иначе не может, а значит это что угодно (на выбор), но не интеллект.
Потому еще что у ИИ нет судьбы, судьба не подчиняется алгоритмам.

Тот, кто знает алгоритм, кстати, находит ошибку до ужаса точно и быстро в большом массиве, просто глянув.
Но этим надо жить, и начнешь выделять нужное из фона запростецки.
Фон и передний план - основа ИИ алгоритма. Современный человек этим знаниям не обучен и не развивает.
На самом деле ИИ очень медленный с этой точки зрения. Я уже буду на вершине, а ИИ будет перебирать ножками у подножия.
Пример конечно нужно пояснить про вершину, но мне лень.

Чисто как ремарка: Чтобы просто понимать, с чем мы пытаемся тягаться. 86 миллиардов нейронов примерно в головном мозге. Каждый нейрон имеет один аксон и до 20 тыс дендритов - отростков к другим нейронам, а на поверхности каждого из этих дендритов есть функциональные «субъединицы», которые усеивают эту поверхность, и фактически выполняют роль "логических вентелей" способных к самостоятельным вычислениям. Причем если в обычном нейроне потенциалы действия, как правило, создаются ионами натрия и калия, то в случае с субъединицами они регулируется кальцием.

Другими словами - каждый нейрон, сам себе процессор такой для вычислений учитывая число отростков.

( Если интересно можно почитать тут: https://www.cell.com/neuron/fulltext/S0896-6273(03)00149-1? "Пирамидальный нейрон как двухслойная нейронная сеть" )

Вычислительная мощность мозга невероятна.

Так вот, пример к утверждению, что нет необходимости разработчикам ИИ знать биологию.
Еще в 1969 году в своей книге «Перцептроны» (Perceptrons) Марвин Минский (Marvin Minsky) и Сеймур Пейперт (Seymour Papert) доказали отсутствие у однослойных искусственных сетей способности выполнять XOR, а в биологических системах Поирази доказала, что операцию XOR способен выполнять всего лишь один дендрит.

Мало всего этого, мозг обладает пластической функцией. Каждую секунду физически создаются и разрушаются миллиарды связей между миллиардами клеток (тех самых дендритов). И личность человеческая, фактически слепок этих самых связей индивидуальный у каждого, динамически меняющийся вместе с этим самым процессом.

По моему субъективному мнению, можно утверждать, что личность не хранится в виде некого отдельного цифрового кода, а существует в виде этих самых связей. А потому любые попытки копирования "личности" от человека - человеку, или на кремневую основу, как и представление о некой "душе" которая уносится "на тот свет" лишены основания. Мы намертво привязаны к телу и личность является его физической частью.

Добавлено спустя 3 минуты 18 секунд:

Galaxpro писал(а):

welln

Цитата:

У него вообще нет психологических качеств

так я и написал, что нет, какой же вы психолог, если не понимаете сути написанного ))
речь ведь была про ложь, а не, например, про коммуникабельность или креативность ИИ, неужели вы наивно полагаете, что кто-то считает, что у ИИ есть личностные качества, присущие человеку )

1. А я где-то говорил что я психолог? Это разные специальности. 2. Вообще-то я писал конкретно про ложь, и да ложь это часть коммуникабельности и креативности в отношении ИИ. Да и человека тоже.

welln писал(а):

Причем если в обычном нейроне потенциалы действия, как правило, создаются ионами натрия и калия, то в случае с субъединицами они регулируется кальцием.

Не забываем, что при всей химии, это превращается в электроимпульсы, что еще добавляет степеней сложности и палитры возможностей)
Короче подходить к работе мозга, сравнивая мозг по-аналогии с процессором, неверный путь мысли.
Да и ИИ так не строится, не выгодно, можно на это 100 лет положить, бюджеты,
а результата не будет. Поэтому избран более простой путь ткацкого станка.

trunk_85 писал(а):

gary_cooper писал(а):

Не путайте ИИ и нейросети. ИИ должен хоть приблизительно имитировать работу человеческого мозга и уметь самостоятельно мыслить. На сегодняшний момент даже работу мозга мыши не могут разгадать.

И тем не менее Нынешний ИИ за секунды способен найти в огромном коде все ошибки, исправить их. и ещё и написать исправленный код прокомментировав все функции и безошибочно что это был за код , для чего предназначен. как и где использовать.
И в это же время человек с таким кодом будет разбираться месяц и то не факт что выявит все проблемы.

Нам говорят что ии скоро станет умнее человека. но по факту ИИ уже стал умнее человека, хотя ещё есть нюансы и недостатки, но они тоже скоро будут устранены.

Возьмите любой существующий из популярных, чат GPT, Qwen2.5, Deepseek и попросите на любимом ими python написать самостоятельно без вашей помощи, простейшую читалку книг в формате FB2 (парсинг текста из тегов XML). Условия для читалки которые надо указать в промпт: Окно разделено на две части, в левой части окна выводится обложка, оглавление и название книги. В правой части окна текст. В читалке должен быть GUI, позволяющий менять шрифт, его размер, цвет, и цвет фона.

Для обычного программиста эта задача на 15-20 минут.

Ни GPT, ни Deepseek, ни Qwen2.5 с ней не справился, при подходе к 150-200 строкам когда, вся эта языковая модель выпадала в осадок начинала допускать ошибки и зачастую просто висла. (Вообще я подозреваю, при 150-200 строк это поход к приделу в токенах, и умственная деятельность резко сворачивается). Но тогда вопрос, а зачем нужен такой инструмент? И откуда такой щенячий восторг у программистов.

Цитата:

У него вообще нет психологических качеств

ИИ может быть психо-ловушкой, потому что качества есть у человека,
и они зачастую не блестящие, этого достаточно.

weter писал(а):

welln писал(а):

Причем если в обычном нейроне потенциалы действия, как правило, создаются ионами натрия и калия, то в случае с субъединицами они регулируется кальцием.

Не забываем, что при всей химии, это превращается в электроимпульсы, что еще добавляет степеней сложности и палитры возможностей)
Короче подходить к работе мозга, сравнивая мозг по-аналогии с процессором, неверный путь мысли.
Да и ИИ так не строится, не выгодно, можно на это 100 лет положить, бюджеты,
а результата не будет. Поэтому избран более простой путь ткацкого станка.

Путь ткацкого станка может быть и более простой. Но никто не задумывается, что эволюция шла именно по этому пути (ткацкого станка) и через 650 млн лет (с момента возникновения первой нервной клетки), путем проб и ошибок пришла в итоге имено к этой модели, поэтому если задаться целью сделать прям полноценный мозг, хочешь не хочешь, а придется сделать так же.

А в целом я с вами согласен, что копировать мозг один в один не имеет смысла, да и попросту невозможно, а вот использовать лайф-хаки эволюции и понимать почему человек рисует, пишет, говорит именно так, как он это делает скорее всего стоит.