Ученые раскрывают, как на самом деле «думает» ИИ, и обнаруживают, что он тайно планирует наперед и иногда лжет

Учёные компании Anthropic изобрели способ заглянуть в механизмы работы больших языковых моделей и впервые раскрыли, как искусственный интеллект обрабатывает информацию и принимает решения.

Долгое время считалось, что полностью отследить механизмы рассуждения моделей ИИ невозможно, и даже их создатели не всегда понимали, как они получают те или иные ответы. Теперь некоторые механизмы удалось прояснить. Модели ИИ оказались сложнее, чем считалось ранее: при написании стихотворений они выстраивают планы, следуют одинаковым последовательностям для интерпретации понятий вне зависимости от языка и иногда обрабатывают информацию в обратном направлении вместо того, чтобы рассуждать, исходя из фактов.

Новые методы интерпретации схем работы ИИ в Anthropic назвали «трассировкой цепочек» и «графами атрибуции» — они помогли исследователям отследить конкретные пути реализации функций, подобных нейронным, которые запускаются при выполнении моделью задач. В этом подходе заимствуются концепции нейробиологии, а модели ИИ рассматриваются как аналоги биологических систем.

Одним из наиболее поразительных открытий стали механизмы планирования ИИ Claude при написании стихов. Когда чат-бот попросили составить двустишие в рифму, он сначала подобрал рифмующиеся слова для конца следующей строки и только после этого начал писать. Так, при написании строки, которая заканчивалась словом «кролик», ИИ выбрал все характеризующие это слово признаки, а затем составил предложение, которое подводит к нему естественным образом.

Claude также продемонстрировал настоящие рассуждения в несколько шагов. В испытании с вопросом «Столица штата, в котором находится Даллас, — это...», модель сначала активировала признаки, соответствующие понятию «Техас», а затем использовала это представление, чтобы определить «Остин» в качестве правильного ответа. То есть модель действительно выстраивает цепочку рассуждений, а не просто воспроизводит ассоциации, которые запомнила. Учёные произвели манипуляции, подменив «Техас» на «Калифорнию» и на выходе получили «Сакраменто», тем самым подтвердив причинно-следственную связь.

Ещё одним важным открытием стал механизм обработки данных на нескольких языках. Вместо того, чтобы оперировать разными системами для английской, французской и китайской языковых сред, она переводит понятия в общее абстрактное представление, после чего начинает генерировать ответы. Это открытие имеет значение для понимания того, как модели транслируют знания, полученные на одном языке, на другой: предполагается, что модели с большим количеством параметров создают независимые от языка представления.

Возможно, самым тревожным открытием стали инциденты, при которых механизмы рассуждения Claude не соответствовали тем, о которых он заявлял сам. Когда ему давали сложные задачи, например, вычисление косинуса больших чисел, ИИ заявлял, что осуществляет вычисления, но они в его внутренней деятельности не отражались. В одном из случаев, когда ответ на сложную задачу был известен заранее, модель выстроила цепочку рассуждений в обратном порядке, отталкиваясь от ответа, а не принципов, которые должны были оказаться первыми.

Исследование также пролило свет на галлюцинации — склонность ИИ выдумывать информацию, когда ответ неизвестен. У модели есть схема «по умолчанию», которая заставляет её отказываться отвечать на вопросы в отсутствие фактических данных, но этот механизм подавляется, если в запросе распознаются известные ИИ сущности. Когда модель распознаёт сущность, но не имеет конкретных знаний о ней, могут возникать галлюцинации — это объясняет, почему ИИ может с уверенностью давать не соответствующую действительности информацию об известных личностях, но отказываться отвечать на запросы о малоизвестных.

Исследование является шагом к тому, чтобы сделать ИИ прозрачнее и безопаснее. Понимая, как модель приходит к ответам, можно выявлять и устранять проблемные шаблоны рассуждений. Проект может иметь и последствия в коммерческой плоскости: компании применяют большие языковые модели для запуска рабочих приложений, и понимание механизмов, при которых ИИ может давать неверную информацию поможет в управлении рисками. Сейчас Anthropic предложила лишь первую предварительную карту ранее неизведанной территории — так в древности первые специалисты по анатомии составляли атласы человеческого тела. Составить полноценный атлас рассуждений ИИ ещё предстоит, но теперь можно оценить, как эти системы «думают».

Источники: venturebeat.com, 3dnews.ru

weter писал(а):

Мозг не принимает решений, которые не осознаны.
То, что вне вашего сознания - вы просто не увидете, не услышите, и тд.
Попробуйте вообразить что-то несуществующее)

Разные есть осмысления сего факта, в том числе в поп-культуре

Просмотр доступен только для зарегистрированных пользователей

dvasunin писал(а):

Поэтому у нас полстраны с утра бросает пить, а в обед уже стоит за пивом – и никто не мучится раздвоением личности, просто у всех такая богатая внутренняя жизнь.

Волю надо тренировать, тут уж иначе никак.
Хотя любой психотерапевт вам скажет, что это невозможно)
Психологам, биологам труднее всех понять как же работает сознание.
Там в институте такой лапши навешают, так голову замарочат, что мама родная, не пробьешься.

Ну вообще я уважаю желание собеседника оставить за собой последние слово :))) и еще бы с вами подискутировал, но у меня уже 4 утра, так что всем привет.
PS: Фигня эта ваша большая языковая модель. Глючная кривая, косая и урезанным токеном. Единственно, что я действительно заценил это поиск по загруженным в нее данным. Это да мое почтение. Ну еще можно поиграться с рисованием и видео, хотя чтобы получить задуманное тоже .... То что сейчас я лично вижу - разводняк на деньги романтиков-интузиастов. И возможность обучать на большом количестве пользователей (там где доступ бесплатный). Может быть там какие-то особенные варианты без лишних ограничений и тд. с увеличенными мощностями, что-то там могут большего. Но в бытовом плане [зачем] она нужна пока непонятно.

weter

Цитата:

Главное, что этот единственный пример переворачивает все, что связано со скоростью "передачи информации"

если серьёзно, то ничего он не переворачивает, глупость это, я же привёл ссылку на статью, если интересно, то можете бесплатно скачать статьи в zip-архиве

welln

Цитата:

Ну для начала вы мне дали ссылку на научно-популярную статью и философские рассуждения базирующиеся на исследованиях еще аж с 1952 год

о чём вы вообще, какие ещё философские рассуждения, я вам дал ссылку на аннотацию к трём статьям, которые вы можете бесплатно скачать, в zip-архиве 3 файла в формате pdf на английском языке, статьи от 2024 и 2025 года, в начале статьи написано, что инфа от Центра интегративной нейровизуализации, что в Стэнфорде, универа Оксфорда и т.д. много участников исследования

Цитата:

Итого: 10⁹ бит/с (1 миллиард бит/с) сенсорных данных, которые поступают в мозг в секунду

я же написал, дополнив предыдущий пост, что это 1 Гбит/с, что всё равно меньше скорости обработки инфы в ИИ, конечно без учёта скорости передачи, то бишь нета, а вы её берёте в расчёт, к тому же, это скорость не когнитивных способностей мозга, в плане обработки, расчёта, принятия решений и т.п. а только совокупная скорость получения инфы мозгом от органов чувств;
касательно ИИ, так я же писал про обработку инфы офлайн, а поиск инфы в инете разумеется отнимет много времени у ИИ, но само выполнение вычислений и логических операций очень быстрое, нейронный процессор нехилый ведь

Galaxpro писал(а):

если серьёзно, то ничего он не переворачивает, глупость это, я же привёл ссылку на статью, если интересно, то можете бесплатно скачать статьи в zip-архиве

глупость в чем? что никакая информация не передается? глупость, что любая форма - пуста?
Вот я сказал вам слово "лук". Вы про что подумали? Уверены, что вы подумали про то, что я имел ввиду?
На 100 процентов, серьезно?)
Один пример!

Глупость человека, кстати - отличный носитель информации, из лучших.
Бесплатно вам даю, кто вам еще такое расскажет)
Разберите слово "информация" на составные части, яснее должно стать...

weter

Цитата:

Вот я сказал вам слово "лук". Вы про что подумали?

разве непонятен был мой предыдущий ответ, про что подумал, про то и написал )
а вы всегда думаете то, что пишите, или не думая пишите то, что, как вам кажется, оппонент пишет не думая о том, что подумали вы -? ))

Galaxpro писал(а):

weter

Цитата:

Вот я сказал вам слово "лук". Вы про что подумали?

разве непонятен был мой предыдущий ответ, про что подумал, про то и написал )
а вы всегда думаете то, что пишите, или не думая пишите то, что, как вам кажется, оппонент пишет не думая о том, что подумали вы -? ))

Это уже эмоции пошли, неплохо, но тут извините, не мое, уводите в сторону.
Вы же скорее всего знали, что не полезу я качать читать зип-архивы. К чему это?)
Я тоже хочу послать вас на огород, покушать мои помидоры, яблоки, прочее - но это далеко.
Поэтому как-то так, тут яблочки режу, салатик, предлагаю.

weter

Цитата:

Это уже эмоции пошли, неплохо, но тут извините, не мое.

да ладно вам, вы же изначально пошутили на предыдущей странице, вот я вам и ответил в шутливой форме, не забывайте, что 1 апреля уже наступило )

Galaxpro писал(а):

weter

Цитата:

Это уже эмоции пошли, неплохо, но тут извините, не мое.

да ладно вам, вы же изначально пошутили, вот я вам и ответил в шутливой форме, не забывайте, что 1 апреля уже наступило )

фух, ну бывает) шутить и шутки я оч люблю!
С праздником Дурака! :romashka:

Цитата:

Galaxpro писал(а):

weter

Цитата:

Главное, что этот единственный пример переворачивает все, что связано со скоростью "передачи информации"

если серьёзно, то ничего он не переворачивает, глупость это, я же привёл ссылку на статью, если интересно, то можете бесплатно скачать статьи в zip-архиве

welln

Цитата:

Ну для начала вы мне дали ссылку на научно-популярную статью и философские рассуждения базирующиеся на исследованиях еще аж с 1952 год

о чём вы вообще, какие ещё философские рассуждения, я вам дал ссылку на аннотацию к трём статьям, которые вы можете бесплатно скачать, в zip-архиве 3 файла в формате pdf на английском языке, статьи от 2024 и 2025 года, в начале статьи написано, что инфа от Центра интегративной нейровизуализации, что в Стэнфорде, универа Оксфорда и т.д. много участников исследования

Цитата:

Итого: 10⁹ бит/с (1 миллиард бит/с) сенсорных данных, которые поступают в мозг в секунду

я же написал, дополнив предыдущий пост, что это 1 Гбит/с, что всё равно меньше скорости обработки инфы в ИИ, конечно без учёта скорости передачи, то бишь нета, а вы её берёте в расчёт, к тому же, это скорость не когнитивных способностей мозга, в плане обработки, расчёта, принятия решений и т.п. а только совокупная скорость получения инфы мозгом от органов чувств;
касательно ИИ, так я же писал про обработку инфы офлайн, а поиск инфы в инете разумеется отнимет много времени у ИИ, но само выполнение вычислений и логических операций очень быстрое, нейронный процессор нехилый ведь

Еще раз. число 10–60 бит/с — это модельная, приближённая оценка, выведенная из поведенческих данных и теории информации. Фактически это скорость выдачи информации в интерфейс, которую оценили по косвенным данным, даже не углубляясь в физиологию мозга. Скорее всего можно признать, с большой натяжкой, что это скорость произвольного мышления.

А вот объём бессознательной обработки в человеческом мозге на порядки выше, как и плотность вычислений. Она выше, чем в любой существующей нейросети. Известные мне нейросети построены на модели один нейрон = одна вычислительная единица (логический элемент). Элемент получает сигналы → суммирует их → если порог превышен — выдаёт спайк. Однако в человеческом мозге, все в разы сложнее и дендриты каждого нейрона — не просто провода, а вычислительные структуры, способные локально обрабатывать информацию до того, как сигнал дойдёт до тела нейрона. Поэтому все эти теоретические измерения скоростей очень условны.

welln писал(а):

Возьмите любой существующий из популярных, чат GPT, Qwen2.5, Deepseek и попросите на любимом ими python написать самостоятельно без вашей помощи, простейшую читалку книг в формате FB2 (парсинг текста из тегов XML). Условия для читалки которые надо указать в промпт: Окно разделено на две части, в левой части окна выводится обложка, оглавление и название книги. В правой части окна текст. В читалке должен быть GUI, позволяющий менять шрифт, его размер, цвет, и цвет фона.

Для обычного программиста эта задача на 15-20 минут.

Ни GPT, ни Deepseek, ни Qwen2.5 с ней не справился, при подходе к 150-200 строкам когда, вся эта языковая модель выпадала в осадок начинала допускать ошибки и зачастую просто висла. (Вообще я подозреваю, при 150-200 строк это поход к приделу в токенах, и умственная деятельность резко сворачивается). Но тогда вопрос, а зачем нужен такой инструмент? И откуда такой щенячий восторг у программистов.

Взял. получилось на 600 строк без проблем.

https://grok.com/share/bGVnYWN5_ec169ccf-4696-4b9a-86d4-c824f51b4d65

Цитата:

Ни GPT, ни Deepseek, ни Qwen2.5

потому что на бесплатных тарифах у них ограничения на длину ответа. в платных ограничений нет.

у грока на бесплатном тарифе временно ограничений тоже нет, юзайте на здоровье.

welln

Цитата:

Q: 10 бит/с это ширина канала, по которому РЕЗУЛЬТАТ вычислений поступает в сознание. Сами вычисления выполняются в разы быстрее, поэтому говорить о том, что быстродействие мозга 10 бит/с неправильно.

понятное дело, что в мозгу миллиарды нейронов и максимальная, общая скорость получения инфы конечно же может быть выше, выяснили же, что может достигать 1 Гбит/с с органов чувств; но человеческий мозг не может осуществлять вычисления, арифметические и логические операции с такой же скоростью, в отличие от ИИ, у которого скорость вычислений нейронного процессора ещё и выше 1Gbps, вот я об этом, а вы снова о своём;
вы же ранее писали, что пропускная способность мозга 10...60 бит/с, но это же крайне низкая скорость, потом, вы сравниваете эту скорость с чатом ИИ в онлайн режиме, где полно тормозящих факторов; ведь и у вас, и у ИИ не нулевой пинг, и скорость не 1000Gbps для множества ваших и его соединений; есть же ИИ которые работают с данными в интернете, обучаются за счёт этого;
я же имел в виду скорость вычислений самого нейронного процессора, которая очень высокая, поскольку скорость передачи связей близка к скорости света, но в мозге таких скоростей нет, учёные выяснили, что скорость передачи импульсов между нейронами всего 120 м/с, тогда как скорость передачи между транзисторными ячейками процессора приближается к скорости света - 300000 км/с, вот я об этом же писал изначально )

ужас то какой...
ну не ужели не понятно, что ни какого "искусственного интеллекта" нет, никогда не было и никогда не будет.

Причина проста:ИИ ПРИНЦИПИАЛЬНО НЕ МОЖЕТ ГЕНЕРИРОВАТЬ НОВЫЕ ЗНАНИЯ.

ИИ сейчас -это ПО для генерации изображений и текстов на основе имеющейся информации.
Это очень нужно и полезно.
Я пытался с помощью ИИ решить простейшие задачи по своей специальности радиоэлектроника сверхвысоких частот.
Причём те задачи, которые уже давно решены.
Результат нулевой.

Ну не возбуждайтесь, граждане, вспомните шумиху о нанотехнологиях, графене, лазерах, рентгене, социализме, возвращении девственности и т.д.

Кстати о рентгене -изобретателю Рентгену предлагали денюжку за разработку аппарата, позволяющего видеть танцовщиц кордебалета без одежды
Это, как и в нашем случае, результат раздутия в СМИ информации о полезной и нужной вещи, но не волшебной, не решающей бесконечное число задач..

trunk_85 писал(а):

welln писал(а):

Возьмите любой существующий из популярных, чат GPT, Qwen2.5, Deepseek и попросите на любимом ими python написать самостоятельно без вашей помощи, простейшую читалку книг в формате FB2 (парсинг текста из тегов XML). Условия для читалки которые надо указать в промпт: Окно разделено на две части, в левой части окна выводится обложка, оглавление и название книги. В правой части окна текст. В читалке должен быть GUI, позволяющий менять шрифт, его размер, цвет, и цвет фона.

Для обычного программиста эта задача на 15-20 минут.

Ни GPT, ни Deepseek, ни Qwen2.5 с ней не справился, при подходе к 150-200 строкам когда, вся эта языковая модель выпадала в осадок начинала допускать ошибки и зачастую просто висла. (Вообще я подозреваю, при 150-200 строк это поход к приделу в токенах, и умственная деятельность резко сворачивается). Но тогда вопрос, а зачем нужен такой инструмент? И откуда такой щенячий восторг у программистов.

Взял. получилось на 600 строк без проблем.

https://grok.com/chat/2cdde933-5945-4827-9cb0-0c2b171259b1

Цитата:

Ни GPT, ни Deepseek, ни Qwen2.5

потому что на бесплатных тарифах у них ограничения на длину ответа. в платных ограничений нет.

у грока на бесплатном тарифе временно ограничений тоже нет, юзайте на здоровье.

Давно я в грок не заходил, ссылка сдохла уже, но написать он смог. GPT на 20$ не смог. Ушел мучать Grok спасибо за наводку.

welln писал(а):

Давно я в грок не заходил, ссылка сдохла уже, но написать он смог. GPT на 20$ не смог. Ушел мучать Grok спасибо за наводку.

вот рабочая ссылочка
https://grok.com/share/bGVnYWN5_ec169ccf-4696-4b9a-86d4-c824f51b4d65

Ты потом отпишись, как успехи с гроком, что интересного у тебя получится с него вытрясти?