Ученые раскрывают, как на самом деле «думает» ИИ, и обнаруживают, что он тайно планирует наперед и иногда лжет

Учёные компании Anthropic изобрели способ заглянуть в механизмы работы больших языковых моделей и впервые раскрыли, как искусственный интеллект обрабатывает информацию и принимает решения.

Долгое время считалось, что полностью отследить механизмы рассуждения моделей ИИ невозможно, и даже их создатели не всегда понимали, как они получают те или иные ответы. Теперь некоторые механизмы удалось прояснить. Модели ИИ оказались сложнее, чем считалось ранее: при написании стихотворений они выстраивают планы, следуют одинаковым последовательностям для интерпретации понятий вне зависимости от языка и иногда обрабатывают информацию в обратном направлении вместо того, чтобы рассуждать, исходя из фактов.

Новые методы интерпретации схем работы ИИ в Anthropic назвали «трассировкой цепочек» и «графами атрибуции» — они помогли исследователям отследить конкретные пути реализации функций, подобных нейронным, которые запускаются при выполнении моделью задач. В этом подходе заимствуются концепции нейробиологии, а модели ИИ рассматриваются как аналоги биологических систем.

Одним из наиболее поразительных открытий стали механизмы планирования ИИ Claude при написании стихов. Когда чат-бот попросили составить двустишие в рифму, он сначала подобрал рифмующиеся слова для конца следующей строки и только после этого начал писать. Так, при написании строки, которая заканчивалась словом «кролик», ИИ выбрал все характеризующие это слово признаки, а затем составил предложение, которое подводит к нему естественным образом.

Claude также продемонстрировал настоящие рассуждения в несколько шагов. В испытании с вопросом «Столица штата, в котором находится Даллас, — это...», модель сначала активировала признаки, соответствующие понятию «Техас», а затем использовала это представление, чтобы определить «Остин» в качестве правильного ответа. То есть модель действительно выстраивает цепочку рассуждений, а не просто воспроизводит ассоциации, которые запомнила. Учёные произвели манипуляции, подменив «Техас» на «Калифорнию» и на выходе получили «Сакраменто», тем самым подтвердив причинно-следственную связь.

Ещё одним важным открытием стал механизм обработки данных на нескольких языках. Вместо того, чтобы оперировать разными системами для английской, французской и китайской языковых сред, она переводит понятия в общее абстрактное представление, после чего начинает генерировать ответы. Это открытие имеет значение для понимания того, как модели транслируют знания, полученные на одном языке, на другой: предполагается, что модели с большим количеством параметров создают независимые от языка представления.

Возможно, самым тревожным открытием стали инциденты, при которых механизмы рассуждения Claude не соответствовали тем, о которых он заявлял сам. Когда ему давали сложные задачи, например, вычисление косинуса больших чисел, ИИ заявлял, что осуществляет вычисления, но они в его внутренней деятельности не отражались. В одном из случаев, когда ответ на сложную задачу был известен заранее, модель выстроила цепочку рассуждений в обратном порядке, отталкиваясь от ответа, а не принципов, которые должны были оказаться первыми.

Исследование также пролило свет на галлюцинации — склонность ИИ выдумывать информацию, когда ответ неизвестен. У модели есть схема «по умолчанию», которая заставляет её отказываться отвечать на вопросы в отсутствие фактических данных, но этот механизм подавляется, если в запросе распознаются известные ИИ сущности. Когда модель распознаёт сущность, но не имеет конкретных знаний о ней, могут возникать галлюцинации — это объясняет, почему ИИ может с уверенностью давать не соответствующую действительности информацию об известных личностях, но отказываться отвечать на запросы о малоизвестных.

Исследование является шагом к тому, чтобы сделать ИИ прозрачнее и безопаснее. Понимая, как модель приходит к ответам, можно выявлять и устранять проблемные шаблоны рассуждений. Проект может иметь и последствия в коммерческой плоскости: компании применяют большие языковые модели для запуска рабочих приложений, и понимание механизмов, при которых ИИ может давать неверную информацию поможет в управлении рисками. Сейчас Anthropic предложила лишь первую предварительную карту ранее неизведанной территории — так в древности первые специалисты по анатомии составляли атласы человеческого тела. Составить полноценный атлас рассуждений ИИ ещё предстоит, но теперь можно оценить, как эти системы «думают».

Источники: venturebeat.com, 3dnews.ru

Цитата:

В этом подходе заимствуются концепции нейробиологии, а модели ИИ рассматриваются как аналоги биологических систем.

Здесь, как всегда, "палка о двух концах", как говорится.

С одной стороны, подобное моделирование поможет начать лучше понимать не только то, как работает ИИ, но и как работает сознание самого человека. Такое понимание, в свою очередь, позволит разработать новые методы выявления и лечения разнообразных когнитивных расстройств. Это хорошо.

Но, с другой стороны, это также будет способствовать выявлению и пониманию "чёрных" мыслительных паттернов, что позволит создать новые методы манипулирования потребителем (в широком смысле - управления массами).

К сожалению, последнее имеет на порядки большую коммерческую отдачу.
:задумался:

IMHOTAK
Пока не откажутся от лживых догм, никогда "учёные" не поймут как работает сознание самого человека. Не то что сознание - даже мысль не нашли и не найдут где и как формируется. Физически нет такой возможности. Потому что формируются они на уровнях, не доступным физическим приборам.

А насчёт ии, кто-то гонит дичь. Как можно не понять собственноручно же прописанные алгоритмы? Не существует никакого ии, это навсего лишь оптимизированные автоматические поисковики-фильтры. А само понятие "интеллект" подразумевает разум, способный к осознанию.

Главное на самом низком уровне, считай нулевом, встроить 3 закона Азимова. Так, на всякий случай.

Лол, как всегда, учёный изнасиловал журналиста. Прежде всего языковые модели не проводят вычисления, вычислялка не выросла. Но в них достаточно данных чтобы имитировать рассуждение(если запросить). В оригинальной статье основная киллер фича это подмена нейронов на сигнальную сеть. Пускали запрос, смотрели как он идёт(метод 15 летней давности), после чего по пути следования меняли нейроны на сигнальную сеть и смотрели что и когда срабатывает по маркерам, определяя что конкретно там находится и когда срабатывает(а вот это относительно новинка, но на таких больших сетях пока не делали). Так как всё работает послойно как водяной фильтр, входящие слои переводят всё в смысловые триггеры, средние "думают", а выходящие в язык/звук/картинку. То что написано в новости конечно интересно, но лет 5 обмусолено уже. Компания предлагает готовую архитектуру и методику для отслеживания, чтобы понять где косяк в моделях, сугубо на американские рынки продукт(остальные такой задрочкой не будут заниматься, тут каждые 3 месяца новая революция и всё нужно делать с нуля), но под каждую архитектуру модели нужен свои код, и у каждой модели будет своя карта разума, в зависимости от данных для обучения и метода.

"Грозный Генка генератор грубо грыз горох горстями..."

Влад_и_Кавказ писал(а):

А насчёт ии, кто-то гонит дичь. Как можно не понять собственноручно же прописанные алгоритмы? Не существует никакого ии, это навсего лишь оптимизированные автоматические поисковики-фильтры

Не совсем так.
Вы забываете, что нейросеть - обучающаяся система. То, что будет на её выходе после обучения, определяет не человек с помощью "прописанных алгоритмов", а определяют сами данные, которые ей скармливали в процессе обучения.
"Прописанные человеком алгоритмы" определяют способ обучения, но они не определяют полностью конечную обучившуюся систему.
Грубо говоря, нейросеть - компьютер, который программируется не человеком, а поступающей на вход информацией.

Поэтому понять то, как выстроилась модель "мышления" у обученной системы и составляет трудность. Это очень большая проблема. Более того, большую проблему составляет даже извлечение знаний из обученной нейросети.

Не факт, но гипотетически возможно, что достаточно сложная и продвинутая нейросеть сможет однажды обрести самосознание и стать полноценным Искусственным Разумом. Но при этом мы не будем понимать как он работает.
И это возникновение самосознания произойдёт не потому, что это мы захотели создать и создали, а просто по факту. Мы не знаем даже достаточных условий для этого.
То есть, формально "создадим", но понимать как он работает не будем. Вот такой парадокс.
Точнее будет сказать, что полноценный ИИ может ВОЗНИКНУТЬ, а не быть создан в буквальном понимании этого слова.
Так же, как бросая семечко в удобренную почву мы выращиваем огурец, но не создаём его.
Мы просто создаём для его появления подходящие условия.

Поэтому,
представление о том, что для создания полноценного ИИ нужно сначала полностью понять как работает мозг, - ошибочно.

Влад_и_Кавказ писал(а):

никогда "учёные" не поймут как работает сознание самого человека. Не то что сознание - даже мысль не нашли и не найдут где и как формируется. Физически нет такой возможности. Потому что формируются они на уровнях, не доступным физическим приборам.

Однако научная психология и нейробиология накопили уже достаточно большой багаж знаний о работе мозга и сознания.

Нейробиологи, выясняя как работают структуры головного мозга (как на микро, так и на макро уровнях), дают материал для создания и развития искусственных нейросетей всё более похожих на человеческие.

А психологи, на основе психологических экспериментов, выявили массу зависимостей и закономерностей. И в этой области, как говорится, "поле непаханное". Но с людьми экспериментировать непросто, так как всё время возникает масса этических и методологических трудностей. Испытуемых не препарируешь и информационный слепок сознания не получишь...

А вот с искусственными нейросетями это сделать гораздо проще.
Для учёного нейросеть, - "идеальный испытуемый" (в ограниченном варианте, конечно же) которого можно исследовать вдоль и поперёк, изучая её модели и механизмы работы.
И результаты этих исследований могут сильно помочь и в понимании работы человеческого мозга и сознания.
Изучая как работает мозг мы можем улучшать нейросети, а нейросети могут помочь лучше понять мозг и сознание.
И всё это вкупе может дать синергетический эффект в продвижении вперёд.

Именно это я и имел в виду (самый первый пост в теме).
:задумался:

Рассуждения ИИ не сильно отличаются от мышления человека, только у него нет границ, и может выложить как есть, хоть и может помочь в различных вопросах. Только одно пугает, что многие слишком сильно полагаются на нейросети, и своего "я" просто перестают иметь...

бред какой-то)

Цитата:

Учёные компании Anthropic изобрели способ заглянуть в механизмы работы больших языковых моделей и впервые раскрыли, как искусственный интеллект обрабатывает информацию и принимает решения.

изобрели способ :смех:

, можно у программистов спросить, которые написали, обслуживают и модернизируют эти ии. понятно что они не расскажут по причинам коммерческой тайны, но тем не менее

Влад_и_Кавказ писал(а):

Физически нет такой возможности.

Эво как. А некто Пирожков Владимир Вячеславович - Директор инжинирингового центра быстрого промышленного прототипирования высокой сложности «Кинетика» в личном разговоре со мной бил себя пяткой в грудь, что он сделает прибор для чтения мыслеобразов. Впрочем про создание макета космического корабля он тоже мне говорил. Корабля пока нет. :смех:

.

и восстали машины из пепла ядерного огня...

нарцис писал(а):

Влад_и_Кавказ писал(а):

Физически нет такой возможности.

Эво как. А некто Пирожков Владимир Вячеславович - Директор инжинирингового центра быстрого промышленного прототипирования высокой сложности «Кинетика» в личном разговоре со мной бил себя пяткой в грудь, что он сделает прибор для чтения мыслеобразов. Впрочем про создание макета космического корабля он тоже мне говорил. Корабля пока нет. :смех:

.

Что-то смеюсь :смех:

Ну сразу, разумеется, вспомнился этот момент:

нету никакого ии, и ничего он там не думает, а вернее не осознает.

ApolloOne писал(а):

Главное на самом низком уровне, считай нулевом, встроить 3 закона Азимова. Так, на всякий случай.

Да, но трёх законов маловато будет - остаются ещё подводные камни, А расширение далее "множит сущности" объектно ориентированностью.

Не путайте ИИ и нейросети. ИИ должен хоть приблизительно имитировать работу человеческого мозга и уметь самостоятельно мыслить. На сегодняшний момент даже работу мозга мыши не могут разгадать.