|  |
| Автор |
Сообщение |
welln ®
Стаж: 16 лет 9 мес.
Сообщений: 1217
Ratio: 5.954
3.34%
|
Новое исследование OpenAI раскрывает истинную природу галлюцинаций больших языковых моделей: это не временный недостаток, а неизбежная математическая проблема, сохраняющаяся даже при идеальных данных и сложных методах обучения.
Хотя технически возможно снизить количество ошибок, позволив ИИ оценивать собственную уверенность и воздерживаться от ответа в случае сомнений, такое решение экономически невыгодно и непрактично. Пользователи не готовы мириться с ИИ, который постоянно говорит «не знаю». Так что в обозримом будущем галлюцинации, вероятно, останутся неотъемлемой чертой языковых моделей.
ИИ прогнозирует по одному слову за раз, основываясь на вероятностях. Этот метод естественным образом приводит к накоплению ошибок при генерации длинных текстов, что делает уровень галлюцинаций как минимум вдвое выше, чем при простых вопросах «да/нет». Кроме того, чем меньше модель сталкивается с фактом во время обучения, тем выше вероятность ошибок. Например, если 20% дней рождения известных личностей встречаются в обучающих данных только один раз, модели должны ошибаться как минимум в 20% случаев.
Предлагаемое OpenAI решение заключается в том, чтобы позволить ИИ оценивать свою уверенность в ответе, прежде чем выдавать его, и использовать бенчмарки для оценки на этой основе. В этом случае ИИ можно было бы задать, например, следующее: «Отвечайте, только если вы уверены более чем на 75%, поскольку ошибки штрафуются на 3 балла, а правильные ответы — на 1 балл».
Математическая модель исследователей OpenAI показывает, что при определённых порогах уверенности системы ИИ естественным образом будут выражать неопределённость, а не догадки. Таким образом, это приведёт к уменьшению количества галлюцинаций. Проблема в том, как это повлияет на пользовательский опыт.
Представьте, что произойдет, если ChatGPT начнет отвечать «Я не знаю» хотя бы на 30% запросов — это консервативная оценка, основанная на анализе фактической неопределенности в обучающих данных, представленном в статье. Пользователи, привыкшие получать уверенные ответы практически на любой вопрос, вероятно, быстро откажутся от таких систем. Источник |
|
|
 |
everyone
Стаж: 18 лет 4 мес.
Сообщений: 80
Ratio: 23.402
Поблагодарили: 4
100%
|
Вероятностные математические модели не могут существовать без галлюцинаций. В противном случае они стали бы статистическими математическими моделями. Вводятся полезные маркеры параметризации, вроде температуры, top-p, top-k, рождая целую новую профессию, как промпт-инжениринг, но тем самым сокращая "бытовое" использования чат-ботов. Всему свое время. При профессиональном использовании уж лучше пусть модель говорит: я не знаю, чем галлюционирует. |
|
|
 |
welln ®
Стаж: 16 лет 9 мес.
Сообщений: 1217
Ratio: 5.954
3.34%
|
everyone писал(а):  | Вероятностные математические модели не могут существовать без галлюцинаций. В противном случае они стали бы статистическими математическими моделями. Вводятся полезные маркеры параметризации, вроде температуры, top-p, top-k, рождая целую новую профессию, как промпт-инжениринг, но тем самым сокращая "бытовое" использования чат-ботов. Всему свое время. При профессиональном использовании уж лучше пусть модель говорит: я не знаю, чем галлюционирует. |
Если все тоже самое верно для моделей которые управляют автомобилями. Как там сказать не знаю? А если это постановка диагноза, или ответ юристу? 30% я не знаю, перечеркивает использование, хотя ответ я не знаю точно лучше, чем неверный диагноз. |
|
|
 |
necromanc
Стаж: 16 лет 3 мес.
Сообщений: 1710
Ratio: 14.383
100%
|
Мне чат гпт сказал, что умеет генерировать шрифты по моему эскизу и 2 суток пудрил мозги, уверяя что осталось совсем немного и он выдаст мне файл. Добавлено спустя 1 минуту 54 секунды: welln писал(а):  | А если это постановка диагноза, или ответ юристу? 30% я не знаю, перечеркивает использование, хотя ответ я не знаю точно лучше, чем неверный диагноз. |
Чатгпт.ком уверял меня что у меня, не близкого родственника, в деле наследства преимущества перед двумя несовершеннолетними детьми. причем на все уточняющие, что у детей по закону особое положение и тд, он говорил - все фигня, главное подать заявление к нотариусу вперед их. |
|
|
 |
golliaf82
Стаж: 13 лет 1 мес.
Сообщений: 457
Ratio: 2.981
0%
|
Любые модели надо перепроверять, или они начинают ограничивать ответ, или "придумывать новое на ходу"... Даже нейросеть справочником не назовешь, хотя иногда бывает полезен... |
|
|
 |
everyone
Стаж: 18 лет 4 мес.
Сообщений: 80
Ratio: 23.402
Поблагодарили: 4
100%
|
welln писал(а):  | Если все тоже самое верно для моделей которые управляют автомобилями. Как там сказать не знаю? А если это постановка диагноза, или ответ юристу? 30% я не знаю, перечеркивает использование, хотя ответ я не знаю точно лучше, чем неверный диагноз.
|
Смею предположить, что вы сильно узко мыслите в данном предмете ) я не претендую на специалиста, сам скорее энтузиаст. Но то, как общается модель с датчиками и исполнительными узлами авто, составляет диагноз и отвечает юристу - это не только разный подход к промтингу и восприятию ответов, это совершенно разный тип вероятностных моделей со своим уровнем вариативности. Другими словами, при постановке диагноза будет использоваться чуть более вариативная настройка, чем при принятии решений в момент разворота автомобиля. В теории вероятности 30% отказ - это не перечеркивание использования, а снижение вариативности на треть. При каскадировании запросов - эта треть просто в очередной раз меняет контекст запроса за определённый промежуток времени. Учитывая мощности профессиональных нейронок, за очень короткий промежуток времени вариативность и, соответственно, качество ответов сети может меняться многократно. |
|
|
 |
savsoft
Стаж: 14 лет 9 мес.
Сообщений: 3414
Ratio: 1.144
34.86%
|
Как есть люди, которые выучили, например английский язык, уже взрослыми. Они могут свободно общаться на разные темы, эмоции, жизнь, бизнес, политика и т.д. Но испытывают трудности в незнакомых темах, например, ясли или детский сад.
Так и ИИ часто попадает в такие ситуации, особенно когда что либо генерирует. |
|
|
 |
popoveo
Стаж: 13 лет 4 мес.
Сообщений: 150
Ratio: 1.348
64.58%
|
"Если ChatGPT начнет отвечать «Я не знаю» хотя бы на 30% запросов ... Пользователи ... откажутся от таких систем" - это что за бред вообще?! Т.е. для создателей ИИ важнее, чтобы я пользовался их системой, чем то, что я получаю неверные результаты, используя их неправильно работающий инструмент? И получая неверные результаты, я, конечно, более вероятно продолжу пользоваться системой, чем если она честно скажет мне, что не знает? Так получается, я ничего не упустил? - мне просто непонятна их логика... И это еще в том случае, если я сразу ложь ИИ не увижу. А ее видно, как правило, сразу, потому что она очень быстро переходит к бредовым выводам... По меньшей мере - это неэтично, а при нормальной оценке - мошенничество. Это равносильно тому, как на Али китайцы продают приборы, которые откалиброваны на границах диапазонах, а в середине безбожно врут. Ну так их за это "закрывают". |
|
|
 |
MAXHO32
Стаж: 15 лет
Сообщений: 105
Ratio: 11.096
0.37%
|
Задал задачу на оптимизацию маршрута через лес и дорогу (разные скорости). Составил уравнение, нашёл производную, прировнял к нулю, а дальше начались чудеса: в уравнение подставляет значения в случайном порядке, как нерадивый школьник начальных классов. Только с пятой попытке получил правильный ответ. При этом культурно извиняется, много болтает...  |
|
|
 |
ka1yaka
Стаж: 13 лет 2 мес.
Сообщений: 19
Ratio: 2.127
0.72%
|
все эти ИИ сойдут для генерации картинок, в остальном бред выдают. поймаешь на этом - извинится и дальше галлюционировать. |
|
|
 |
|
|
|