Технология Google повышает разрешение изображений до 16 раз без потери качества

В июле исследователи Google из команды Brain Team поделились своими достижениями в области масштабирования изображений. Результаты своих исследований они опубликовали в блоге Google AI, посвящённом исследованиям и разработкам в области машинного обучения и искусственного интеллекта.

В статье под названием «Создание высокоточных изображений с использованием диффузионных моделей» (High Fidelity Image Generation Using Diffusion Models) продемонстрирована технология масштабирования изображений на базе диффузионных моделей

Говоря простыми словами, Image Super-Resolution — это технология «умного» увеличения изображений. Она заключается в обучении модели превращать изображение с низким разрешением в изображение с высоким разрешением (технология RAISR была описана в блоге Google AI в 2016 году).

Если быть точным, в свежей публикации описан подход, основанный на комбинации двух алгоритмов — SR3 и CDM. Он позволяет создавать изображения высокого разрешения без заметной потери качества.

SR3 - Super-Resolution via Repeated Refinements - масштабирование через повторное уточнение.

CDM - Cascaded Diffusion Models - каскадные диффузионные модели.

Super-Resolution via Repeated Refinements

SR3 принимает на вход изображение в низком разрешении и пытается построить изображение с более высоким разрешением, добавляя в него гауссовский шум и размытие на каждом повторе. Итоговое изображение по сути содержит чистый шум. Затем идёт обратный процесс - модель постепенно удаляет шум для достижения нужного результата.

Обученная на огромном массиве данных, модель SR3 показывает хорошие результаты в задачах масштабирования в 4-8 раз изображений лиц и изображений объектов живой природы: 64x64 → 256x256 (в 4 раза) и 256x256 → 1024x1024 (в 4 раза). Объединив модели в каскад, можно масштабировать изображения до 16 раз: 64x64 → 1024x1024.

Как оценить качество работы SR3? Результаты работы модели сравнивают с результатами работы других моделей. Участвующих в эксперименте людей просят выбрать изображение, которое, по их мнению, сделано на фотокамеру (так ставится вопрос).

Участники выбирают между изображением, которое создала модель, и оригинальным изображением с камеры.

Результаты масштабирования трёх алгоритмов (Bicubic, Regression, SR3): сверху — изображения с лицом (64x64 → 512x512), снизу — изображения животного (64x64 → 256x256). Оригинальное изображение в правом столбце.

Эффективность модели измеряется с помощью коэффициента путаницы (confusion rate): какой процент времени участники эксперимента выбирают результат работы модели, а не эталонное изображения (а идеальный алгоритм как раз и даёт "50-процентный коэффициент путаницы").

Результаты этого исследования показаны на графике. Сверху: коэффициент путаницы в задаче с изображениями лиц (16x16 → 128x128). Снизу: коэффициент путаницы в гораздо более сложной задаче — с изображениями объектов живой природы (64x64 → 256x256)

Cascaded Diffusion Models

CDM обучена на огромном количестве изображений из базы ImageNet, которые представляют собой достаточно сложный набор данных. Именно по этой причине CDM построена как каскад нескольких моделей.

Каскадный подход представляет собой цепочку нескольких генеративных моделей, каждая из которых создаёт изображение с разным разрешением: одна диффузионная модель генерирует изображение с низким разрешением, которое обрабатывает SR3, постепенно повышая разрешение до максимально доступного. (GIF)

О реальном внедрении или коммерческом применении информации пока что нет.

Источник

Самое главное написано в последней строчке.

На деле большую часть выполняет исходные данные такие как: освещение и графичность изображения. Нейроинтерфейс - это не ИИ это мощный алгоритм который работает с тем, что может распознать - да так, как это было введено ранее.

Посмотрите на референсы в видео в статье. Графичность фото поражает. Лицо на первом фото яркое пятно (использован эффект световой ловушки) + темный фон. На втором фото лицо девушки так же является световой ловушку и нейтральный темный фон огромный плюс. А так же то, что её лицо проработано в широком световом спектре от теней до самых светлых участков. Третье фото черные контуры чувака так же хорошо угадываются и это все работает отлично. Ну а последнее - темнокожая девушка - так там весь фокус в том, что у нее лицо проработано/снято, как и у девушки (фото 2) с полным световым диапазоном - а следовательно имеет объем! для темнокожих это важно иначе сливаются...

Итого - Обычные фото с телефона и с плохим цветом и светом - этот алгоритм будет увеличивать с большими артефактами))) Но попытка хорошая)))

Да ну бред какой-то, к примеру на фото девушки, в угалках глаз с одной стороны есть светлый пиксель, с другой нет, а тут раз и восстановилась нормальное фото, откуда данные для восстановления??? 100% фейк

Цитата:

Как оценить качество работы SR3? Результаты работы модели сравнивают с результатами работы других моделей. Участвующих в эксперименте людей просят выбрать изображение, которое, по их мнению, сделано на фотокамеру (так ставится вопрос).

Участники выбирают между изображением, которое создала модель, и оригинальным изображением с камеры

А почему не сделать две фотки в сильно разном разрешении. А потом фотку с малым разрешением не улучшить и сравнить с фоткой в высоком разрешении?

А не спрашивать участников эксперимента? Или будет видно сильное отличие от реальной фотки?

LookeRok писал(а):

По морде ягура уже видно, что пока не определит, что это ягуар - ничего внятного ждать не приходится.

А так, конечно, интересный результат.

Прям напомнило.... У знакомого Jaguar X-Type, и вроде внешне все чудесно, но есть одно "но"... он двухлитровый и дизельный. Как-то не вписывается в образ Jaguar. А когда-то ягуары были быстрыми. Прошу прощения за оффтоп.

Напомнило

Цитата:

Логично будет начать серию с образцового представителя избитых клише – повышения детализации изображения. Каждый раз, когда герои пытаются получить какую-либо важную информацию, просматривая записи с камер наблюдения, повторяется одна и та же схема. Перемотай, останови, увеличь вот этот фрагмент, повысь детализацию… Эврика!

старенький материал по этой теме Утомившие киноштампы: zoom and enhance! и немного более свежий материал Увеличь это! Современное увеличение разрешения

Не о том думаете.

Явно суетятся для программы распознания лиц по камерам, людей на дальнем фоне, а не фото дедушек :смех:

улучшать стремятся. Как некоторые тут фантазируют.
И ещё тут эта технология пригодится https://www.youtube.com/watch?v=qF5-UDt7N64
И будет по барабану, какой там алгоритм используется в изображении, как тут некоторые пишут, когда в голове :стрельба:

...

Наш мир был ни чем, а стал всем.
Интересно поработать с "Чёрным квадратом" Малевича.

А мы все смеялись как спецслужбы в фильмах восстанавливают автомобильные номера и лица по одному пикселю.

Iskatel_anime писал(а):

Явно суетятся для программы распознания лиц по камерам, людей на дальнем фоне, а не фото дедушек

Как всегда "всё пропало, цифровое рабство, нам всем капец, Ж. близко". Зачем им делать одно, а говорить о другом, когда можно делать оба дела сразу и у них на это хватит и сил и ресурсов? Это просто не имеет смысла, а то, что могут использовать смежные технлогии и подходы, так то и коню понятно. В общем, яновидящий пророк, открывающий глаза на истину из вас слабенький, т.к. тайна сия лежит на поверхности и очевидна

Делаем мозайку в фш любого изображения "после". Сравниваем с "до". Видим, что это скорее всего фейк.

Пользуюсь Topaz A.I. Gigapixel - и больше ничего не нужно!

Topaz Gigapixel AI 5.6.1 RePack by KpoJIuK [En]

san0429 писал(а):

Наш мир был ни чем, а стал всем.
Интересно поработать с "Чёрным квадратом" Малевича.

А вы, батенька, затейник! Тоже там голую бабу подозреваете?

Добавлено спустя 20 минут 59 секунд:

hithold писал(а):

Ignotus писал(а):

Очень полезная технология.
есть куча старых снимков низкого качества, а тутможно запросто все исправить!
Молодцы.

Итоговая фотография будет грубо говоря "выдумкой" нейросети. В примере со старой фотографией, скажем вашего дедушки, получится просто какое-то аморфное лицо собранное из миллиона лиц в базе нейросети.

Вот и мне так сразу подумалось. Все описанные достижения имеют такое "высокое" качество увеличения разрешения образа только потому, что систему тренировали на огромнейшем количестве образов. Тренировали до тех пор, пока не увеличили вероятность того, что система "угадает", что именно нужно вставить в любой новый пиксель, от (условно) 50% до 70%, потом до 80%, потом до 90%, и т.д..

Грубо говоря, чем больше размер массива образцов фотографий (к примеру) человеческих лиц, на которых была натренирована система, тем более вероятно, что система вставит в лицо, которое на первоначальной фотографии с низким разрешением является просто размытым светлым пятном, два глаза, а не один. Что в 99.99......% будет верным угадыванием (т.к. статистика!) - но в конечном итоге одноглазый человек на фотографии получит два глаза.

Интересно, конечно, и очень круто, но из ничего восстановить старое/высосать что-то новое никак нельзя. Помню, как в 90х в универе только начинали с lossy image compression баловаться, мне этот постулат навсегда запомнился - once the pixels are gone, they're gone forever.