Технология Google повышает разрешение изображений до 16 раз без потери качества

В июле исследователи Google из команды Brain Team поделились своими достижениями в области масштабирования изображений. Результаты своих исследований они опубликовали в блоге Google AI, посвящённом исследованиям и разработкам в области машинного обучения и искусственного интеллекта.

В статье под названием «Создание высокоточных изображений с использованием диффузионных моделей» (High Fidelity Image Generation Using Diffusion Models) продемонстрирована технология масштабирования изображений на базе диффузионных моделей

Говоря простыми словами, Image Super-Resolution — это технология «умного» увеличения изображений. Она заключается в обучении модели превращать изображение с низким разрешением в изображение с высоким разрешением (технология RAISR была описана в блоге Google AI в 2016 году).

Если быть точным, в свежей публикации описан подход, основанный на комбинации двух алгоритмов — SR3 и CDM. Он позволяет создавать изображения высокого разрешения без заметной потери качества.

SR3 - Super-Resolution via Repeated Refinements - масштабирование через повторное уточнение.

CDM - Cascaded Diffusion Models - каскадные диффузионные модели.

Super-Resolution via Repeated Refinements

SR3 принимает на вход изображение в низком разрешении и пытается построить изображение с более высоким разрешением, добавляя в него гауссовский шум и размытие на каждом повторе. Итоговое изображение по сути содержит чистый шум. Затем идёт обратный процесс - модель постепенно удаляет шум для достижения нужного результата.

Обученная на огромном массиве данных, модель SR3 показывает хорошие результаты в задачах масштабирования в 4-8 раз изображений лиц и изображений объектов живой природы: 64x64 → 256x256 (в 4 раза) и 256x256 → 1024x1024 (в 4 раза). Объединив модели в каскад, можно масштабировать изображения до 16 раз: 64x64 → 1024x1024.

Как оценить качество работы SR3? Результаты работы модели сравнивают с результатами работы других моделей. Участвующих в эксперименте людей просят выбрать изображение, которое, по их мнению, сделано на фотокамеру (так ставится вопрос).

Участники выбирают между изображением, которое создала модель, и оригинальным изображением с камеры.

Результаты масштабирования трёх алгоритмов (Bicubic, Regression, SR3): сверху — изображения с лицом (64x64 → 512x512), снизу — изображения животного (64x64 → 256x256). Оригинальное изображение в правом столбце.

Эффективность модели измеряется с помощью коэффициента путаницы (confusion rate): какой процент времени участники эксперимента выбирают результат работы модели, а не эталонное изображения (а идеальный алгоритм как раз и даёт "50-процентный коэффициент путаницы").

Результаты этого исследования показаны на графике. Сверху: коэффициент путаницы в задаче с изображениями лиц (16x16 → 128x128). Снизу: коэффициент путаницы в гораздо более сложной задаче — с изображениями объектов живой природы (64x64 → 256x256)

Cascaded Diffusion Models

CDM обучена на огромном количестве изображений из базы ImageNet, которые представляют собой достаточно сложный набор данных. Именно по этой причине CDM построена как каскад нескольких моделей.

Каскадный подход представляет собой цепочку нескольких генеративных моделей, каждая из которых создаёт изображение с разным разрешением: одна диффузионная модель генерирует изображение с низким разрешением, которое обрабатывает SR3, постепенно повышая разрешение до максимально доступного. (GIF)

О реальном внедрении или коммерческом применении информации пока что нет.

Источник

Невозможно увеличить изображение без потери качества. Где взять детали, которых нет на снимке? Нигде. Это будет просто дорисовка, а она, как ни крути, не будет на все сто соответствовать оригиналу. Фраза "Я - художник, я так вижу" будет и для нейросетей актуальна.

Vitek9614 писал(а):

Невозможно увеличить изображение без потери качества. Где взять детали, которых нет на снимке? Нигде. Это будет просто дорисовка, а она, как ни крути, не будет на все сто соответствовать оригиналу. Фраза "Я - художник, я так вижу" будет и для нейросетей актуальна.

Так об том и речь, где в статье оригинал до сжатия? Как мы можем убедиться что потерь нет?))

Теперь надо эту технологию прикрутить к нейроинтерфейсу, чтобы даже самые смутные воспоминания и неясные образы, возникающие в сознании, мгновенно отображались в разрешении 4K. Тогда можно будет записывать сновидения для последующего просмотра и анализа, например.

Vitek9614 писал(а):

Нигде

видимо можно брать ингредиенты из подобных случаев - элементы.
как это называется в науке - вылетело из головы да и мы в расчетах этим занимались когда полуэмпирика

DmitryXS писал(а):

Vitek9614 писал(а):

Невозможно увеличить изображение без потери качества. Где взять детали, которых нет на снимке? Нигде. Это будет просто дорисовка, а она, как ни крути, не будет на все сто соответствовать оригиналу. Фраза "Я - художник, я так вижу" будет и для нейросетей актуальна.

Так об том и речь, где в статье оригинал до сжатия? Как мы можем убедиться что потерь нет?))

Просмотр доступен только для зарегистрированных пользователей

А что кто-то сказал, что увеличенные изображения такие же как оригиналы?

DmitryXS писал(а):

А как вообще можно потерять качество при увеличении разрешения? Даже если ничего не делать оно останется прежним))

Если небольшое изображение потянуть, особенно не картно, то результат будет не айс

Vitek9614 писал(а):

Невозможно увеличить изображение без потери качества. Где взять детали, которых нет на снимке? Нигде. Это будет просто дорисовка, а она, как ни крути, не будет на все сто соответствовать оригиналу.

Сразу вспомнился фильм "Бегущий по лезвию" 1982 года,
https://nnmclub.to/forum/viewtopic.php?t=1437470
когда Харрисон Форд из фотографии детали вытягивал на чудо-ящике...

DmitryXS писал(а):

А как вообще можно потерять качество при увеличении разрешения? Даже если ничего не делать оно останется прежним))

Странный вопрос. Например квадрат 100 х 100 пикселей. Увеличив например до 1000 х 1000 пикселей. Чем предлагаете заполнять добавленные пиксели?

tihonov1109 писал(а):

Чем предлагаете заполнять добавленные пиксели?

эмпирически подходящими вставками
или "домысливанием" их
именно в этом и смысл ИИ

или я чего-то не понимаю

Михаил писал(а):

tihonov1109 писал(а):

Чем предлагаете заполнять добавленные пиксели?

эмпирически подходящими вставками

Что по факту ухудшает качество. Пока научились только векторные изображения увеличивать без потери качества.

tihonov1109 писал(а):

ухудшает качество.

ну Вам виднее.

а я никогда не заморачивался по части редактирования.
я всегда любил а ля нарюрлих.

да и с музыкальными сэмплами так же.

любое редактирование замыливало изображение как байеровские фильтры по сути.

мне кажется что эта технология быть может хороша только для криминалистики, хотя если будет криво редактировать то получится только тень на плетень

ну и в художественной реставрации произведений искусства.

а для быта нашего - накой это надо?

Михаил писал(а):

эмпирически подходящими вставками

Не там подходящих вставок, будет создавать новые промежуточные пиксели, как переход между имевшимися, аппроксимация. Качество это не добавит, будет размытая картинка, потерянные детали восстановить невозможно. Это как из МП3 128 делать ФЛАК

Max_Alekseyev писал(а):

потерянные детали восстановить невозможно.

ну значит грош цена всему этому балагану

Михаил писал(а):

ну значит грош цена всему этому балагану

Алгоритм не восстанивливает потерянное, имитирует. Там лица, это сложная картинка, может чего-то и может симитировать

по идее, если знать каким образом получено изображение (грубо говоря цифровое фото с определенного фотоаппарата) можно определить преобразование из исходного изображения в готовое. Затем генерируем картинки и после преобразования сравниваем с нашей, если совпало, значит мы нашли исходное непреобразованное изображение. Вопрос только как сгенерировать картинки - Гугл пытается это сделать. Хотя должное получиться множество картинок, которые при преобразовании будут давать одно и тоже изображение