Google рассказали о новом методе масштабирования изображений
Благодаря CSI, а также множеству других криминальных драм фраза "Enhance" обрела самостоятельную жизнь как насмешливый способ попытаться в цифровом виде извлечь дополнительную информацию из изображений с низким разрешением, которая просто не соответствует действительности. В новом сообщении в Google AI Blog демонстрируется новая технология, разработанная для повышения качества изображений с низким разрешением с невероятными результатами.
В сообщении блога, озаглавленном "Генерация высокоточного изображения с использованием моделей диффузии", объясняется, как исследователи Google разработали пару технологий искусственного интеллекта, которые могут получать изображения с низким разрешением и постоянно увеличивать разрешение за счет выборочного разрушения и реконструкции исходного входного изображения.
Первым компонентом процесса является сверхразрешение посредством повторных уточнений (SR3), "диффузионная модель сверхвысокого разрешения, которая принимает в качестве входных данных изображение с низким разрешением и строит соответствующее изображение с высоким разрешением из чистого шума". По сути, Эта модель применяет чистый гауссовский шум к изображению с низким разрешением перед использованием технологий шумоподавления для эффективного восстановления почти бесшумного изображения, которое в четыре раза превышает разрешение входного.
Затем исследователи используют модели каскадной диффузии (CDM), чтобы разумно применить гауссовский шум и размытие к выходному изображению, прежде чем повторить процесс снова. Этот метод, который Google называет "улучшением условий", улучшает качество изображения до такой степени, что превосходит современные методы масштабирования AI, в том числе BigGAN-deep и VQ-VAE-2.
Согласно Google, эта новая технология "обеспечивает высокие результаты тестов в задаче сверхвысокого разрешения для лиц и естественных изображений при масштабировании до разрешений в 4–8 раз больше, чем у входного изображения с низким разрешением". Как видно из приведенной выше иллюстрации, это означает, что Изображение 64 x 64 пикселей может выводить впечатляюще четкое изображение 1024 x 1024 пикселей.
Исследователи Google говорят, что эта технология "подталкивает производительность моделей диффузии к самому современному уровню в тестах поколения ImageNet с суперразрешением и условным классом", и отмечают, что они "рады продолжить тестирование границ моделей распространения для широкого спектра задач генеративного моделирования ".
Вы можете прочитать всю статью в блоге Google AI.