×

Вы используете устаревший браузер Internet Explorer. Некоторые функции сайта им не поддерживаются.

Рекомендуем установить один из следующих браузеров: Firefox, Opera или Chrome.

Контактная информация

+7-863-218-40-00 доб.200-80
ivdon3@bk.ru

Сравнительный анализ современных методов генерации изображений: VAE, GAN и диффузионные модели

Аннотация

Катаев А.В., Власова Ю.М., Ким В.А., Гусынин Д.А.

Дата поступления статьи: 24.02.2025

Статья представляет собой анализ современных методов генерации изображений: вариационных автоэнкодеров (Variational Autoencoder - VAE), генеративных состязательных сетей (Generative Adversarial Networks - GAN) и диффузионных моделей. Основное внимание уделено сравнительному анализу их производительности, качеству генерации и вычислительным требованиям. Для оценки качества изображений используется метрика расстояние Фреше между распределениями признаков (Fréchet Inception Distance - FID). Диффузионные модели показали наилучшие результаты (FID 20.8), превосходя VAE (FID 59.75) и GAN (FID 38.9), но требуют значительных ресурсов. VAE стабильны, но генерируют размытые изображения. GAN обеспечивают высокое качество, но страдают от нестабильности обучения и коллапса моды. Диффузионные модели, благодаря пошаговому декодированию шума, сочетают детализацию и структурированность, что делает их наиболее перспективными. Также рассмотрены методы генерации из изображения в изображение, применяемые для модификации изображений. Результаты исследования полезны для специалистов в области машинного обучения и компьютерного зрения, способствуя улучшению алгоритмов и расширению областей применения генеративных моделей.

Ключевые слова: дипфейк, глубокое обучение, искусственный интеллект, GAN, VAE, диффузионная модель

1.2.1 - Искусственный интеллект и машинное обучение

1.2.2 - Математическое моделирование, численные методы и комплексы программ

.