'
Румянцева М.С.
РАЗРАБОТКА И ИССЛЕДОВАНИЕ АЛГОРИТМА ОБНАРУЖЕНИЯ ДИПФЕЙКОВ С ИСПОЛЬЗОВАНИЕМ ДВУХПОТОЧНОЙ НЕЙРОННОЙ СЕТИ И ЧАСТОТНОГО АНАЛИЗА *
Аннотация:
в работе представлен алгоритм обнаружения дипфейков, основанный на двухпоточной нейронной сети, сочетающей анализ пространственных и частотных признаков. Предложенная архитектура включает предобученную ResNet для пространственного анализа и свёрточную нейронную сеть (CNN) для обработки частотных спектров, полученных с помощью дискретного косинусного преобразования (DCT). Для интеграции признаков использован модуль кросс-внимания (CMA). Метод дополнен механизмом визуализации Grad-CAM, обеспечивающим интерпретируемость решений модели.
Ключевые слова:
обнаружение дипфейков, двухпоточная нейронная сеть, кросс-внимание, интерпретируемость
С развитием генеративно-состязательных нейронных сетей (GAN) и диффузионных моделей (DM) создание реалистичных поддельных изображений (дипфейков) стало доступным и массовым явлением. Злонамеренное использование дипфейков зачастую преследует финансовое выгоду и влечёт за собой нарушение конфиденциальности и информационной безопасности общества. В цифровой криминалистике и журналистике растёт спрос на программные средства обнаружения дипфейков для решения проблем мошенничества, шантажа и распространения фальсифицированных данных [1].Существующие детекторы дипфейков имеют ограниченное использование в связи с низкой обобщаемостью на генеративные модели, отсутствием защиты от состязательных атак, зависимостью от постобработки, а также низкой интерпретируемостью [2, c. 33]. Для решения проблемы распознавания поддельных изображений используются методы, основанные на анализе скрытых признаков с помощью CNN, которые демонстрируют высокую надёжность и производительность [3]. Применение ансамблевых методов и комбинации признаков из фундаментальных моделей, таких как CNN или визуальных трансформеров (ViT), и DCT отмечается в [4, c. 9], как многообещающий подход в обнаружении дипфейков. Это подтверждается устойчивостью DCT к шуму и чувствительностью к высокочастотным артефактам [5], часто встречающимся в сгенерированных изображениях.Целью данного исследования является повышение результативности алгоритма обнаружения дипфейков за счёт применения комбинированного подхода извлечения признаков из пространственного и частотного доменов.В настоящей работе разработан алгоритм обнаружения дипфейков, основанный на гибридной архитектуре нейронной сети, объединяющей DCT- и ResNet-потоки, и состоящий из следующих этапов:1.Разбиение данных на обучающие и тестовые выборки с сохранением сбалансированности классов «REAL» (подлинные) и «FAKE» (поддельные), а также масштабирование изображений до заданного разрешения.2.Преобразование каждого канала изображений RGB в частотный спектр с помощью DCT. Для усиления областей высоких частот модули коэффициентов DCT (1)-(3) преобразуется в логарифмическую шкалу.где:dct(u, v) – массив коэффициентов дискретного косинусного преобразования,x – изображение размерностью N×N,a, b – коэффициенты, вычисляемые по формулам (2),i, j – пространственные координаты пикселей изображения,u, v – координаты в частотной области,C(u), C(v) – коэффициенты, вычисляемые по формулам (3).Обучение CNN с четырьмя свёрточными блоками, состоящими из двух слоёв свёртки, на трёх спектрах DCT изображений.Обучение предобученной на ImageNet ResNet-34 на RGB изображениях.Взаимодействие извлеченных двумя потоками признаков с помощью CMA, подробно описанного в работе [6, с. 4]. CMA основан на механизма самонаблюдения ViT и оснащён механизмом множественных голов, который фокусируется на разных аспектах взаимодействия потоков и позволяет модели параллельно обрабатывать разнородные зависимости. Для этого DCT- и ResNet-признаки проходят через проекционные слои для создания векторов Q (Q), Key (K), Value (V) каждой головы (4). Матрица внимания для каждой головы CMA на примере первого потока вычисляется по формуле (5), и полученные веса умножаются на V (6). Далее результаты всех голов объединяются (7). Остаточное соединение (8) применяется для устранения исчезающих градиентов. Таким образом, DCT-признаки сообщают информацию об аномалиях в частотной области ResNet-потоку. ResNet-признаки помогают DCT-потоку «обращать внимание» на области с пространственными аномалиями.где:Q (Query), K (Key), V (Value) – проекции входных данных,, – признаки из первого и второго потоков,, – взвешенная сумма признаков первого и второго потоков,dk – масштабирующий коэффициент (для стабилизации градиентов),heads – число голов,, ,– обучаемые матрицы весов для каждой головы i.Объединение признаков и классификация.Построение тепловых карт с помощью модуля Grad-CAM [7], который анализирует важность регионов изображения, используя градиенты последнего свёрточного слоя DCT- и ResNet-потоков. Тепловая карта накладывается на исходное изображение, выделяя области, которые модель считает подозрительными.Для реализации разработанного алгоритма использовался язык программирования Python (версия 3.9) и фреймворк для построения и обучения нейронных сетей PyTorch. Код реализован с поддержкой GPU в среде программирования Jupyter Notebook. В качестве аппаратной платформы использовалась видеокарта NVIDIA RTX 4060.Для обучения и тестирования применялись наборы данных 140k Real and Fake Faces [8], Artifact [9], DiFF [10], Обучающая выборка включала 100 тыс. изображений GAN (StyleGAN2, StyleGAN3), 50 тыс. изображений DM (StableDiffusion, Midjourney), 150 тыс. оригинальных изображений лиц. Изображения масштабировались до 256×256 пикселей.Модель обучалась в течение 20 эпох. Для оптимизации функции потерь, бинарной кросс-энтропии, использовался стохастический градиентный спуск со скоростью обучения 10-2, моментом 0,9 и L2-регуляризацией. Для CMA установлено 4 головы. Архитектура двухпоточной CNN представлена на рис.1.Рис. 1. Архитектура модели обнаружения дипфейков с помощью двухпоточной CNN и модуля CMA. В таблице 1 представлены значения ключевых метрик модели в зависимости от подключенного модуля: ResNet-34, ResNet-34+DCT-CNN, ResNet-34+DCT-CNN+CMA. Сравнение демонстрирует, что интеграция двух потоков и использование CMA обеспечивают прирост точности на 0,3/3% (GAN/DM) относительно стандартной архитектуры ResNet-34, и на 0,2/2% относительно двухпоточной архитектуры ResNet-34+DCT-CNN, что подтверждает эффективность комбинированного подхода.Таблица 1. Метрики модели в зависимости от подключённых модулей.В таблице 2 приведены показатели точности на тестовых данных (датасеты DIFF, Artifact), не участвовавших в процессе обучения и сгенерированных моделями GAN и DM (StarGAN, ProGAN, Stable Diffusion Refine, HPS). Средняя точность для GAN-моделей составила 98,33%, для DM-моделей – 99,11%.Таблица 2. Тестирование модели на разных тестовых данных. На рис.2 приведены тепловые карты GradCAM, демонстрирующие, на какие области изображения фокусируется каждый поток при обнаружении дипфейков. Можно заметить, что наиболее значимыми для DCT-потока оказалась область высоких частот, представленного на DCT-спектре в виде аномального «пятна», вертикальных и горизонтальных полос.Рис. 2. Визуализация генеративных артефактов с помощью Grad-CAM и частотного спектра DCT.Сравнительный анализ с существующими средствами обнаружения дипфейков приведен в таблице 3. Показатели точности были взяты из результатов тестирования представленных моделей на изображениях GAN и DM, описанных в работах [11-13]. Таким образом, разработанная двухпоточная архитектура демонстрирует в среднем на 5% бОльшую точность по сравнению с другими детекторами, но уступает по качеству обнаружения дипфейков двухпоточной архитектуре [11], ориентированной на распознавание только изображений DM.Таблица 3. Сравнение точности модели с точностью существующих средств обнаружения дипфейков, синтезированных GAN и DM.Разработанное программное средство демонстрирует высокую эффективность, интерпретируемость и обобщающую способность при обнаружении дипфейков. Применение Grad-CAM позволило выявить, что модель фокусируется на высокочастотных деталях кожи, глаз, границах волос, текстурах одежды и фона, где чаще всего появляются генеративные артефакты. Возможности GradCAM способствуют повышению доверия к модели со стороны конечного пользователя и исследователей. Для улучшения надёжности и устойчивости модели требуется обучение на разнообразных наборах данных, включающих агрессивную постобработку с помощью фоторедакторов, а также состязательные атаки.
Номер журнала Вестник науки №6 (87) том 2
Ссылка для цитирования:
Румянцева М.С. РАЗРАБОТКА И ИССЛЕДОВАНИЕ АЛГОРИТМА ОБНАРУЖЕНИЯ ДИПФЕЙКОВ С ИСПОЛЬЗОВАНИЕМ ДВУХПОТОЧНОЙ НЕЙРОННОЙ СЕТИ И ЧАСТОТНОГО АНАЛИЗА // Вестник науки №6 (87) том 2. С. 1763 - 1773. 2025 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/24101 (дата обращения: 17.07.2025 г.)
Вестник науки © 2025. 16+
*