'
Научный журнал «Вестник науки»

Режим работы с 09:00 по 23:00

zhurnal@vestnik-nauki.com

Информационное письмо

  1. Главная
  2. Архив
  3. Вестник науки №6 (87) том 3
  4. Научная статья № 214

Просмотры  97 просмотров

Клейнер С.Г.

  


ИССЛЕДОВАНИЕ ТОЧНОСТИ РЕШЕНИЯ ЗАДАЧИ ОПТИМИЗАЦИИ ГИПЕРПАРАМЕТРОВ С ПОМОЩЬЮ НЕЙРОННОЙ СЕТИ *

  


Аннотация:
в работе исследуется точность решения задачи оптимизации гиперпараметров нейронной сети с использованием суррогатной модели на основе многослойного перцептрона. Проведено сравнение предложенного подхода с классическими методами, включая случайный и сеточный поиск. Реализована архитектура нейросети, аппроксимирующей функцию потерь модели по заданным гиперпараметрам. С применением экспериментального анализа оценена эффективность и точность оптимизации. Установлено, что использование нейросетевого суррогата позволяет существенно сократить число ресурсов при сохранении или улучшении качества итоговой модели.   

Ключевые слова:
оптимизация гипермараметров, машинное обучение, нейронные сети, гиперпараметры, обучение модели, многослойный перцептрон   


В современных задачах машинного обучения качество итоговой модели существенно зависит от верно выбранного набора параметров сети – гиперпараметров. Они представляют собой настройки, определяющие архитектуру и процесс обучения модели, которые задаются до ее запуска. Примерами гиперапараметров являются скорость обучения, коэффициенты регуляризации, число слоев нейросети, размер слоев, размеры мини блока и другие. Подбор этих параметров, как правило, осуществляется до запуска обучения и сильно влияет на точность модели, скорость сходимости и способности к обобщению. Процесс поиска оптимального набора называется оптимизацией гиперпараметров (Hyperparameter Optimization, HPO).Задача оптимизация гиперпараметры известна своей сложностью. Пространство гиперпараметров обычно многомерное, включает как непрерывные, так и дискретные переменные, и не обладает очевидной структурой. Целевая функция, которая представляет собой качество модели, вычисляется не аналитически, а посредством полного обучения модели на данных, что для глубоких сетей может занимать несколько часов. Каждый набор гиперпараметров требует ресурсоемкого обучения, причем прямой градиент по гиперпараметрам недоступен. Таким образом, оптимизация превращается в поиск глобального экстремума, при этом единственный способ оценки – запустить обучение модели и измерить результат. [1]С ростом сложности моделей и размерности пространства настроек возрастает потребность в эффективных методах HPO. На практике неправильно настроенные гиперпараметры могут привести к тому, что даже сложная нейросеть покажет качество хуже, чем более простая модель с тщательно отобранными настройками. Потому во многих современных инструментах, таких как TensorFlow, PyTorch, Keras, внедрены средства автоматической оптимизации гипепараметров – от простого перебора до продвинутых алгоритмов. Однако существующие подходы имеют ограничения: перебор комбинаций требует экспоненциально растущих вычислений, даже случайный поиск при высокой размерности пространства становится затратным, а продвинутые байесовские методы теряют эффективность. [2] В связи с этим, перспективным является нейросетевой подход к задаче оптимизации гиперпараметров.В рамках данной работы была разработана и реализована суррогатная модель на основе нейронной сети, предназначенная для предсказания качества базовой модели по ее гиперпараметрам. В качестве суррогата выбран многослойный перцептрон прямого распространения. Этот выбор обусловлен универсальной аппроксимирующей способностью и относительно простой реализацией. [3] Архитектура сети подобрана таким образом, чтобы последовательно сжимать представление гиперпараметров и выделять наиболее значимые комбинации.На вход суррогатной сети подается вектор гиперпараметров целевой модели. В данной эксперименте он включает 5 параметров. Перед подачей в сеть каждый компонент вектора нормализуется методом min-max к диапазону [0,1]. Нормализация приводит все признаки к одному масштабу и способствует устойчивому обучению, предотвращая доминирование признаком с большим разбросом. Дискретные гиперпараметры для совместимости с нейросетью также представлены численно, нормализация для них не применялась во избежание искажения категориальной сути.Архитектура сети имеет три полносвязных скрытых слоя. Первый скрытый слой имеет размерность 256 нейронов и применяет нормализованный вход из 5 признаков. На каждом скрытом слое выполняется следующая последовательность операций: линейная трансформация, затем нормализация активаций к нулевому среднему и единичному отклонению внутри блока, затем нелинейная функция активации ReLU, и после – регуляризация через Dropout с вероятностью 20%. Такая комбинация обеспечивает стабильное и быстрое обучение, а также снижает риск переобучения. Число нейронов в последующих скрытых слоях постепенно уменьшается к выходу с 256 в первом до 128 во втором и 64 в третьем слое. Благодаря этому достигается компрессия информации – сеть сначала может выявить сложные взаимосвязи между параметрами в широком пространстве, а затем сконцентрировать наиболее важную информацию в сжатом представлении из 64 признаков.После третьего скрытого слоя полученное внутреннее представление подается на выходной нейрон, который через линейную комбинацию выдает прогноз целевой метрики (значение функции потерь или качество модели). В данном случае суррогатная модель решает задачу регрессии – прогнозирует численное значение ошибки модели. [5] Нелинейная активация на выходе не применяется, так как необходимо предсказать действительное значение без ограничений. Поскольку в процессе обучения суррогата целевые значения также были нормализованы, выход сети дает стандартизированное значение ошибки, которое затем переводится обратно в исходную шкалу.Таким образом, обучение суррогатной сети производится на заранее собранном наборе примеров {h_i,L_i}, включающем различные конфигурации гиперпараметров и соответствующие им значения функции потерь основной модели. Для оптимизации весов сети использовался алгоритм AdamW – это позволило одновременно обеспечить быстрое снижение ошибки и внедрить L2-регуляризацию для дополнительных гарантий против переобучений. Обучение проводилось с небольшим числом эпох и применением ранней остановки. Все эти меры позволили получить достаточно точный суррогат, способный обобщать на новые комбинации гиперпараметров, не встречавшиеся при обучении.Целью экспериментов было проверить, способен ли подход на основе суррогатной нейросети более эффективно находить оптимальные гиперпараметры по сравнению с такими классическими методами, как случайным и сеточным поиском. Для этого были проведены эксперименты на задаче классификации с использованием простой нейронной сети, где требовалось подобрать несколько ключевых гиперпараметров. Была произведена оценка качества получаемой модели и вычислительные затраты, сравнивая три подхода: суррогатная модель, случайный поиск и поиск по сетке.В качестве базовой модели для экспериментов использовался многослойный перцептрон для задачи классификации, обучаемый на заданном датасете MNIST. Для этой модели были выбраны такие гиперпараметры для оптимизации, как скорость обучения, коэффициент dropout, размер скрытого слоя, число скрытых слоев в модели, размер мини-батча.Данные для обучения суррогатной модели формировались следующим образом: сгенерировано множество случайных конфигураций гиперпараметров. Каждая конфигурация оценивается путем короткого запуска обучения основной модели: модель тренировалась лишь в течение трех эпох и замерялось качество. Такой укороченный цикл обучения дает приближенное представление о том, насколько хороши заданные гиперпараметры, при значительно меньших затратах времени, чем полный тренинг до сходимости. Процесс генерации данных был распараллелен для ускорения сбора статистики. Всего было получено порядка 450 наблюдений после очистки данных. Этот набор послужил обучающей выборкой для суррогатной сети. 80% данных использовалось для обучения, а 20% для валидации при настройке сети.MLP был обучен на сформированном наборе данных. В процессе обучения сеть была научена приближать зависимость метрики качества. Добившись сходимости ошибки суррогата на валидации был выполнен второй шаг эксперимента – использование сети для оптимизации. Главная идея состоит в том, чтобы использовать обученную модель для поиска оптимальных гиперпараметров без дорогостоящих полных обучений на каждом шаге.Для начала было сгенерировано 200 новых случайных комбинаций гипепараметров из тех же диапазонов, что и для обучения суррогата. Каждая из сгенерированных конфигураций подается на вход нейросети, которая практически мгновенно вычисляет ожидаемое значение функции потерь модели. За счет векторизации и малой сложности MLP, оценка 200 кандидатов заняла миллисекунды, что ничтожно мало по сравнению с часами реального обучения сети. Полученное множество предсказанных значений сортируется по возрастанию потерь.В конце, из множества оцененных кандидатов выбираются 5 лучших – то есть гиперпараметры с минимальной предсказанной потерей. Далее эти 5 наборов проверяются с помощью полного обучения базовой модели.Наконец, из этих 5 проводится отбор глобального победителя – набор с наименьшей реальной функцией потерь. Этот финальный результат и считается решением, найденным с помощью нейросетевого подхода.Для сравнения с предложенным методом были реализованы два традиционных подхода в тех же условиях: случайный поиск и поиск по сетке. Методы сравнивались по двум основным критериям: качество найденного решения – минимальное достигнутое значение функции потерь на валидации и соответствующая точность на тестовой выборке, вычислительные затраты – суммарное число полных обучений модели и совокупное время, затраченное на подбор гиперпараметров. Также отслеживалось пиковое использование памяти, и отмечались особенности реализации.Таблица 1. Сравнение методов оптимизации гиперпараметров. В целом, эксперимент подтвердил гипотезу о высокой эффективности нейросетевого суррогата. Во-первых, он обеспечил более высокое качество оптимизации по сравнению с двумя рассмотренными классическими методами – достигнуто более низкое значение функции потерь и более высокая точность модели. Во-вторых, значительное сокращение числа полных обучений (в 40 раз меньше, чем при случайном поиске) привело к многократному уменьшению общего времени подбора гиперпараметров. Таким образом, применение суррогатной модели существенно повышает эффективность HPO, сочетая высокое качество найденных решений с экономией вычислительных ресурсов.   


Полная версия статьи PDF

Номер журнала Вестник науки №6 (87) том 3

  


Ссылка для цитирования:

Клейнер С.Г. ИССЛЕДОВАНИЕ ТОЧНОСТИ РЕШЕНИЯ ЗАДАЧИ ОПТИМИЗАЦИИ ГИПЕРПАРАМЕТРОВ С ПОМОЩЬЮ НЕЙРОННОЙ СЕТИ // Вестник науки №6 (87) том 3. С. 1785 - 1791. 2025 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/24427 (дата обращения: 22.01.2026 г.)


Альтернативная ссылка латинскими символами: vestnik-nauki.com/article/24427



Нашли грубую ошибку (плагиат, фальсифицированные данные или иные нарушения научно-издательской этики) ?
- напишите письмо в редакцию журнала: zhurnal@vestnik-nauki.com


Вестник науки © 2025.    16+




* В выпусках журнала могут упоминаться организации (Meta, Facebook, Instagram) в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25 июля 2002 года № 114-ФЗ 'О противодействии экстремистской деятельности' (далее - Федеральный закон 'О противодействии экстремистской деятельности'), или об организации, включенной в опубликованный единый федеральный список организаций, в том числе иностранных и международных организаций, признанных в соответствии с законодательством Российской Федерации террористическими, без указания на то, что соответствующее общественное объединение или иная организация ликвидированы или их деятельность запрещена.