'
Научный журнал «Вестник науки»

Режим работы с 09:00 по 23:00

zhurnal@vestnik-nauki.com

Информационное письмо

  1. Главная
  2. Архив
  3. Вестник науки №5 (86) том 3
  4. Научная статья № 182

Просмотры  143 просмотров

Ошноков Т.Р.

  


МУЛЬТИМОДАЛЬНАЯ НЕЙРОННАЯ КОЛЛАБОРАТИВНАЯ ФИЛЬТРАЦИЯ В ЗАДАЧЕ ПЕРСОНАЛИЗИРОВАННЫХ РЕКОМЕНДАЦИЙ: РЕАЛИЗАЦИЯ И ОЦЕНКА НА ОСНОВЕ ДАННЫХ С ПЛАТФОРМЫ «ШИКИМОРИ» *

  


Аннотация:
в статье рассматривается разработка и экспериментальная оценка мультимодальной рекомендательной системы на основе нейронной коллаборативной фильтрации (Neural Collaborative Filtering, NCF) на основе данных с платформы «Шикимори». В отличие от классических моделей, учитывающих только взаимодействия вида «пользователь–объект–оценка», предложенный подход интегрирует дополнительные источники информации: категориальные метаданные, текстовые описания и визуальные признаки аниме-контента. Описаны архитектурные особенности модели, включая использование компонентов GMF и MLP, а также методы включения мультимодальных эмбеддингов в структуру модели. Проведен сравнительный анализ качества рекомендаций по метрикам Precision@N, Recall@N и nDCG@N. Результаты экспериментов показывают, что включение визуальных мультимодальных признаков может привести к улучшению качества рекомендаций по метрике nDCG@N.   

Ключевые слова:
нейронная коллаборативная фильтрация, рекомендательная система, мультимодальная модель, машинное обучение, эмбеддинги   


DOI 10.24412/2712-8849-2025-586-1444-1456

ВВЕДЕНИЕ. Онлайн-платформы, предоставляющие доступ к пользовательскому контенту — будь то фильмы, музыка, книги или аниме, — сталкиваются с задачей предоставления персонализированных рекомендаций пользователям. Эффективность таких рекомендаций напрямую влияет на пользовательский опыт и удержание аудитории. Одним из ключевых направлений в разработке рекомендательных систем является использование методов машинного обучения, в частности — нейронной коллаборативной фильтрации (Neural Collaborative Filtering, NCF).Платформа «Шикимори» представляет собой российский веб-ресурс, предназначенный для ведения пользовательской статистики просмотра аниме и манги. Пользователи выставляют оценки, формируют списки просмотренного и делятся впечатлениями, что создает богатую среду для построения рекомендательной системы.Основной проблемой в задаче построения рекомендательной системы на платформе «Шикимори» является разреженность пользовательских оценок: большинство пользователей оценивают лишь ограниченное количество тайтлов, а сами тайтлы получают оценки от ограниченного числа пользователей. Кроме того, визуальные и текстовые предпочтения также играют значимую роль в выборе контента, особенно в контексте аниме, где рисовка и аннотация часто определяют интерес.В настоящей работе предлагается архитектура мультимодальной нейронной коллаборативной фильтрации, способной использовать не только взаимодействия пользователь–объект, но и дополнительные признаки: жанры, описание, визуальный стиль. Целью является создание модели, способной учитывать комплексные предпочтения пользователей, включая структуру, содержание и оформление аниме.Методы исследования включают разработку и обучение моделей NCF с различными типами входных признаков, реализацию системы логирования и автоматизированного тестирования моделей, а также проведение количественного сравнения по метрикам ранжирования (Recall@N, Precision@N, nDCG@N).В качестве объекта исследования рассматриваются пользовательские оценки, собранные с платформы «Шикимори», а также структурированные и неструктурированные признаки самих тайтлов. Предметом исследования является влияние мультимодальных признаков на качество персонализированных рекомендаций.Работа носит прикладной характер: реализован программный прототип рекомендательной системы, проведена серия вычислительных экспериментов, и сформулированы практические выводы на основе анализа полученных результатов.ОБЗОР СУЩЕСТВУЮЩИХ ПОДХОДОВ К ПЕРСОНАЛИЗИРОВАННЫМ РЕКОМЕНДАЦИЯМ.Персонализированные рекомендательные системы представляют собой один из ключевых компонентов цифровых платформ, стремящихся удерживать внимание пользователей и повышать релевантность предлагаемого контента. На сегодняшний день существует несколько основных подходов к построению таких систем: контентно-ориентированные рекомендации, коллаборативная фильтрация и гибридные методы.Контентно-ориентированные методы строятся на предположении, что пользователь предпочитает объекты, схожие с теми, что он оценил положительно в прошлом. В качестве признаков объектов используются метаданные: жанры, авторы, ключевые слова и другие дескрипторы. Эти методы хорошо работают в условиях, когда информации о взаимодействии между пользователями немного, однако они не учитывают социокультурный контекст и склонны к переобучению на предпочтениях конкретного пользователя.Коллаборативная фильтрация, в отличие от контентных методов, использует только информацию о взаимодействии пользователей с объектами. Она делится на два типа: user-based и item-based. Первый предполагает, что пользователи с похожими вкусами будут оценивать объекты одинаково, второй — что объекты, получившие одинаковые оценки, будут интересны одним и тем же пользователям. Эти подходы страдают от проблемы холодного старта и разреженности данных.Развитие глубокого обучения открыло новые возможности для построения рекомендательных систем, способных выявлять сложные и неочевидные закономерности во взаимодействии пользователей с объектами. В отличие от традиционных подходов, использующих фиксированные признаки, нейросетевые модели позволяют обучать представления (эмбеддинги) пользователей и объектов прямо в процессе оптимизации целевой функции. Одной из таких моделей является нейронная коллаборативная фильтрация (Neural Collaborative Filtering, NCF), в которой взаимодействия моделируются через многослойный перцептрон, принимающий на вход эмбеддинги, формируемые для каждого пользователя и объекта. Эта архитектура позволяет гибко моделировать как линейные, так и нелинейные зависимости, и демонстрирует высокую эффективность в задачах предсказания предпочтений, особенно в условиях разреженных данных.Гибридные подходы, как правило, сочетают коллаборативную фильтрацию и контентный анализ. Например, в мультимодальных рекомендательных системах могут одновременно использоваться текстовые описания, изображения и пользовательские оценки. Такие системы позволяют учитывать предпочтения пользователей не только на уровне взаимодействий, но и на уровне содержания, что особенно важно в медиасредах (видео, музыка), где визуальные и смысловые характеристики контента играют значимую роль.Таким образом, развитие персонализированных рекомендаций движется в сторону объединения различных источников информации в единую архитектуру, способную обобщать данные различной природы. Это делает мультимодальные модели перспективным направлением в области рекомендательных систем.АРХИТЕКТУРА И РЕАЛИЗАЦИЯ МУЛЬТИМОДАЛЬНОЙ МОДЕЛИ NCF.Классическая архитектура нейронной коллаборативной фильтрации (Neural Collaborative Filtering, NCF) представляет собой расширение идеи матричной факторизации. Она использует обучаемые эмбеддинги пользователей и объектов, которые обрабатываются нейросетевой архитектурой для предсказания силы взаимодействия. Базовая модель NCF состоит из двух основных компонент: Generalized Matrix Factorization (GMF) и Multi-Layer Perceptron (MLP) [4].Компонент GMF представляет собой обобщённую форму матричной факторизации, где эмбеддинги пользователя и объекта перемножаются поэлементно. Это позволяет сохранить преимущества линейных моделей — простоту и интерпретируемость.Компонент MLP получает на вход конкатенированные эмбеддинги пользователя и объекта и обучает функцию предсказания через несколько скрытых слоёв с нелинейными активациями. Такой подход позволяет моделировать сложные, нелинейные взаимодействия, которые не удаётся учесть при использовании только линейных методов.В итоговом блоке архитектуры выходы GMF и MLP объединяются и подаются в финальный слой, который предсказывает оценку взаимодействия. Такая гибридная структура позволяет объединить достоинства обеих компонент: интерпретируемость GMF и гибкость MLP.Для повышения точности модели в условиях ограниченного количества пользовательских оценок были реализованы три мультимодальных версии NCF, в которые дополнительно были включены следующие признаки:- Контентные признаки: жанры, возрастной рейтинг, студия, количество эпизодов и тип аниме. Эти данные извлекались из метаданных и кодировались с помощью категориальных эмбеддингов и нормализации.- Текстовые признаки: описания аниме, преобразованные в векторы фиксированной длины при помощи трансформерной модели (intfloat/multilingual-e5-base). Эмбеддинги формировались заранее и использовались в качестве дополнительного входа.- Визуальные признаки: эмбеддинги скриншотов, полученные из модели CLIP (ViT-B/32). Скриншоты агрегировались и преобразовывались в один вектор на объект.Каждая модель имела гибкую архитектуру, способную принимать определенную конфигурацию. Ниже в таблицах представлены конфигурации самих моделей и их тренировок.Таблица 1. Конфигурации моделей NCF.Таблица 2. Конфигурации тренировок моделей NCF.Таблица 3. Конфигурации тренировок моделей NCF.ЭКСПЕРИМЕНТАЛЬНАЯ ОЦЕНКА И АНАЛИЗ РЕЗУЛЬТАТОВ.Все результаты фиксировались автоматически, а лучшие модели сохранялись при достижении минимального значения функции потерь на валидации.Таблица 4. Сравнительная таблица лучших результатов значений функции потерь.Хотя некоторые конфигурации без гибридной структуры показывали более низкие значения функции потерь на валидационной выборке, в рамках работы было принято решение ограничиться сравнением полноценных моделей NCF, включающих оба компонента — GMF и MLP. Это обусловлено:- ориентацией проекта на анализ именно нейронной коллаборативной фильтрации (NCF),- необходимостью обеспечить единообразие архитектуры при сравнении моделей с разными источниками признаков,- стремлением избежать искажений результатов, связанных с различиями в базовой структуре модели.Конфигурация ncf_default_relu_plateau была выбрана для дальнейшего использования при сравнении всех моделей по метрикам Precision@20, Recall@20 и nDCG@20.Таблица 5. Метрики качества.Все модели продемонстрировали схожий уровень качества, однако различия в ранжированных метриках позволяют оценить эффективность включения различных типов признаков.NCF с визуальными эмбеддингами показала наилучший результат по метрике nDCG@20 (0.0500), что указывает на высокую релевантность не только самих объектов, но и их порядка в выдаче.Базовая модель NCF достигла наивысших значений по Precision@20 и Recall@20, что может говорить о её стабильности и эффективности в отсутствии дополнительных признаков.Модель с признаками также показала хорошие результаты, особенно близкие к базовой модели по Precision и Recall, уступая только по nDCG.Модель с текстовыми эмбеддингами показала наименьшие значения по всем метрикам. Это может быть связано с разнообразием и неоднородностью описаний, что усложняет семантическое сопоставление.Для сравнения эффективности разработанных моделей были изучены результаты экспериментов, приведенные в работе Anelli V.W et al. “Top-N Recommendation Algorithms: Seeking the State-of-the-Art” [1]. Ниже приведены значения метрик nDCG@20, Precision@20 и Recall@20 на популярных открытых датасетах.Таблица 6. Метрики качества моделей конкурентов.Относительно невысокие значения метрик качества рекомендаций, полученные на данных платформы «Шикимори», объясняются не только сложностью задач персонализации, но и рядом объективных факторов, связанных с ограничениями сбора и структуры данных.Несмотря на то, что общее количество зарегистрированных пользователей на платформе составляет порядка 1,5 миллионов, в рамках проекта удалось собрать данные только по 26 939 активным пользователям, чьи профили содержали достаточное количество оценок. Для этого было предварительно обработано более 200 000 аккаунтов, из которых значительная часть была отсеяна по причине отсутствия публичных рейтингов или недостатка данных для обучения модели.В сумме было собрано 3 318 360 пользовательских оценок по 27 216 различным аниме, что формирует редкую матрицу взаимодействий — типичную для реальных рекомендательных систем, в отличие от многих открытых датасетов, где часто используются искусственно уплотнённые выборки.Таким образом, разреженность, высокая доля неявной обратной связи и реальное распределение пользовательской активности делают задачу генерации точных рекомендаций на «Шикимори» значительно более сложной по сравнению с экспериментами на MovieLens или Amazon, где данные предварительно очищены и сбалансированы.Эти особенности данных подтверждают, что даже достигнутые значения Precision@20 ≈ 0.05 и nDCG@20 ≈ 0.042 являются результатом хорошо работающей архитектуры, способной обеспечивать персонализацию в условиях реального, нерегламентированного пользовательского поведения.Таким образом, можно ожидать, что при масштабировании датасета и включении дополнительных взаимодействий показатели Precision, Recall и nDCG будут иметь положительную динамику, приближаясь к значениям, характерным для контролируемых исследований на MovieLens и других открытых датасетах.ЗАКЛЮЧЕНИЕВ данной работе была представлена мультимодальная модель нейронной коллаборативной фильтрации, предназначенная для построения персонализированных рекомендаций на платформе «Шикимори». В отличие от классических моделей, использующих только матрицу взаимодействий пользователь–объект, предложенная архитектура позволяет учитывать дополнительные признаки: структурированные метаданные, текстовые описания и визуальные характеристики аниме-контента.Проведенные эксперименты показали, что включение мультимодальных признаков положительно влияет на качество рекомендаций по метрике nDCG@20, которая отражает улучшение ранжирования релевантных объектов.Предложенная архитектура отличается модульностью и гибкой настройкой, что позволяет адаптировать ее под различные сценарии и источники данных.Полученные результаты подтверждают целесообразность использования мультимодальных подходов в рекомендательных системах, особенно в условиях разреженности данных. Перспективными направлениями дальнейшей работы могут стать: динамическое взвешивание модальностей и генерации признаков в онлайне.

  


Полная версия статьи PDF

Номер журнала Вестник науки №5 (86) том 3

  


Ссылка для цитирования:

Ошноков Т.Р. МУЛЬТИМОДАЛЬНАЯ НЕЙРОННАЯ КОЛЛАБОРАТИВНАЯ ФИЛЬТРАЦИЯ В ЗАДАЧЕ ПЕРСОНАЛИЗИРОВАННЫХ РЕКОМЕНДАЦИЙ: РЕАЛИЗАЦИЯ И ОЦЕНКА НА ОСНОВЕ ДАННЫХ С ПЛАТФОРМЫ «ШИКИМОРИ» // Вестник науки №5 (86) том 3. С. 1444 - 1456. 2025 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/23170 (дата обращения: 08.07.2025 г.)


Альтернативная ссылка латинскими символами: vestnik-nauki.com/article/23170



Нашли грубую ошибку (плагиат, фальсифицированные данные или иные нарушения научно-издательской этики) ?
- напишите письмо в редакцию журнала: zhurnal@vestnik-nauki.com


Вестник науки © 2025.    16+




* В выпусках журнала могут упоминаться организации (Meta, Facebook, Instagram) в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25 июля 2002 года № 114-ФЗ 'О противодействии экстремистской деятельности' (далее - Федеральный закон 'О противодействии экстремистской деятельности'), или об организации, включенной в опубликованный единый федеральный список организаций, в том числе иностранных и международных организаций, признанных в соответствии с законодательством Российской Федерации террористическими, без указания на то, что соответствующее общественное объединение или иная организация ликвидированы или их деятельность запрещена.