'
Научный журнал «Вестник науки»

Режим работы с 09:00 по 23:00

zhurnal@vestnik-nauki.com

Информационное письмо

  1. Главная
  2. Архив
  3. Вестник науки №5 (86) том 4
  4. Научная статья № 182

Просмотры  81 просмотров

Селиванов В.С., Царькова Н.И.

  


ВЫЯВЛЕНИЕ ПОТЕНЦИАЛЬНОГО МОШЕННИЧЕСТВА КЛИЕНТОВ ФИНАНСОВОЙ КОМПАНИИ ТЕХНОЛОГИЯМИ БОЛЬШИХ ДАННЫХ *

  


Аннотация:
в работе представлена гибридная система выявления мошенничества, построенная на совмещении графовой аналитики, логических правил и алгоритмов машинного обучения. Система обрабатывает персональные данные клиентов, а также информацию, собранную при оформлении заявки, транзакционные и поведенческие признаки. Вычисляются графовые центральности с помощью Neo4j GDS (PageRank, Betweenness, Triangle Count, Clustering), рассчитываются сработки правил и выявляются аномалии методами Isolation Forest, One-Class SVM, Local Outlier Factor и кластеризацией K-Means. Для нормализации и агрегирования рисков применяется гистограммная калибровка. Расчеты выполнены на более чем 2 миллионах записей. Оценена точность, полнота, экономическая выгода. Система реализована как API с асинхронной обработкой в реальном времени.   

Ключевые слова:
мошенничество, антифрод, граф, машинное обучение, аномалия, язык Python, анализ данных   


Актуальность исследования обуславливается значительным ростом объемов электронных транзакций и повышением уровня киберугроз, требующих все более точных и быстрых механизмов детекции критических отклонений на ранних этапах анализа.На практике мошеннические схемы могут быть не обнаружены на единичных моделях. Это объясняет востребованность комплексных антифрод-решений, совмещающих данные из различных источников, от поведенческих шаблонов до взаимосвязей между клиентами. В работе рассматривается анализ больших данных с целью обучения системы и последующая реализация API системы для оценки клиентов в реальном времени при оформлении продукта в компании.Для построения графа применялся Neo4j и модуль Python Py2neo. Схема, в которой узел Client является центром, а все идентификационные признаки вынесены в самостоятельные атрибутные узлы и связаны отношением HAS, а совпадения между такими узлами фиксируются ребрами SIMILAR_*, оптимальна, так как она гарантирует нормализованное хранение данных. Каждый телефон, паспорт или другой атрибут присутствует в графе один раз, что устраняет дубли и упрощает актуализацию. За счет этого же подхода формируется связь между клиентами, имеющими общие признаки, например, общий номер телефона порождает цепочки:При этом более сложные мошеннические конфигурации проявляются через объединение разных атрибутов в единую компоненту, такие структуры легко захватываются алгоритмами Neo4j GDS, формируя информативные графовые признаки. Так как атрибуты оформлены отдельными узлами, их значения индексируются, и запросы поиска выполняются без тяжеловесных реляционных JOIN, что важно для API алгоритма, работающего почти в реальном времени.Также при поступлении новой заявки достаточно выполнять MERGE для клиента и его атрибутов, а затем пересчитать центральности локального подграфа, не затрагивая остальную базу.Подводя итог, концепция выделения под каждый тип атрибута своей сущности и использование связей HAS и SIMILAR_* одновременно обеспечивает компактное хранилище, ускоряет выявление аффилированности и упрощает интеграцию.Рисунок 1. Пример подозрительных связей клиентовпо номеру телефона и адресу.Алгоритмы графовой аналитики из пакета Neo4j Graph Data Science добавляют к каждому клиенту численные признаки, отражающие его положение в сети совпадающих атрибутов.PageRank применяется к ребрам SIMILAR_*, алгоритм имитирует случайного «путника», переходящего от узла к узлу с равной вероятностью и периодически совершающего произвольные «прыжки» (damping). Итерационный процесс сводится к вектору стационарных вероятностей, где чем выше значение, тем чаще случайный маршрут останавливается на клиенте. Высокий показатель означает, что узел связан с другими высокорейтинговыми участниками, через него проходит значительный объем совпадающих атрибутов.Triangle Count расчитывает число треугольников, у которых все пары соединены путями длиной 1. Высокий показатель говорит о плотной локальной сети, где один клиент разделяет несколько разных атрибутов с двумя соседями, а они между собой. Такое переплетение свойственно группам взаимного обогащения.Betweenness Centrality рассчитывает долю кратчайших путей между всеми парами узлов, проходящих через нее. Клиент с высоким показателем осуществляет роль соединения между двумя кластерами.Local Clustering Coefficient измеряет, какая доля соседей клиента связана между собой. Низкое значение при высокой степени характеризует клиента, который привязан ко множеству разрозненных атрибутов, но они не пересекаются между собой.В комбинации эти четыре метрики дают разноплановый портрет клиента. И оценивают его глобальное влияние, плотность локальных связей, стратегическое положение в маршрутах графа. Суммирование логарифмов превышения порогов по PageRank, Triangle Count и Betweenness и последующим масштабированием до диапазона 0–100 и образует графовый балл.Рисунок 2. Срабатывания правил на основе графовых характеристик.Пятнадцать бинарных флагов образуют слой экспертных правил, который закрывает известные сценарии. Также правила служат обучающей разметкой, если fraud_direct равно единице, запись сразу попадает в категорию мошенничества и помогает калибровать остальные методы.Поверх правил добавлены четыре алгоритма обнаружения аномалий. Isolation Forest изолирует каждую запись случайными разбиениями признакового пространства и подсчитывает, за сколько шагов она окажется в отдельном узле, редкие структуры вылавливаются за минимальное число разбиений, что делает метод устойчивым к шуму и масштабируемым. One Class SVM строит нелинейную оболочку, все точки за ее пределами помечаются как подозрительные, что особенно эффективно для компактных, но нетипичных групп. Local Outlier Factor сравнивает локальную плотность наблюдений, что полезно при многообразии мелких сегментов. KMeans делит пространство на кластеры и вычисляет долю мошенников внутри каждого, эта доля, после нормализации, составляет непрерывный риск s_km и выявляет целые сообщества с повышенной концентрацией нарушении.Модели захватывают нетривиальные паттерны, которые не удается свести к простому условию. Совмещение бинарных флагов, графовых центральностей и непрерывных аномальных баллов в final_score снижает как ложные пропуски, так и ложные срабатывания, обеспечивая устойчивость системы к меняющимся стратегиям мошенничества.Рисунок 3. Срабатывания по признакам и методам.Данные обоих подходов нормализуются и формируют единую оценку, с помощью NumPy строится гистограмма final_score. Алгоритм ищет самый заполненный верхний бин, фиксирует его и линейно растягивает весь вектор, тем самым сдвигающееся пороговое значение постоянно подстраивается под свежую статистику, а все клиенты, попавшие выше уровня 80, автоматически отмечаются рисковыми.Детекция в реальном времени реализована через FastAPI. Функция принимает на вход json с данными клиента. Выполняется создание узлов и связей в Neo4j. Затем на затронутом подграфе выполняются метрики GDS: PageRank, Triangle Count, Betweenness, Local Clustering Coefficient. Далее происходит расчет правил и вычисления формулы итогового коэффициента. API возвращает формируется результат в формате {client_id: b320c7a1, fraud_flag: 1}.Для экономической оценки разработанной системы были произведены расчеты на исторических данных компании. Результат оценивался как разница между сохраненной суммой по отклоненным мошенническим контрактам и упущенной маржей по честным клиентам, ошибочно заблокированным системой, чистая выгода за два года достигла 558.954.644 рублей.Дальнейшее развитие включает перенос приема событий в Kafka или Redis Streams, что устранит сетевые расходы HTTP и повысит пропускную способность. Планируется расширить правила за счет графовых нейронных сетей, которые смогут выявлять более сложные паттерны через обучение весов ребер SIMILAR_*. Ежедневная автоматическая калибровка гистограмм и дообучение Isolation Forest на размеченных данных помогут удерживать точность при изменении поведения злоумышленников. Дополнительные интеграции с платежными шлюзами, внешними скоринговыми API и реестрами помогут выявить новые признаки, усиливая показатели гибридной системы выявления мошенничества.   


Полная версия статьи PDF

Номер журнала Вестник науки №5 (86) том 4

  


Ссылка для цитирования:

Селиванов В.С., Царькова Н.И. ВЫЯВЛЕНИЕ ПОТЕНЦИАЛЬНОГО МОШЕННИЧЕСТВА КЛИЕНТОВ ФИНАНСОВОЙ КОМПАНИИ ТЕХНОЛОГИЯМИ БОЛЬШИХ ДАННЫХ // Вестник науки №5 (86) том 4. С. 1466 - 1473. 2025 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/23453 (дата обращения: 15.07.2025 г.)


Альтернативная ссылка латинскими символами: vestnik-nauki.com/article/23453



Нашли грубую ошибку (плагиат, фальсифицированные данные или иные нарушения научно-издательской этики) ?
- напишите письмо в редакцию журнала: zhurnal@vestnik-nauki.com


Вестник науки © 2025.    16+




* В выпусках журнала могут упоминаться организации (Meta, Facebook, Instagram) в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25 июля 2002 года № 114-ФЗ 'О противодействии экстремистской деятельности' (далее - Федеральный закон 'О противодействии экстремистской деятельности'), или об организации, включенной в опубликованный единый федеральный список организаций, в том числе иностранных и международных организаций, признанных в соответствии с законодательством Российской Федерации террористическими, без указания на то, что соответствующее общественное объединение или иная организация ликвидированы или их деятельность запрещена.