'
Жаров В.В., Сараев П.В.
СОЗДАНИЕ ГРАФОВОЙ RAG-СИСТЕМЫ ПО ЦИФРОВОМУ ПРАВУ РОССИЙСКОЙ ФЕДЕРАЦИИ *
Аннотация:
в данной работе рассмотрены ограничения взаимодействия с большими языковыми моделями (LLM), проанализированы особенности классического подхода Retrieval-Augmented Generation (RAG), а также предложен способ его усовершенствования с использованием графовых структур. Разработана база знаний по законам 149-ФЗ и 152-ФЗ, регулирующим цифровое право в Российской Федерации, и создана система правовой консультации на основе LLM. Проведена оценка качества генерации ответов, продемонстрировавшая преимущество использования контекстной информации из базы знаний по сравнению с генерацией без неё.
Ключевые слова:
цифровое право, генеративный ИИ, большие языковые модели
В последние годы генеративный искусственный интеллект (англ. Generative Artificial Intelligence, GenAI) получает всё более широкое распространение в деловой среде, поскольку способен эффективно автоматизировать повседневные задачи — от поиска информации до подготовки различных документов и справок. Это способствует оптимизации ресурсов и снижению временных затрат. Согласно данным за последние два года, использование GenAI охватило уже 71% организаций и продолжает демонстрировать устойчивый рост [8].Под генеративным ИИ понимается совокупность алгоритмов и моделей, способных создавать новый контент — текстовый, визуальный, аудиовизуальный и др. Такие модели формируют результат на основе вводимого запроса (промпта) и обобщённых закономерностей, выявленных из обучающих данных.Наиболее значимый вклад в развитие этой технологии внесли большие языковые модели (англ. Large Language Models, LLM), которые обучаются на обширных текстовых корпусах. Однако, несмотря на достигнутые успехи, существует ряд ограничений, сдерживающих масштабное внедрение таких систем. LLM, функционирующие без доступа к актуальным источникам, нередко генерируют ответы, не соответствующие действительности, подстраиваясь под предполагаемые ожидания пользователя. Подобные "галлюцинации", выражающиеся в создании несуществующих фактов или логически некорректных выводов, становятся особенно критичными в правовой сфере, где точность и достоверность информации имеют первостепенное значение. В связи с этим практическое применение генеративных моделей в юриспруденции ограничено, а ведущую роль по-прежнему вынужден играть человек.Существенный шаг к преодолению ограничений традиционных LLM был сделан в 2020 году с появлением архитектуры Retrieval-Augmented Generation (RAG) [6], представляющей собой гибридный подход, сочетающий генеративные возможности LLM с механизмами поиска по внешним источникам. Используя внешнюю базу знаний, RAG подаёт в качестве входных данных для языковой модели релевантную и достоверную информацию, что существенно повышает точность и обоснованность выдаваемых ответов.Тем не менее, и этот подход имеет ряд значимых ограничений. Одна из ключевых проблем базовых реализаций RAG заключается в недостаточном учёте внутренней структуры и связности исходных документов. На практике тексты разбиваются на небольшие фрагменты — как правило, параграфы, содержащие отдельные логически завершённые мысли. Однако при этом теряется информация о контексте, логической последовательности и взаимосвязях между частями документа. Это особенно критично для структурированных текстов, таких как нормативные акты, инструкции или алгоритмы, где порядок следования пунктов определяет смысл и корректность интерпретации. Аналогичные сложности возникают при обработке табличных данных, гипертекстовых связей или других структурированных форматов, в которых контекст играет решающую роль. В результате базовые RAG-системы оказываются малоэффективны при необходимости формирования развёрнутого и обоснованного ответа на сложный запрос.В качестве решения описанной выше проблемы была предложена модификация RAG-подхода с использованием графовой структуры представления знаний — так называемый GraphRAG [2]. В данной архитектуре смысловые единицы (например, фрагменты текста или утверждения) формализуются в виде вершин графа, а их семантические и логические взаимосвязи — в виде рёбер. Это позволяет сохранить структуру и контекст исходного документа, что существенно повышает качество извлечения информации.В рамках GraphRAG ретриверы (здесь: «модуль-извлекатель» от англ. retriever «извлечение») не только находят фрагменты, релевантные исходному запросу, но и могут «перемещаться» по графу, переходя к связанным узлам, тем самым расширяя контекст ответа и уточняя его содержание. Такой механизм позволяет учитывать сложные взаимосвязи в источниках знаний, что особенно важно при работе с нормативными документами, структурированными текстами и данными, где взаимозависимость элементов критична для точного понимания.Интеграция графов знаний (Knowledge Graph) в системы генерации на основе поиска признана значимым технологическим прорывом. Согласно исследованию Gartner, Knowledge Graph занимает одно из ключевых мест среди наиболее перспективных направлений развития искусственного интеллекта наряду с широким распространением генеративных моделей [7].Настоящая статья посвящена проектированию и реализации RAG-системы, ориентированной на специфическую предметную область — цифровое право Российской Федерации. В ходе исследования рассматриваются особенности применения больших языковых моделей в данной сфере, принципы функционирования системы на базе GraphRAG, а также проводится сравнительный анализ её работы с результатами, полученными от LLM, функционирующей без внешнего контекста.***Процесс обучения больших языковых моделей (Large Language Models, LLM) во многом аналогичен формированию речевых навыков у ребёнка. На ранних этапах ребёнок осваивает язык через взаимодействие с окружающей речевой средой, постепенно усваивая лексику и грамматические правила. Подобным образом LLM формирует своё «понимание» языка, анализируя огромные массивы текстовых данных и выявляя статистические закономерности между лексико-синтаксическими единицами. Чем более разнообразен и объёмен корпус обучающих данных, тем шире спектр знаний, доступных модели, и тем выше её способность генерировать связный и релевантный текст.Однако, как и в случае с ребёнком, не имевшим опыта общения на специализированную тему, языковая модель оказывается неспособной корректно ответить на вопросы, выходящие за рамки её обучающего корпуса. Так, модель не может достоверно интерпретировать или воспроизвести информацию по теме, которой не было в её тренировочном наборе. Это существенно ограничивает применимость LLM в динамичных и специализированных предметных областях, где требуется доступ к актуальным и узкопрофильным знаниям.Механизм Retrieval-Augmented Generation (RAG) предоставляет эффективное решение данной проблемы, позволяя LLM обращаться к внешним источникам информации во время генерации ответа. Объединяя способность модели к языковому обобщению с возможностями поиска и анализа документов, RAG повышает точность, информативность и обоснованность ответов. В отличие от «внутреннего» вывода на основе зафиксированных в модели параметров, система RAG опирается на фактические данные, актуальные и релевантные контексту запроса.Ключевые преимущества RAG-систем включают:Прозрачность генерации: предоставляется возможность отследить, на каких источниках базировался ответ, что повышает доверие к системе,Безопасность: данные могут храниться в изолированных и защищённых хранилищах с контролем доступа,Актуальность и доменная точность: возможно использование свежих данных, а также адаптация к специфике предметной области,Гибкость в настройке: возможно обучение и работа на конфиденциальных или проприетарных данных, что критически важно для корпоративных и правовых приложений.Несмотря на очевидные преимущества архитектуры Retrieval-Augmented Generation, её эффективность в значительной степени зависит от качества извлекаемой информации. Принцип “Bad data in, bad data out” [1] остаётся актуальным: при наличии неполных, нерелевантных или искажённых данных на входе, вероятность получения точного и полезного ответа от модели существенно снижается. В этой связи особую значимость приобретает развитие подходов, ориентированных на улучшение качества поиска. Одним из таких решений является система GraphRAG, использующая графовую модель представления знаний для повышения релевантности и структурной целостности извлекаемой информации.Граф знаний (Knowledge Graph) представляет собой формализованную модель отображения сущностей и отношений между ними, структурирующую знания о предметной области в виде вершин и рёбер. Такой подход позволяет не только визуализировать сложные взаимосвязи, но и эффективно обрабатывать их с помощью алгоритмов машинного анализа [3]. В контексте RAG-систем граф знаний выполняет функцию расширенного слоя контекста, обеспечивая сохранение связности между фрагментами информации и позволяя использовать семантические отношения между сущностями для более точного извлечения данных.Рисунок 1. Схема графовой базы данных.В отличие от классических реализаций RAG, в которых документы разбиваются на независимые параграфы без учёта их логических связей, GraphRAG дополняет текстовую информацию структурными и семантическими связями. Это даёт возможность использовать не только содержание отдельных фрагментов, но и контекстуальные связи между ними. При построении графа может применяться предварительная обработка данных: фильтрация, нормализация, обобщение — что способствует повышению точности извлечения и уменьшает объём избыточной информации.Рисунок 2. Схема GraphRAG.Особое внимание в GraphRAG уделяется этапу извлечения информации (retrieval). В зависимости от задачи могут использоваться различные типы ретриверов, ориентированные на работу с графовыми структурами [4]. Возможна комбинация нескольких подходов к поиску, с последующей агрегацией или ранжированием результатов. В более сложных архитектурах с использованием LLM-агентов, выбор и применение конкретных ретриверов осуществляется в автоматическом режиме. Такие агенты способны итерировать над доступными инструментами, подбирая оптимальные параметры для каждого вызова и интерпретируя промежуточные результаты до тех пор, пока не будет получена информация, достаточная для формулировки корректного и обоснованного ответа.В архитектуре GraphRAG используются различные типы ретриверов, каждый из которых обладает специфическими преимуществами, позволяющими эффективно решать задачи извлечения знаний в зависимости от контекста запроса и структуры графа. Условно можно выделить два базовых подхода к построению ретриверов: классические (эвристические) и на основе языковых моделей.Классические ретриверы, как правило, основаны на алгоритмах поиска по графу, таких как BFS, DFS, алгоритмы на основе веса связей или ранжирования вершин (например, PageRank), и не требуют использования нейросетевых моделей. Они демонстрируют высокую производительность при минимальных затратах вычислительных ресурсов и обеспечивают надёжность за счёт детерминированной логики. Такие подходы особенно эффективны в строго структурированных графах с явно выраженными и формализованными отношениями между сущностями.Ретриверы на базе языковых моделей, в свою очередь, обладают существенно более высокой гибкостью и адаптивностью. Благодаря способности интерпретировать сложные и разнообразные запросы на естественном языке, они значительно расширяют возможности взаимодействия с графовой базой знаний. В качестве таких моделей могут использоваться как трансформеры типа BERT, ориентированные на семантическое сопоставление, так и генеративные модели, такие как GPT. Дообученные модели (fine-tuned LLMs) способны формулировать уточнённые и целенаправленные запросы к графу, опираясь как на исходный пользовательский вопрос, так и на структуру графа и информацию, уже извлечённую из него. Это позволяет решать задачи, для которых заранее не предусмотрены специфические маршруты обхода или фиксированные шаблоны запросов.Таким образом, гибридное применение разных типов ретриверов позволяет достигать высокой точности извлечения знаний, сохраняя баланс между производительностью и качеством ответа. Кроме того, возможность интеграции языковых моделей в процесс поиска открывает перспективы для более интеллектуального и контекстно осмысленного взаимодействия с графовыми структурами.С практической точки зрения, использование GraphRAG в корпоративной среде обеспечивает возможность структурирования и систематизации критически важной информации, относящейся к специфике бизнеса и предметной области организации. Это делает GraphRAG мощным инструментом для построения интеллектуальных ассистентов, корпоративных систем поддержки принятия решений и автоматизации анализа внутреннего контента.***В данном разделе рассмотрим применение архитектуры GraphRAG в рамках построения RAG-системы, ориентированной на работу с юридическим знанием, а именно — в области цифрового права Российской Федерации.Следует отметить, что в российской правовой системе отсутствует формально выделенный самостоятельный раздел под названием «Цифровое право». Вместе с тем, правовое регулирование в сфере информационных технологий активно развивается и представлено в ряде нормативных актов, распределённых по различным отраслям законодательства. Эти акты охватывают следующие направления:регулирование правовых аспектов реализации IT-проектов,определение допустимого характера информации, размещаемой в публичном доступе в сети Интернет,правовой режим блокчейн-технологий и криптографических средств,нормы, касающиеся обработки и защиты персональных данных,особенности оборота и правового статуса данных, сгенерированных алгоритмами искусственного интеллекта.Эти сферы нередко пересекаются, дополняют и уточняют друг друга, образуя динамично развивающуюся предметную область, постоянно адаптирующуюся к технологическим и социальным изменениям. Именно высокая степень изменчивости и фрагментарности представления информации делает цифровое право особенно подходящим объектом для применения RAG-подхода. Использование интеллектуальной системы на базе GraphRAG позволяет агрегировать и структурировать разрозненные источники, а также быстро адаптировать базу знаний под актуальные изменения законодательства. Такая система может выступать в роли нейросетевого правового помощника, предоставляющего пользователю точную, актуальную и релевантную информацию по заданному юридическому запросу.Для демонстрации работы предложенной системы мы сосредоточим внимание на двух ключевых нормативных актах, отражающих фундаментальные положения российского цифрового законодательства:Федеральный закон № 149-ФЗ «Об информации, информационных технологиях и о защите информации»,Федеральный закон № 152-ФЗ «О персональных данных».Эти документы не только лежат в основе цифрового регулирования, но и служат хорошим примером структурированных текстов, содержащих взаимосвязанные положения, что делает их особенно показательными для тестирования возможностей GraphRAG.В рамках подготовки данных для построения базы знаний были использованы официальные тексты нормативных актов, полученные с ресурса consultant.ru в формате PDF. Однако данный формат представляется слабо пригодным для машинной обработки: в нём отсутствует чёткая структура, необходимая для дальнейшего анализа, а также сложно извлекаются семантические и структурные элементы текста.В связи с этим было принято решение о преобразовании исходных документов в формат Markdown. Данный формат представляет собой текстовый файл с элементами разметки, позволяющими удобно и однозначно интерпретировать структуру документа. Markdown сочетает в себе простоту синтаксиса и возможность расширения с помощью пользовательских обозначений (заголовки, списки, ссылки и др.), что делает его удобным для автоматизированной обработки [5].Рисунок 3. Схема узлов графовой базы данных.Структура закона была формализована в виде четырёхуровневой иерархии:Codex — полное представление всего федерального закона в качестве единого корневого узла,Article — отдельные статьи, составляющие основной смысловой каркас нормативного акта,Paragraph — пункты внутри каждой статьи, раскрывающие конкретные правовые положения,Subparagraph — подпункты, уточняющие или детализирующие содержание соответствующего пункта.Каждый из этих уровней был выделен и размечен в процессе предобработки, а затем представлен в виде отдельных узлов графовой базы знаний. При обращении к базе для обработки пользовательского запроса производится вычисление схожести между вектором запроса и векторами узлов на основе косинусного расстояния. В качестве релевантных выбираются топ-k наиболее близких узлов (в данном эксперименте — k = 3, значение настраивается через конфигурационный файл системы).Для каждого из отобранных узлов дополнительно извлекается контекст:вышестоящий узел, в который он вложен (например, подпункт → пункт, пункт → статья и т. д.),смежные узлы, располагающиеся в оригинальном тексте непосредственно до и после текущего (предшествующие и последующие элементы той же иерархии).Такой подход позволяет сохранить логико-смысловую последовательность оригинального текста, повысить полноту представленного контекста и тем самым обеспечить более качественную генерацию ответов на юридические запросы.Помимо основной графовой базы знаний, основанной на структурной иерархии нормативных текстов, в рамках системы реализована дополнительная параллельная графовая структура, построенная по принципу триплетов. Этот слой представляет собой онтологически ориентированный граф знаний, акцент в котором сделан не на структуре исходного документа, а на извлечении и формализации смысловых отношений между сущностями, встречающимися в тексте.Каждый триплет описывает семантическую связь между двумя сущностями в формате:Субъект−отношение/действие→ОбъектТакая репрезентация позволяет строить граф, в котором узлы представлены абстрактными сущностями (например, юридическими понятиями, объектами регулирования, субъектами права и т. д.), а рёбра описывают взаимоотношения между ними. В отличие от предыдущей базы, построенной на логике разметки текста, триплетный граф концентрируется на содержательной интерпретации и представляет собой своего рода онтологическую модель предметной области.Особенность данной модели состоит в том, что сущность может одновременно выступать как в роли субъекта, так и в роли объекта в различных отношениях. Повторяющиеся упоминания одной и той же сущности в разных контекстах группируются в единый узел графа, что способствует устранению дублирования и повышает когнитивную связность структуры.При выполнении запроса система анализирует полученные релевантные узлы (на основе векторного сопоставления или других метрик) и извлекает все сущности, находящиеся с ними в прямых семантических связях. Результаты представляются в виде упрощённой схемы:Объект A−связан с→Объект Bс разделением по блокам и визуальным отделением фрагментов для удобства дальнейшей генерации.После завершения этапа извлечения (фаза Retrieval) полученные данные — независимо от того, поступили они из структурного графа, из графа триплетов или из обоих источников одновременно (в зависимости от выбранного режима работы) — аугментируют исходный пользовательский запрос. На этом этапе происходит формирование расширенного текстового контекста, который затем подаётся на вход языковой модели. Данный шаг реализует ключевую идею Retrieval-Augmented Generation, повышая релевантность и обоснованность создаваемых моделью ответов.Для обеспечения корректной работы большой языковой модели в рамках RAG-системы, пользовательский запрос вместе с аугментированным контекстом из базы знаний подаётся на вход LLM совместно с системным промптом. Системный промпт формируется с целью чёткого задания условий генерации ответа и включает следующие ключевые инструкции:установление предметной области, в рамках которой модель должна работать (в данном случае — правовое поле Российской Федерации),указание языка ответа (русский язык),рекомендация опираться преимущественно на предоставленный контекст из базы знаний, если он релевантен заданному вопросу,предъявление требований к ответу, включающих точность, полноту изложения, структурированность и ясность формулировок,разрешение на формулирование уточняющих вопросов пользователю в ситуациях, когда входные данные недостаточны для однозначного ответа, что возможно при наличии реализованного диалогового контекста.Такой подход к формированию системного промпта обеспечивает повышение качества и надёжности ответов, а также способствует более эффективному взаимодействию пользователя с интеллектуальной системой.Рисунок 4. Графовая база данных по чанкам.На рисунке представлена фрагментарная визуализация графовой базы данных системы, сформированной на основе разбиения нормативного документа на структурные единицы — чанки. На графе выделены два крупных узла типа Codex (отмечены сиреневым цветом), которые соответствуют основным корпусам законодательства. Кроме того, на схеме отображены узлы, представляющие статьи закона (зелёный цвет), а также выделены отдельные узлы пунктов (красный цвет) и подпунктов (телесный цвет), что демонстрирует иерархическую организацию и взаимосвязи внутри документа.Рисунок 5. Граф знаний по триплетам.На представленной иллюстрации изображён фрагмент графа знаний, основанного на семантических триплетах, включающий около 300 вершин. Такая визуализация отражает структуру онтологической модели, где узлы соответствуют ключевым сущностям предметной области, а рёбра — семантическим отношениям между ними, что позволяет анализировать взаимосвязи и строить сложные смысловые конструкции на основе исходных текстов.Давайте рассмотрим пример работы системы.Рисунок 6. Пример ответов системы на вопрос.В рассматриваемом примере языковая модель без использования дополнительного контекста продемонстрировала удовлетворительный уровень ответа на поставленный вопрос. Тем не менее, в её ответе обнаружилась ошибка в виде галлюцинации — упоминание несуществующего Федерального закона «О связи и о тарифах при предоставлении услуг связи». В свою очередь, ответ системы, использующей полный контекст, включающий как чанки документа, так и триплеты, оказался значительно более точным и корректным. Он предоставил верное определение и сослался на конкретный фрагмент законодательства, содержащий соответствующую норму.Для оценки качества ответов и эффективности работы системы в целом была использована метрика косинусной близости. После преобразования вопроса и ответа в векторные представления (эмбеддинги) рассчитывалась степень их схожести в семантическом пространстве. В качестве экспериментальной выборки было использовано 1280 вопросов, сформированных синтетически с помощью большой языковой модели на основе отдельных пунктов нормативных актов. Средние значения вычисленных метрик представлены в таблице 1.Таблица 1. Результаты работы системы. Метрика Mean similarity score.Анализ результатов, представленных в Таблице 1, показывает положительную динамику качества ответов при применении различных конфигураций системы. Наихудшие показатели наблюдаются у базовой модели, работающей без использования дополнительного контекста и внешних данных. Лучшие результаты достигаются в режиме Full, когда модели предоставляется полный доступ к вспомогательной информации.Тем не менее, абсолютные значения метрики не всегда дают полное представление о качестве ответов. В данном исследовании наблюдается явная тенденция улучшения показателей с увеличением объёма доступной модели информации, однако для оценки влияния системы на качество ответов важно учитывать и количественные изменения метрики.При ручной проверке сопоставления оценок mean similarity score было выявлено, что ответы, содержащие лишь упоминания закона или схожие ключевые слова, но не обеспечивающие корректного решения вопроса, могли получать значения сходства выше 0.8. В связи с этим было решено установить пороговые значения от 0.8 до 0.9 для классификации ответов: если значение mean similarity score ниже порога, ответ считается некорректным (0), а если выше — корректным (1). Данный подход позволяет более точно оценить качество выдачи системы, выделяя действительно релевантные ответы.Таблица 2. Результаты работы системы. Метрика Border score.Анализ данных, представленных в Таблице 2, показывает, что метрика корректности ответов для Blank-системы значительно снижается при увеличении порогового значения, используемого для классификации ответа как правильного. В то же время, изменения метрик для остальных конфигураций становятся заметными только при достижении верхнего порога — 0,89. При пороге 0,86 значение метрики для системы Full по сравнению с Blank выросло на 51%, а при пороге 0,89 — увеличилось в три раза, составив 200% от исходного показателя.Таким образом, проведённое исследование позволяет утверждать, что применение RAG-архитектуры, основанной на графовых структурах, существенно повышает качество ответов больших языковых моделей, не специализированных на юридическом корпусе. Интеграция дополнительных механизмов аугментации данных способствует не только извлечению релевантного контекста из нормативно-правовых актов, но и формированию точных ссылок на источники, что обеспечивает прозрачность и возможность проверки ответов пользователем. Кроме того, при необходимости модель способна предоставлять разъяснения с использованием упрощённого языка, иллюстративных примеров и логических связей, что значительно повышает её практическую ценность в правовой области.
Номер журнала Вестник науки №6 (87) том 1
Ссылка для цитирования:
Жаров В.В., Сараев П.В. СОЗДАНИЕ ГРАФОВОЙ RAG-СИСТЕМЫ ПО ЦИФРОВОМУ ПРАВУ РОССИЙСКОЙ ФЕДЕРАЦИИ // Вестник науки №6 (87) том 1. С. 1395 - 1414. 2025 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/23750 (дата обращения: 09.07.2025 г.)
Вестник науки © 2025. 16+
*