'
Дедюля А.Д.
СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ ОБРАБОТКИ ДАННЫХ В БД *
Аннотация:
в статье рассмотрена проблема совместимости данных при интеграции различных СУБД и необходимость автоматизации приведения типов данных. Проведен сравнительный анализ методов обработки данных в различных СУБД с акцентом на возможности использования методов искусственного интеллекта. Представлены сравнительные характеристики популярных решений и рассмотрены перспективы интеграции интеллектуальных алгоритмов в процессы миграции данных.
Ключевые слова:
искусственный интеллект, СУБД, приведение типов, совместимость данных, машинное обучение
DOI 10.24412/2712-8849-2025-687-1733-1739
Целью статьи является анализ и сравнение существующих подходов к обработке данных в СУБД, включая методы автоматизации преобразования типов данных с применением алгоритмов искусственного интеллекта. В рамках данной цели рассматриваются ключевые характеристика различных СУБД, существующие методы обработки и приведения типов данных, а также возможности использования интеллектуальных алгоритмов. Задачами статьи также являются: выявление отличительных особенностей популярных СУБД, обзор и оценка применяемых подходов к автоматической трансформации данных, а также сравнение алгоритмов искусственного интеллекта по критериям применимости в задачах обработки табличных данных.В условиях стремительного роста объёмов цифровой информации и широкого применения распределённых информационных систем всё более актуальной становится задача обеспечения совместимости данных между различными системами управления базами данных (СУБД). Различия в архитектуре, типах данных, механизмах хранения и индексирования, реализованных в таких СУБД как PostgreSQL, MySQL, Oracle и Microsoft SQL Server (таблица 1), затрудняют их унификацию в рамках общих аналитических и прикладных систем. Особенно критично это при построении корпоративных хранилищ данных и при миграции инфраструктур между технологическими платформами. Ниже приведена сравнительная таблица 1 характеристик СУБД.Таблица 1. Сравнение характеристик СУБД.Для эффективной интеграции данных требуется не только синтаксическое, но и семантическое сопоставление структур, типов и значений. Один из наиболее проблемных аспектов — автоматическое приведение типов данных при объединении таблиц. Например, преобразование типа данных DATETIME в MySQL в TIMESTAMP WITH TIME ZONE в PostgreSQL должно учитывать особенности часовых поясов, точности, границ значений и бизнес-логики. Ручное выполнение таких операций требует значительных ресурсов и сопряжено с высокой вероятностью ошибок, особенно в системах с большим числом таблиц и полей.Современные подходы к обработке и трансформации данных в СУБД реализуются с использованием как классических ETL-платформ, так и более интеллектуальных систем с элементами машинного обучения. Одним из широко применяемых решений является Talend Data Integration [8] — платформа с графическим интерфейсом, поддерживающая построение потоков данных с возможностью фильтрации, преобразования типов, агрегирования и связывания данных из различных источников. Talend применяется в корпоративных средах, в том числе в проектах миграции банковских систем, где требуется преобразование форматов хранения дат, чисел и текстовых меток. Другим распространённым инструментом является Apache NiFi [9] — решение с архитектурой потоковой обработки, активно использующееся в компаниях, работающих с IoT-данными (например, в General Electric и Hortonworks), где критична скорость маршрутизации и динамическое изменение структуры данных.Несмотря на мощный функционал, оба инструмента преимущественно зависят от ручного конфигурирования логики преобразований. В последние годы наблюдается рост интереса к интеллектуальной обработке структурированных данных. Например, в платформе Google Cloud Data Fusion реализована интеграция с AutoML для интеллектуального сопоставления схем и предсказания типов. Сервисы, подобные DataRobot [11] и H2O.ai [12], позволяют использовать обучаемые модели на этапе трансформации данных — особенно эффективны они при необходимости автоматической классификации столбцов таблиц по предполагаемому типу или содержимому. Тем не менее, подобные решения пока ограниченно применимы в задачах миграции между СУБД, так как требуют предварительной разметки и подготовки обучающих выборок, что сдерживает их масштабируемость.В рамках исследования предложен гибридный подход, объединяющий правила маппинга с алгоритмами машинного обучения. Для обучения модели используется выборка, включающая пары типов данных и соответствующие преобразования, собранные на основе анализа открытых схем баз данных. Алгоритм принимает на вход набор признаков поля: статистику значений, частотные характеристики, наличие null-значений, текстовую семантику названий. Выходом модели является наиболее вероятный тип в целевой СУБД.Рисунок 1. Этапы интеллектуального преобразования данных.Процесс преобразования данных с использованием ИИ включает следующие этапы: предварительный анализ структуры таблиц, извлечение признаков, обучение модели, предсказание целевого типа и валидацию результата (рисунок 1). Каждый этап направлен на минимизацию потерь информации и максимальное соответствие семантике исходных и целевых полей. Для реализации данного процесса в рамках исследования, предполагается, что могут быть использованы ансамбли XGBoost и нейросети с архитектурой LSTM, способные анализировать как структурные особенности данных, так и их поведенческую последовательность в трансформациях. Ниже приведена сравнительная таблица 2 методов обработки данных.Таблица 2. Сравнение методов обработки данных с использованием ИИ.Разработка интеллектуального алгоритма обработки данных позволяет существенно сократить издержки при миграции, обеспечить корректность объединения таблиц и повысить согласованность интегрируемых информационных систем. Предложенный подход может быть использован при проектировании гибридных инфраструктур, а также при построении систем с высокой степенью автономности обработки данных, таких как интеллектуальные хранилища и системы управления знаниями.
Номер журнала Вестник науки №6 (87) том 3
Ссылка для цитирования:
Дедюля А.Д. СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ ОБРАБОТКИ ДАННЫХ В БД // Вестник науки №6 (87) том 3. С. 1733 - 1739. 2025 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/24422 (дата обращения: 22.01.2026 г.)
Вестник науки © 2025. 16+