'
Зиновьев М.А.
ГЕНЕРАЦИЯ СИНТЕТИЧЕСКИХ ДАННЫХ В ЗАДАЧАХ ОБРАЗОВАТЕЛЬНОЙ АНАЛИТИКИ *
Аннотация:
в статье описан подход к генерации синтетических данных для моделирования успеваемости студентов в образовательной аналитике. Разработана программа на Python, создающая реалистичные данные, включая посещаемость, аттестации и итоговые баллы. Описаны используемые распределения, нормализация, визуализация и их применимость для тестирования моделей.
Ключевые слова:
прогнозирование успеваемости студентов, язык Python, генерация синтетических данных
Введение. Прогнозирование успеваемости студентов требует качественных данных, но доступ к реальным данным часто ограничен [1]. Генерация синтетических данных позволяет создавать реалистичные наборы для тестирования моделей машинного обучения [2]. В статье подробно описана программа для генерации таких данных, включая используемые библиотеки, обоснование выбранных факторов, обработку и визуализацию.Методология генерации данных. Программа, реализованная на Python, генерирует синтетические данные для 10 000 студентов, моделирующие успеваемость по конкретной дисциплине за семестр. Набор включает:Посещаемость: Процент посещаемости лекций и практик (0–100%), моделируется бета-распределением (пик около 70–80%) [3].Аттестации: Баллы за первую и вторую промежуточные аттестации (макс. 30), с нормальным шумом.Уровень знаний: Баллы ЕГЭ (81–300, равномерное распределение) для первокурсников, средний балл (0–100) для старших курсов.Итоговый балл: Сумма аттестаций и экзамена (0–100).Процесс обработки данных:Нормализация: Данные приведены к диапазону [0, 1] для использования в моделях.Разделение: 80% — обучающая выборка, 20% — тестовая (Scikit-learn).Сохранение: Форматы CSV и NumPy (.npz).Программа генерации данных.Программа использует следующие библиотеки Python для эффективной генерации и обработки данных:NumPy: Обеспечивает работу с многомерными массивами и генерацию случайных чисел [2].Pandas: Используется для структурирования данных в таблицы (DataFrame) [6].Matplotlib: Применяется для визуализации распределений данных [4].Программа включает модули для генерации, нормализации, разделения и визуализации данных, обеспечивая их готовность для моделей машинного обучения.Обоснование выбранных факторов, влияющих на успеваемость студентовВыбор признаков основан на их значимости для прогнозирования успеваемости, подтвержденной исследованиями [5, 7]:Посещаемость лекций и практик: Регулярное посещение занятий коррелирует с успеваемостью (коэффициент корреляции 0.65–0.70), так как обеспечивает усвоение материала [7]. Разделение на лекции и практики отражает их различное влияние: лекции дают теорию, практики — навыки.Промежуточные аттестации: Баллы за аттестации отражают текущую успеваемость и имеют высокую корреляцию с итоговым результатом (0.80) [1]. Две аттестации позволяют учесть динамику обучения.Уровень знаний: Баллы ЕГЭ для первокурсников (корреляция 0.55) и средний балл для старших курсов (0.70) отражают начальную подготовку и текущие достижения [5].Эти факторы охватывают ключевые аспекты учебного процесса, обеспечивая комплексный подход к моделированию успеваемости.Процесс обработки данных. Нормализация: Признаки приведены к диапазону [0, 1] для совместимости с моделями машинного обучения: посещаемость остается без изменений, аттестации делятся на 30, уровень знаний нормализуется с учетом семестра, итоговые баллы — на 100.Разделение: Данные разделены на обучающую (80%) и тестовую (20%) выборки с использованием функции train_test_split из Scikit-learn [3].Сохранение: Данные сохранены в форматах CSV (для анализа в Excel) и NumPy (.npz, для загрузки в Python).Визуализация данных. Для визуализации данных с помощью Matplotlib созданы гистограммы распределений:Посещаемость: Пик около 70–80%, что соответствует реальным сценариям.Аттестации: Нормальное распределение с пиком около 20–25 баллов, вторая аттестация слегка выше.Уровень знаний: Два диапазона (ЕГЭ: 150–200, средний балл: 60–80).Итоговые баллы: Пик около 70–80, включая низкие и высокие результаты.Анализ распределений подтвердил реалистичность данных, пригодных для тестирования моделей прогнозирования.Применение данных. Синтетические данные подходят для тестирования моделей прогнозирования, таких как гибридный метод, сочетающий регрессию Надарая-Ватсона и локальную линейную регрессию [5]. Они моделируют разнообразные сценарии успеваемости, что важно для разработки адаптивных образовательных систем.Результаты программы. Программа создаёт следующие файлы:1. student_data_raw.csv: исходные данные с ненормализованными значениями (все данные).2. student_data_normalized.csv: нормализованные данные (все данные).3. student_data_train.csv: исходные данные для обучающей выборки.4. student_data_train_normalized.csv: нормализованные данные для обучающей выборки.5. student_data_test.csv: исходные данные для тестовой выборки.6. student_data_test_normalized.csv: нормализованные данные для тестовой выборки.7. student_data_split.npz: единый файл с разделёнными данными (обучающая и тестовая выборки).Пример первых строк из student_data_train.csv представлен в таблице 1.Таблица 1. Пример строк из файла student_data_train.csv.Визуализация.Программа генерирует четыре графика:Распределение посещаемости.Распределение баллов за аттестации.Распределение уровня знаний.Распределение итоговых баллов.Рисунок 1. Распределение посещаемости лекций и практик.Рисунок 2. Распределение баллов за аттестации.Рисунок 3. Распределение уровня знаний.Рисунок 4. Распределение итоговых баллов.Анализ результатов:Посещаемость (Рисунок 1): Распределение посещаемости лекций и практик показывает пик около 0.7–0.8 (70–80%), что соответствует реалистичному сценарию: большинство студентов посещают занятия регулярно, но есть небольшая доля студентов с низкой посещаемостью (менее 50%). Разница между лекциями и практиками минимальна, что отражает схожую посещаемость этих типов занятий, хотя практики имеют чуть более широкий разброс, что может быть связано с меньшей обязательностью их посещения в некоторых образовательных системах.Аттестации (Рисунок 2): Распределение баллов за первую и вторую аттестации имеет форму, близкую к нормальному распределению, с пиком около 20–25 баллов (из 30). Это указывает на то, что большинство студентов получают высокие баллы, но есть и те, кто справляется хуже (баллы ниже 15). Вторая аттестация имеет слегка более высокие значения, что соответствует моделированию зависимости второй аттестации от первой (студенты, хорошо сдавшие первую, склонны улучшать результат).Уровень знаний (Рисунок 3): Распределение уровня знаний отражает два разных диапазона: баллы ЕГЭ (для 1-го семестра) и средние баллы за предыдущий семестр (для остальных). Пики около 150–200 для ЕГЭ и 60–80 для средних баллов показывают, что данные реалистичны: баллы ЕГЭ имеют более широкий разброс, так как они моделируются равномерным распределением, а средние баллы смещены к более высоким значениям, что соответствует моделированию зависимости от посещаемости и предыдущих результатов.Итоговые баллы (Рисунок 4): Распределение итоговых баллов имеет форму, близкую к нормальному распределению, с пиком около 70–80 баллов (из 100). Это отражает реалистичный сценарий: большинство студентов успешно сдают дисциплину, но есть небольшая доля с низкими баллами (менее 40, "Не сдал") и высокими (более 80, "Отлично"). Такое распределение подтверждает, что данные подходят для задачи прогнозирования, так как они включают разнообразные сценарии успеваемости.Заключение. Разработанный подход к генерации синтетических данных обеспечивает создание реалистичных наборов для задач образовательной аналитики. Учет ключевых факторов, таких как посещаемость, аттестации и уровень знаний, делает данные пригодными для тестирования моделей прогнозирования. В будущем методология может быть расширена добавлением новых признаков, что повысит ее универсальность.
Номер журнала Вестник науки №6 (87) том 3
Ссылка для цитирования:
Зиновьев М.А. ГЕНЕРАЦИЯ СИНТЕТИЧЕСКИХ ДАННЫХ В ЗАДАЧАХ ОБРАЗОВАТЕЛЬНОЙ АНАЛИТИКИ // Вестник науки №6 (87) том 3. С. 1748 - 1756. 2025 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/24424 (дата обращения: 10.02.2026 г.)
Вестник науки © 2025. 16+