'
Фаркова Н.А.
НЕНЕЦКИЙ ЯЗЫК: СОЗДАНИЕ И ИСПОЛЬЗОВАНИЕ ДАТАСЕТА *
Аннотация:
в данной работе была представлена важная инициатива по созданию уникального датасета, который стал первым в своем роде для ненецкого языка. Подготовка данных для обучения моделей распознавания речи является критически важным этапом. Для увеличения объема датасета использовались предложения из новостных публикаций социальной сети ВКонтакте, которые были озвучены с помощью технологий искусственного интеллекта. Также в датасет вошли аудиозаписи ненецких сказок, которые были транскрибированы в текст для обучения моделей. Все аудиозаписи были сегментированы на более мелкие части, от 2 до 5 секунд, что упростило их обработку и анализ, а также повысило точность исследований.
Ключевые слова:
нейросетевое моделирование, малоресурсный язык, ненецкий язык, распознавание аудиозаписей, северосамодийская группа
Распознавание речи — это одна из наиболее динамично развивающихся областей искусственного интеллекта, играющая ключевую роль в создании интерактивных интерфейсов и приложений. В последние годы особое внимание уделяется разработке технологий для языков меньшинств, таких как ненецкий, который используется коренным населением России. Ненецкий язык, принадлежащий к самодийской группе уральской языковой семьи, является родным для ненецкого народа, проживающего на территории России, в основном в Ненецком автономном округе, Ямало-Ненецком автономном округе, республике Коми, Ханты-Мансийском автономном округе – Югра и Красноярском крае.Тундровые ненцы заселяют обширное пространство севера европейской части России и Западной Сибири от Белого моря на западе до полуострова Таймыр на востоке. Большая часть этноса проживает на территориях Ненецкого автономного округа Архангельской области, Ямало-Ненецкого автономного округа Тюменской области (Приуральский, Ямальский, Надымский, Пуровский и Тазовский районы) и Таймырского Долгано-ненецкого района Красноярского края. Небольшие группы тундровых ненцев также проживают в Архангельской области, северных районах Республики Коми, Ханты-Мансийском автономном округе – Югра Тюменской области и в Ловозерском районе Мурманской области.По данным переписи населения 2010 года, около 22 тысяч человек владеют ненецким языком. Число говорящих на ненецком языке в традиционных населенных пунктах составляет 23,404 человека, в то время как в более современных условиях, таких как Ненецкий АО, наблюдается снижение владения языком среди молодежи [17]. Это связано с тем, что в городах и поселках ненецкий язык постепенно утрачивается, в то время как в тундре, где традиционный образ жизни сохраняется, язык продолжает активно использоваться.Исторически ненецкий язык имел несколько альтернативных названий, включая «юракский» и «самоедский», но в настоящее время он рассматривается как самостоятельный язык, отличающийся от лесного ненецкого. Внутри тундрового ненецкого языка выделяются западные и восточные диалекты, которые имеют фонетические и лексические различия, но остаются взаимопонимаемыми для носителей.Современная письменность ненецкого языка начала развиваться в 1930-х годах, когда была создана первая ненецкая книга. С тех пор ненецкий язык использует кириллицу с добавлением специфических букв для обозначения звуков, характерных для языка. Несмотря на это, уровень владения письменностью остается низким среди молодежи.Как и многие другие языки малочисленных народов, ненецкий язык находится под угрозой исчезновения. Разработка систем автоматического распознавания речи (ASR) для ненецкого языка становится актуальной задачей, поскольку такие технологии могут способствовать сохранению и популяризации языка. В аналогичных исследованиях, проведенных по другим языкам, таким как якутский и карельский, подчеркивается важность сбора и обработки речевых данных, которые помогают улучшить качество распознавания.Подготовка данных для обучения моделей распознавания речи является важным этапом. В статье [15] описаны методы сбора и обработки данных, которые могут быть применены и к ненецкому языку. Для реализации проекта был создан уникальный датасет, объединяющий аудио- и текстовые материалы. Он стал первым в своем роде и не имел аналогов ранее.В состав датасета вошли тексты песен на ненецком языке. Песни были предоставлены авторами проекта "Сё мэти" мя" ("Дом поющих голосов") [6], супругами Неркагы Еленой и Сэротэтто Ильей из города Надыма.Для увеличения датасета были взяты предложения из новостных публикаций [30] социальной сети ВКонтакте и озвучены с помощью искусственного интеллекта на сайтах: https://voicebot.su/, https://apihost.ru/voice, https://freetts.ru/ [14,15,16].Аудиозаписи ненецких сказок были транскрибированы в текст для пополнения данных для обучения.Все аудиозаписи были сегментированы на более мелкие части, от 2 до 5 секунд, для удобства последующей обработки и анализа. Это упростило процесс извлечения необходимых данных и позволило более точно проводить исследования.На данный момент объем датасета ограничен, но планируется его расширение. В частности, планируется добавить аудиодорожку из мультфильма на ненецком языке [13]. Это увеличит разнообразие и репрезентативность корпуса данных, сделав его более полезным для исследователей и лингвистов.Для проекта был загружен датасет на ненецком языке. В данной работе описывается процесс обработки аудиофайлов и текстовых данных для обучения модели распознавания речи. Сначала проверяется наличие данных с помощью функции `check_files`, которая определяет количество аудиофайлов формата .wav и загружает соответствующий CSV-файл с текстами. Если текстовая запись отсутствует или превышает заданную длину, она пропускается. В результате найдено 221 аудиофайл и 222 записи в CSV, обработано 166 примеров.Далее создаются сопоставления символов и индексов с помощью функции `create_mappings`, что позволяет преобразовать текст в числовые метки. Функция `text_to_labels` преобразует текстовые записи в метки, игнорируя незначимые символы. Затем извлекаются MFCC-признаки из аудиофайлов с помощью функции `extract_features`. Если длина аудиосигнала меньше заданной, он дополняется.После извлечения признаков данные подготавливаются в цикле, где формируются списки X (MFCC-признаки) и Y (текстовые метки). Для выравнивания длины входных данных используется функция `pad_sequences`. В конце данные делятся на обучающую и валидационную выборки с помощью `train_test_split`. По завершении всех этапов получены 166 аудио признаков, обучающая выборка состоит из 132 примеров, а валидационная — из 34 примеров.Для разработки модели распознавания речи были выбрана архитектура, основанная на Конформер (Рисунок 6.1), которая включает механизмы внимания для улучшения обработки последовательностей.Модель была обучена с использованием функции потерь CTC (Connectionist Temporal Classification). Обучение проводилось на полученных данных с использованием минимального размера батча и 10 эпох.Сначала выполняется предсказание на валидационном наборе данных с помощью модели, что приводит к получению вероятностных выходов для каждого временного шага. Затем применяется декодер CTC, который преобразует вероятностные выходы в последовательности символов.Следующий шаг — это определение функции для вычисления коэффициента ошибок символов (далее CER) [13]. CER рассчитывается как отношение расстояния Левенштейна (число операций редактирования, необходимых для преобразования одной строки в другую) к длине эталонной строки.Результаты экспериментов варьировались от 0.5 до 0.944, что указывает на значительные расхождения между предсказанными и эталонными текстами. Значение CER в 0.5 свидетельствует о том, что модель правильно распознала лишь 50% символов, в то время как более высокие значения, близкие к 0.944, показывают наличие серьезных ошибок в распознавании.Тундровый ненецкий язык, несмотря на относительную сохранность по сравнению с другими языками коренных народов Севера, сталкивается с вызовами в области жизнеспособности, особенно в западных регионах. Тем не менее, создание и развитие таких ресурсов, как наш датасет, являются важными шагами в поддержке и сохранении ненецкого языка, который продолжает оставаться значимой частью культурного наследия коренных народов.
Номер журнала Вестник науки №5 (86) том 4
Ссылка для цитирования:
Фаркова Н.А. НЕНЕЦКИЙ ЯЗЫК: СОЗДАНИЕ И ИСПОЛЬЗОВАНИЕ ДАТАСЕТА // Вестник науки №5 (86) том 4. С. 1487 - 1493. 2025 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/23456 (дата обращения: 12.07.2025 г.)
Вестник науки © 2025. 16+
*