'
Михайлов Д.А.
РАЗРАБОТКА МОБИЛЬНОГО ПРИЛОЖЕНИЯ ДЛЯ РАСПОЗНАВАНИЯ РУССКОГО ЖЕСТОВОГО ЯЗЫКА С ИСПОЛЬЗОВАНИЕМ НЕЙРОННЫХ СЕТЕЙ *
Аннотация:
в статье рассматриваются вопросы разработки мобильного приложения для распознавания русского жестового языка в режиме реального времени с использованием нейронных сетей. Проанализированы существующие подходы к распознаванию жестов, выявлены их преимущества и недостатки. Предложена архитектура нейронной сети, сочетающая сверточные и рекуррентные слои для эффективного распознавания как статических, так и динамических жестов. Описан процесс формирования обучающей выборки и предобработки данных. Представлены результаты экспериментального тестирования разработанного приложения, показывающие точность распознавания на уровне 82% для базового набора жестов. Обсуждаются перспективы дальнейшего развития системы и возможности ее практического применения для улучшения коммуникации между слышащими людьми и людьми с нарушениями слуха.
Ключевые слова:
жестовый язык, распознавание жестов, нейронные сети, компьютерное зрение, мобильное приложение, инклюзивные технологии, машинное обучение
1. Введение.Согласно статистическим данным, в России проживает около 13 миллионов человек с различными нарушениями слуха [1], из которых более 150 тысяч яв ляются носителями жестового языка [2]. По прогнозам исследователей, к 2025 году число слабослышащих в России увеличится на 16,8%, достигнув 19,5 миллионов человек [3]. Эти цифры подчеркивают актуальность разработки технологических решений, способствующих преодолению коммуникационных барьеров между слышащими людьми и людьми с нарушениями слуха.Жестовые языки представляют собой полноценные лингвистические системы со своей грамматикой, синтаксисом и лексикой. Русский жестовый язык (РЖЯ) официально признан языком общения при наличии нарушений слуха и (или) речи в соответствии с Федеральным законом от 30.12.2012 № 296-ФЗ. Однако, несмотря на официальный статус, существует значительный разрыв в коммуникации между носителями жестового языка и остальным населением, что создает серьезные социальные и психологические барьеры для людей с нарушениями слуха.Современные технологии компьютерного зрения и машинного обучения открывают новые возможности для автоматического распознавания жестового языка. Разработка мобильного приложения, способного в режиме реального времени распознавать жесты и переводить их в текст или речь, может существенно улучшить качество жизни людей с нарушениями слуха, расширить их возможности в образовании, трудоустройстве и повседневном общении.Целью данного исследования является разработка мобильного приложения для распознавания русского жестового языка в режиме реального времени с использованием нейронных сетей, которое будет доступно на стандартных смартфонах без необходимости в дополнительном оборудовании.Для достижения поставленной цели были сформулированы следующие задачи:1. Анализ существующих методов распознавания жестового языка и выбор оптимального подхода для мобильной платформы.2. Формирование обучающей выборки, включающей как дактильную азбуку, так и наиболее употребительные жесты русского жестового языка.3. Разработка и обучение нейронной сети для распознавания жестов.4. Создание мобильного приложения с удобным пользовательским интерфейсом.5. Тестирование и оценка эффективности разработанного решения.2. Теоретические основы распознавания жестового языка.2.1. Особенности русского жестового языка.Русский жестовый язык (РЖЯ) является естественным языком и основным средством общения для значительной части глухих и слабослышащих граждан России. РЖЯ имеет собственную лингвистическую структуру, которая существенно отличается от структуры русского звукового языка. В отличие от калькирующей жестовой речи, которая следует грамматике русского языка, РЖЯ обладает собственной грамматикой, где порядок слов, выражение времени, числа и других грамматических категорий реализуется иначе [4].Жесты в РЖЯ можно разделить на несколько категорий:- дактильные знаки (жесты, обозначающие буквы алфавита) - указательные жесты,- изобразительные жесты - условные жесты.Важной особенностью жестового языка является его многокомпонентность. Каждый жест характеризуется:- конфигурацией руки (положение пальцев) - ориентацией ладони,- локализацией (положение руки относительно тела) – движением,- немануальным компонентом (выражение лица, движения губ, головы).Эта многокомпонентность создает дополнительные сложности при автоматическом распознавании жестов, так как требует одновременного анализа нескольких параметров.2.3. Анализ применимости различных архитектур нейронных сетей.Для распознавания статических жестов (например, дактильной азбуки) наиболее эффективными являются сверточные нейронные сети. Архитектуры типа VGG, ResNet или MobileNet позволяют достичь точности распознавания до 95% на тестовых наборах данных [7]. Преимуществом сверточных сетей является их способность автоматически извлекать пространственные признаки из изображений, а также относительная устойчивость к изменениям масштаба и положения объекта.Для распознавания динамических жестов, которые составляют большую часть жестового языка, необходимо учитывать временную составляющую. Здесь эффективны рекуррентные нейронные сети, особенно архитектуры с LSTM- ячейками, которые способны запоминать долговременные зависимости в последовательностях [8]. Исследования показывают, что гибридные архитектуры, сочетающие сверточные слои для извлечения пространственных признаков и рекуррентные слои для анализа временных последовательностей, дают наилучшие результаты в задачах распознавания жестового языка [9].3. Методология разработки приложения.3.1. Выбор архитектуры нейронной сети для распознавания жестов.На основе проведенного анализа для разработки системы распознавания русского жестового языка была выбрана гибридная архитектура, сочетающая преимущества сверточных и рекуррентных нейронных сетей. Основу системы составляет модифицированная архитектура MobileNetV2, которая обеспечивает эффективное извлечение пространственных признаков при относительно низких вычислительных затратах, что критично для работы на мобильных устройствах.Для распознавания статических жестов (дактильной азбуки) используется только сверточная часть сети с добавлением полносвязных слоев для классификации. Для распознавания динамических жестов выходы сверточной сети подаются на вход двунаправленной LSTM-сети, которая анализирует временные последовательности признаков.Архитектура нейронной сети для распознавания статических жестов включает:- входной слой (изображение размером 224×224×3),- модифицированную MobileNetV2 в качестве экстрактора признаков - глобальный пулинг для уменьшения размерности,- полносвязный слой с 512 нейронами и активацией ReLU - Dropout (0.5) для предотвращения переобучения,- выходной слой с количеством нейронов, соответствующим числу классов, и активацией softmax.Архитектура для распознавания динамических жестов дополнительно включает:- двунаправленный LSTM-слой с 256 ячейками,- второй LSTM-слой с 128 ячейками,- механизм внимания для фокусировки на наиболее значимых частях последовательности,- полносвязный слой с активацией softmax для классификации.4. Экспериментальная часть.4.1. Описание процесса обучения нейронной сети.Обучение нейронной сети проводилось в несколько этапов с использованием различных стратегий для достижения оптимального баланса между точностью распознавания и вычислительной эффективностью.На первом этапе была обучена модель для распознавания статических жестов (дактильной азбуки). Обучение проводилось на наборе данных, содержащем 6600 изображений (33 класса по 200 изображений). Данные были разделены на обучающую (70%), валидационную (15%) и тестовую (15%) выборки. Для обучения использовался оптимизатор Adam с начальной скоростью обучения 0.001 и экспоненциальным снижением до 0.00001. Размер батча составлял 32 изображения. Обучение проводилось в течение 100 эпох с ранней остановкой при отсутствии улучшения на валидационной выборке в течение 10 эпох.На втором этапе обучалась модель для распознавания динамических жестов. Обучающий набор включал 12500 видеопоследовательностей (250 классов по 50 видео). Для обучения использовалась комбинация сверточной сети, предобученной на первом этапе, и LSTM-сети для анализа временных последовательностей. Обучение проводилось с использованием оптимизатора Adam с начальной скоростью обучения 0.0005. Размер батча составлял 16 последовательностей, длина последовательности - 30 кадров. Обучение проводилось в течение 50 эпох.Для улучшения обобщающей способности модели применялись следующие техники:- регуляризация L2 с коэффициентом 0.0001 - Dropout с вероятностью 0.5,- аугментация данных в реальном времени,- смешивание данных от разных исполнителей жестов.После обучения базовых моделей была проведена их оптимизация для мобильных устройств:1. Квантизация модели с float32 до int8, что позволило уменьшить размер модели в 4 раза.2. Прунинг с удалением 30% связей с наименьшими весами.3. Дистилляция знаний, при которой компактная модель обучалась имитировать выходы более сложной модели.5. Обсуждение результатов.5.1. Достигнутые показатели точности распознавания.Разработанная система демонстрирует высокие показатели точности распознавания для дактильной азбуки (94.3%) и приемлемые показатели для динамических жестов (82.7%). Эти результаты сопоставимы с лучшими мировыми аналогами для американского жестового языка (ASL) и превосходят существующие решения для русского жестового языка.Особенно важным достижением является высокая точность распознавания в реальных условиях использования, а не только в лабораторной среде. Система демонстрирует устойчивость к различным условиям освещения, фонам и индивидуальным особенностям исполнения жестов.Анализ ошибок распознавания показывает, что наибольшие трудности возникают при распознавании:1. Жестов с тонкими различиями в конфигурации пальцев.2. Быстрых или нечетких движений.3. Жестов, выполняемых нестандартным образом.Для улучшения точности распознавания в этих сложных случаях были реализованы дополнительные механизмы:- контекстная коррекция на основе языковой модели,- адаптация к индивидуальному стилю исполнения жестов - интерактивная обратная связь для пользователя.5.2. Сравнение с существующими аналогами.Сравнение разработанной системы с существующими аналогами проводилось по нескольким ключевым параметрам:1. Точность распознавания.2. Разработанная система: 82.7% для базовых динамических жестов.3. SignAll (коммерческое решение для ASL): 85-90%.4. Google Gesture (прототип для ASL): 80-85%.5. RuSLan (исследовательский проект для РЖЯ): 75-78%.Сравнительный анализ показывает, что разработанная система превосходит существующие аналоги по соотношению точности распознавания, доступности и поддержке русского жестового языка. Особенно важным преимуществом является работа на стандартных мобильных устройствах без необходимости в дополнительном оборудовании.6. Заключение.В рамках данного исследования была разработана система распознавания русского жестового языка в режиме реального времени на базе мобильного приложения. Система демонстрирует высокую точность распознавания дактильной азбуки (94.3%) и приемлемую точность для динамических жестов (82.7%), что сопоставимо с лучшими мировыми аналогами и превосходит существующие решения для русского жестового языка.Ключевыми достижениями работы являются:1. Разработка гибридной архитектуры нейронной сети, оптимизированной для работы на мобильных устройствах.2. Создание собственной базы данных жестов русского жестового языка.3. Реализация алгоритмов распознавания в режиме реального времени с низкой задержкой.4. Разработка мобильного приложения с интуитивным пользовательским интерфейсом.Разработанная система представляет собой значимый шаг в направлении создания технологических решений для инклюзивного общества, где люди с нарушениями слуха имеют равные возможности для коммуникации и доступа к информации.
Номер журнала Вестник науки №6 (87) том 2
Ссылка для цитирования:
Михайлов Д.А. РАЗРАБОТКА МОБИЛЬНОГО ПРИЛОЖЕНИЯ ДЛЯ РАСПОЗНАВАНИЯ РУССКОГО ЖЕСТОВОГО ЯЗЫКА С ИСПОЛЬЗОВАНИЕМ НЕЙРОННЫХ СЕТЕЙ // Вестник науки №6 (87) том 2. С. 1740 - 1748. 2025 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/24098 (дата обращения: 09.07.2025 г.)
Вестник науки © 2025. 16+
*