'
Научный журнал «Вестник науки»

Режим работы с 09:00 по 23:00

zhurnal@vestnik-nauki.com

Информационное письмо

  1. Главная
  2. Архив
  3. Вестник науки №6 (51) том 1
  4. Научная статья № 60

Просмотры  80 просмотров

Джарылгапов А.К.

  


СОЗДАНИЕ ПРОГРАММЫ ОБУЧЕНИЯ ИНОСТРАННОМУ ЯЗЫКУ С ПОМОЩЬЮ ДИАЛОГОВ С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИЙ SPEECH-TO-TEXT И TEXT-TO-SPEECH В ВИРТУАЛЬНОЙ РЕАЛЬНОСТИ *

  


Аннотация:
в статье рассматривается возможность создания программы обучения иностранному языку с помощью диалогов с использованием технологий преобразования речи в текст и текста в речь в виртуальной реальности   

Ключевые слова:
speech-to-text, text-to-speech, виртуальная реальность, обучение, иностранные языки   


УДК 1

Джарылгапов А.К.

студент факультета цифровых технологий и кибербезопасности АГУ,

кафедра информационной безопасности и цифровых технологий.

Астраханский государственный университет

(г. Астрахань, Россия)

 

СОЗДАНИЕ ПРОГРАММЫ ОБУЧЕНИЯ ИНОСТРАННОМУ ЯЗЫКУ

С ПОМОЩЬЮ ДИАЛОГОВ С ИСПОЛЬЗОВАНИЕМ

ТЕХНОЛОГИЙ SPEECH-TO-TEXT И TEXT-TO-SPEECH

В ВИРТУАЛЬНОЙ РЕАЛЬНОСТИ

 

Аннотация: в статье рассматривается возможность создания программы обучения иностранному языку с помощью диалогов с использованием технологий преобразования речи в текст и текста в речь в виртуальной реальности.

 

Ключевые слова: speech-to-text, text-to-speech, виртуальная реальность, обучение, иностранные языки.

 

ВВЕДЕНИЕ

В настоящее время для обучения иностранному языку применяются самые разные технологии [1]. Технологии преобразования текста в речь Text-to-speech и речи в текст Speech-to-text имеют потенциал для симуляции диалога на иностранном языке и уже сейчас технологии позволяют мгновенно переводить речь с микрофона в текст и переводить текст в речь, звучащую как естественная речь человека. Технологии VR, широко применяемые в индустрии развлечений, также стали применяться для обучения иностранному языку. Технологии, обеспечивающие погружение в виртуальную реальность перспективны с точки зрения обучения иностранному языку посредством погружения в ситуацию, в которую может попасть человек в другой стране.

Цель данной работы – исследовать возможность применения технологий Speech-to-text, Text-to-speech, виртуальной реальности чтобы решить задачу использования технологий распознавания и синтеза речи в виртуальной реальности для обучения иностранному языку с помощью диалогов.

ОСОБЕННОСТИ И ПОСТАНОВКА ЗАДАЧИ, ОСОБЕННОСТИ ИСПОЛЬЗУЕМЫХ ИНСТРУМЕНТОВ

Для решения данной задачи необходимо реализовать работу Text-to-speech и Speech-to-text API с платформой для реализации виртуальной реальности. Такой платформой может послужить движок Unity, так как платформа предоставляет возможности для удобной работы с VR технологиями, а на языке C# можно реализовать работу с API. В качестве платформы API для синтеза и распознавания речи было выбрано VK Cloud Solutions.

VK Cloud Solutions – облачная платформа, которая предоставляет доступ к сервисам синтеза речи Text-to-speech и распознавания речи Speech-to-text (SPT) технологии машинного обучения. Платформа предоставляет качественную документацию с примерами [3], которая будет использована в статье для исследования возможностей для обучения иностранному языку.

РЕШЕНИЕ ПОСТАВЛЕННОЙ ЗАДАЧИ

Для осуществления запросов к сервисам VK Cloud Solutions нам нужен токен доступа (access токен). Есть два способа получения токена:

OAuth – рекомендуемый сценарий, так как в нем реализован механизм обновления токена. Отправляется запрос для генерации токенов refresh и access. Refresh токен требуется для обновления access токена, срок которого истекает через час после получения.

Сервисный токен — в этом случае токен выдается один раз и может работать без ограничения времени. Единственный риск использования такого токена является то, что при подборе токена или его компрометации, злоумышленник может получить возможность неограниченно пользоваться сервисом, которые повлекут непредвиденные траты. Когда денежные средства на лицевом счете будут исчерпаны, сервис будет приостановлен.

Используем 1 вариант, так как он более безопасен. Полученный токен доступа необходимо отправлять во всех HTTP запросах в формате Bearer Token.

Для осуществления синтеза речи воспользуемся GET запросом. В запросе мы будем отправлять текст, который нужно перевести в речь. Нам доступны дополнительные параметры, такие как: название модели голоса – по умолчанию используется модель голоса Katherine, можно использовать её; тип энкодера – для получения mp3 записи будем передавать этот параметр; скорость речи –можно выбирать от 0.75 до 1.75. Этот параметр можно будет регулировать для упрощения или усложнения процесса обучения.

У сервиса Speech-To-Text есть 2 способа распознавания речи – потоковое распознавание и распознавание аудиофайлов. Потоковое распознавание речи происходит в режиме реального времени. При потоковом распознавании модель получает короткие аудиофрагменты и отправляет результаты, в том числе промежуточные, в рамках одного соединения. При потоковом распознавании необходимо создавать задачи, отправив запрос для ее создания. При распознавании аудиофайлов в запросе на сервер отправляется аудиофайл формата wav или ogg с ограничениями в 20 Мб максимального размера файла и 5 минут максимальной длительности аудио. В ответе запроса приходит несколько вариантов расшифровок распознанного аудиофайла с полем confidence уверенности в правильной расшифровке и полем punctuated_text с текстом с расставленными знаками препинания.

Подключим программу к Oculus Rift S [2]. Для работы с Unity необходим Oculus Integration Package, обеспечивающий интеграцию с Unity, который можно скачать с официального сайта Oculus. Также нужно добавить поддержку VR и Oculus VR, установив XR Plugin Management и установив галочку возле Oculus.

Рисунок 1 – Установка XR Plugin Management

 

Также необходимо скачать и импортировать Oculus Integration, который доступен в Asset store, чтобы скачать инструменты для работы с Oculus.

 

Рисунок 2 – Импорт Oculus Integration

 

Для того, чтобы установить камеру для шлема необходим объект камеры OVRCameraRig. Другие объекты камеры должны быть выключены или удалены, так как они конфликтуют с камерой VR. Также должен быть выключен или удален EventSystem, так как это система событий основана на вводе с клавиатуры или мыши, а для виртуальной реальности будет использоваться другая система событий. Она находится в компоненте OVR Input Module (Script) объекта UIHelper, который нужен для ввода с контроллера. Для визуализации направления куда указывает пользователь включим компоненты Line Renderer объекта LaserPointer.

Так как UI элементы должны отображаться в 3D пространстве, то Canvas должен иметь параметр Render mode как World Space, а для параметра Event camera присвоим ссылку на объект CenterEyeAnchor, связав камеру шлема с камерой в игровом мире. Также в Canvas должен быть компонент OVR Raycaster, который нужен для работы с Oculus, а параметр Pointer этого компонента содержать ссылку на LaserPointer. Таким образом станет доступно взаимодействие с объектами UI с помощью контроллеров.

АНАЛИЗ РЕЗУЛЬТАТОВ

Сам синтез речи работает корректно и воспроизводится программой в целом корректно. Но так как в VK Cloud Solution синтез речи предназначен для синтеза речи на русском языке, синтезированная речь может произносить текст на иностранном языке с русским акцентом. У синтеза речи VK Cloud Solution достаточно проблем с качеством произношения с ударением, интонацией, также существуют проблемные случаи с прочтением иностранного сочетания букв, например, «th».

Распознавание речи Vk Cloud Solutions работает достаточно корректно, но все еще оставляет желать лучшего, так как распознанная речь не всегда распознает корректно то, что было сказано. Тем не менее, полноценный диалог возможен. После распознавания программа сравнивает речь с текстом фразы. Так как распознавание работает не идеально была использовано условие countSimillarWords/countWords >= 0.7, где countSimillarWords – количество одинаковых слов в распознанной речи и тексте фразы, а countWords – общее количество слов во фразе. В случае неудачи будет проиграна фраза просьбы повторить фразу и появится возможность её повторить.

Настройка виртуальной реальности не представляет особых проблем и работает корректно.

ЗАКЛЮЧЕНИЕ

В ходе выполнения работы были получены следующие результаты:

Были исследованы возможности и проблемы применения технологий Speech-to-text и Text-to-speech;

Были использованы возможности применения виртуальной реальности для обучения иностранному языку.

В результате проделанной работы можно сделать вывод что использование технологий преобразования речи в текст, текста в речь и виртуальной реальности возможно для обучения иностранным языкам.

 

СПИСОК ЛИТЕРАТУРЫ:

 

Искусственный интеллект для изучения иностранных языков [Электронный ресурс] - Режим доступа. - URL: http:// www.goethe.de/ins/ru/ru/spr/mag/21290629.html (дата обращения: 01.05.2021)

6 steps to set up your oculus rift with unity in less than 10 minutes [Электронный ресурс] - Режим доступа. - URL: http://mcs.mail.ru/docs/ru/ml/cloud-voice (дата обращения: 01.05.2021)

Сloud voice [Электронный ресурс] - Режим доступа. - URL: http:// circuitstream.com/blog/oculus-unity-setup/ (дата обращения: 01.05.2021)

  


Полная версия статьи PDF

Номер журнала Вестник науки №6 (51) том 1

  


Ссылка для цитирования:

Джарылгапов А.К. СОЗДАНИЕ ПРОГРАММЫ ОБУЧЕНИЯ ИНОСТРАННОМУ ЯЗЫКУ С ПОМОЩЬЮ ДИАЛОГОВ С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИЙ SPEECH-TO-TEXT И TEXT-TO-SPEECH В ВИРТУАЛЬНОЙ РЕАЛЬНОСТИ // Вестник науки №6 (51) том 1. С. 351 - 357. 2022 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/5804 (дата обращения: 26.04.2024 г.)


Альтернативная ссылка латинскими символами: vestnik-nauki.com/article/5804



Нашли грубую ошибку (плагиат, фальсифицированные данные или иные нарушения научно-издательской этики) ?
- напишите письмо в редакцию журнала: zhurnal@vestnik-nauki.com


Вестник науки СМИ ЭЛ № ФС 77 - 84401 © 2022.    16+




* В выпусках журнала могут упоминаться организации (Meta, Facebook, Instagram) в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25 июля 2002 года № 114-ФЗ 'О противодействии экстремистской деятельности' (далее - Федеральный закон 'О противодействии экстремистской деятельности'), или об организации, включенной в опубликованный единый федеральный список организаций, в том числе иностранных и международных организаций, признанных в соответствии с законодательством Российской Федерации террористическими, без указания на то, что соответствующее общественное объединение или иная организация ликвидированы или их деятельность запрещена.