'
Баранов И.А.
АНАЛИЗ СПЕКТРОВ РЕЧИ С ЦЕЛЬЮ ОПРЕДЕЛЕНИЯ ВЕСОВЫХ КОЭФФИЦИЕНТОВ *
Аннотация:
в данной работе представлен расчёт весового коэффициента, используемый в формантном методе для обнаружения разборчивости речи. Расчёт основывается на определении спектрального распределения энергии звуков русского языка по октавам среди нескольких дикторов, что отличается от традиционного метода. Также анализируются спектры речи мужчин и женщин для сравнения распределения энергии в них. Метод анализа потенциально может быть рассмотрен в качестве основы для новых исследований с большей выборкой дикторов.
Ключевые слова:
словесная разборчивость, формантный метод, весовой коэффициент, техническая защита
Формантный метод анализа разборчивости речи, разработанный в середине XX века, стал основой для оценки качества передачи речевых сигналов в системах связи. Первоначально метод опирался на исследования Н.Б. Покровского (1950-1960-ые гг.), направленные на оптимизацию телефонных каналов, где ключевым параметром выступала усреднённая чувствительность "типового слушателя". В 2000 году метод был адаптирован для задач технической защиты информации, что потребовало учёта новых факторов: преднамеренных помех, профессиональных навыков аудиторов и непостоянства речевых сигналов. Однако за последние два десятилетия накопился ряд замечаний к старым принципам, в случае данной статьи – к определению весовых коэффициентов, определяющих индивидуальный вклад октавных полос.Традиционно весовой коэффициент определяется как встречаемость формант и рассчитывается как отношение числа формант в заданной октавной полосе к их общему количеству во всех октавах. Этот подход, однако, не учитывает двух фундаментальных аспектов:Энергетическое распределение — форманты в разных частотных диапазонах вносят неравный вклад в разборчивость из-за различий в амплитуде и длительности.Междикторная вариативность — спектры мужских и женских голосов существенно отличаются, что игнорируется при усреднении "во всём диапазоне".В данной работе предлагается модифицированный алгоритм расчёта весовых коэффициентов, устраняющий указанные ограничения. Вместо подсчёта формант используется энергетический подход:Для каждого диктора строится нормированный спектр чистого сигнала путём усреднения повторяющихся реализаций звуков.Групповые спектры агрегируются отдельно для мужских и женских голосов, после чего вычисляется общий усреднённый профиль.Весовой коэффициент для каждой октавной полосы определяется как отношение площади под кривой сигнала в этой полосе к суммарной площади спектра.Такой метод позволяет учесть реальное распределение энергии речи, а не формальное количество формант.Первоначальный этап исследования предполагает создание корпуса речевых записей, соответствующих критериям чистоты и репрезентативности. Для этого осуществлялась аудиозапись произношения изолированных звуков 9 дикторами (4 мужчины и 4 женщины), не имеющих речевых или слуховых нарушений. Запись проводилась на расстоянии 1м от плоскости микрофона с использованием микрофона ZT-333 и предусилителя Р410. Параметры записи: частота дискретизации 58593 Гц, разрядность 20 бит, чувствительность микрофона: 48,14 мВ/Па), формат *.wav.Каждый диктор произносил целевые звуки последовательно, с короткими паузами между ними, чтобы исключить наложение артикуляционных переходов. Для повышения надёжности данных каждый звук повторялся 10 раз, формируя массив из 80 реализаций на звук (8 дикторов × 10 повторений). На этапе предобработки из общего количества исключались записи, содержащие артефакты:- некорректное произношение (отклонение от фонетической нормы),- кратковременные шумовые всплески (например, кашель, щелчки),- ошибки сегментации (пропуск паузы, наложение звуков).Последовательность анализа спектральных характеристик включает следующие шаги.Используя Adobe Audition, из непрерывной аудиодорожки каждого диктора выделяются временные интервалы, содержащие повторения одного звука (Рисунок 1).Каждый сегмент, соответствующий одному произнесению звука, разбивается на подсегменты фиксированной длительности, соответствующей длительности произношения звука. Длина подсегментов выбирается исходя из компромисса между временным и частотным разрешением: слишком короткие интервалы увеличивают погрешность спектральной оценки, а длинные — включают в подсегмент запись неинформативного шума. Границы временных подсегментов звука и шума определяются вручную.Сначала в скрипт на Python, написанный для целей данной статьи, вводятся временные метки и длительность сегмента. Рассчитываются среднеквадратические значения сигнала и шума, после чего определяется чистый сигнал через извлечение корня из разности квадратов этих величин. Расчёт среднеквадратических значений вместо подсчёта формант позволяет учесть реальное энергетическое распределение, что критично для задач ТЗИ. На следующем этапе строятся графики спектров — например, для гласного и согласного звуков (Рисунок 2, 3). Результаты сохраняются в структурированном виде для дальнейшего анализа. Обработка повторяется для всех дикторов, обеспечивая единый формат выходных данных: визуализация спектров и сохранённые числовые значения.Рис. 1. Графы для звука «А». Рис. 2. Графы для звука «З». На основе данных, полученных на предыдущем этапе, выполняется среднеквадратичное усреднение сигнала по всем частотам. Затем строится итоговый спектр, отражающий характеристики диктора, а числовые результаты нормализуются и сохраняются для анализа. Примеры визуализации итоговых спектров представлены на рисунках 4 и 5. Процедура повторяется для каждого диктора, обеспечивая согласованность формата выходных данных: графики спектров и сохранённые числовые значения.Рис. 3. Спектр мужчины. Рис. 4. Спектр женщины. На основе спектров, полученных для каждого диктора, выполняется усреднение данных по полу, а после усреднение и их, формируя общий средний спектр. Усреднение по полу устраняет погрешности, вызванные спектральными различиями мужских и женских голосов, что повышает точность оценки. Затем строятся два графика: первый отображает усреднённые спектры для мужчин, женщин и общий результат, второй — диапазоны минимальных и максимальных значений по всем частотам (Рисунок 6). Параллельно рассчитывается весовой коэффициент, отражающий распределение энергии в октавных полосах отдельно для мужчин, женщин и общего спектра. Результаты представлены в виде сводной таблицы (Таблица 1).Рис. 5. Спектр всех дикторов. Таблица 1. Весовые коэффициенты по октавам. Проведённый анализ выявил значимые различия в спектральных характеристиках мужских и женских голосов, наиболее выраженные в низкочастотной области (первые октавы), где сосредоточены основные форманты, определяющие индивидуальные особенности голоса. В среднем и высокочастотном диапазонах, соответствующих шумовым компонентам согласных звуков, спектральные различия между полами менее существенны, что обусловлено универсальностью артикуляции большинства согласных фонем.Наибольший весовой коэффициент в седьмой октаве объясняется широкими спектрами согласных звуков в этой октаве.Энергетический подход к расчёту коэффициентов позволяет точнее учитывать акустические особенности разных групп дикторов по сравнению с традиционным методом. Эти результаты открывают перспективы для адаптации алгоритма оценки разборчивости в системах защиты информации, учитывая половые различия. Потенциально возможно посчитать весовой коэффициент, учитывая другие группы дикторов, классифицируя их, например, по возрасту, по тембру голоса или по акценту.
Номер журнала Вестник науки №6 (87) том 1
Ссылка для цитирования:
Баранов И.А. АНАЛИЗ СПЕКТРОВ РЕЧИ С ЦЕЛЬЮ ОПРЕДЕЛЕНИЯ ВЕСОВЫХ КОЭФФИЦИЕНТОВ // Вестник науки №6 (87) том 1. С. 1376 - 1383. 2025 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/23747 (дата обращения: 20.07.2025 г.)
Вестник науки © 2025. 16+
*