Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Методы цифровой обработки и распознавания речи

Покупка
Основная коллекция
Артикул: 791570.01.01
К покупке доступен более свежий выпуск Перейти
В монографии рассмотрены теория, алгоритмы и практические методы реализации цифровой обработки и распознавания речевых сигналов. Представлены основы математического анализа цифровых сигналов, необходимые для обработки речи. Кратко изложена акустическая теория речеобразования с построением общей дискретной модели. Рассмотрены основные характерные признаки речевых сигналов, а также методы их выделения. Подробно описаны скрытые марковские модели и архитектура традиционных систем распознавания на их основе. Рассмотрены взвешенные конечные преобразователи, использующиеся для повышения эффективности и ускорения процесса декодирования акустических сигналов. Представлены основные архитектуры искусственных нейронных сетей и примеры основанных на них интегральных (end-to-end) систем распознавания речи. Предназначена для студентов, аспирантов, научных работников и специалистов, занимающихся вопросами обработки речевых сигналов, распознавания образов и искусственного интеллекта.
263
Шишкин, А. Г. Методы цифровой обработки и распознавания речи : монография / А.Г. Шишкин. — Москва : ИНФРА-М, 2023. — 347 с. — (Научная мысль). — DOI 10.12737/1904325. - ISBN 978-5-16-018017-5. - Текст : электронный. - URL: https://znanium.ru/catalog/product/1904325 (дата обращения: 24.11.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
МЕТОДЫ ЦИФРОВОЙ 
ОБРАБОТКИ 
И РАСПОЗНАВАНИЯ РЕЧИ

А.Г. ШИШКИН

Москва 
ИНФРА-М 
2023

МОНОГРАФИЯ

УДК 004.934(075.4)
ББК 81.111
 
Ш65

А в т о р :
Шишкин А.Г., доктор физико-математических наук, профессор кафедры автоматизации научных исследований факультета вычислительной математики и кибернетики Московского государственного 
университета имени М.В. Ломоносова

ISBN 978-5-16-018017-5 (print)
ISBN 978-5-16-111023-2 (online)
© Шишкин А.Г., 2023

Шишкин А.Г.
Ш65  
Методы цифровой обработки и распознавания речи : монография / 
А.Г. Шишкин. — Москва : ИНФРА-М, 2023. — 347 с. — (Научная 
мысль). — DOI 10.12737/1904325.

ISBN 978-5-16-018017-5 (print)
ISBN 978-5-16-111023-2 (online)
В монографии рассмотрены теория, алгоритмы и практические методы реализации цифровой обработки и распознавания речевых сигналов. 
Представлены основы математического анализа цифровых сигналов, необходимые для обработки речи. Кратко изложена акустическая теория 
речеобразования с построением общей дискретной модели. Рассмотрены 
основные характерные признаки речевых сигналов, а также методы их выделения. Подробно описаны скрытые марковские модели и архитектура 
традиционных систем распознавания на их основе. Рассмотрены взвешенные конечные преобразователи, использующиеся для повышения эффективности и ускорения процесса декодирования акустических сигналов. 
Представлены основные архитектуры искусственных нейронных сетей 
и примеры основанных на них интегральных (end-to-end) систем распознавания речи.
Предназначена для студентов, аспирантов, научных работников и специалистов, занимающихся вопросами обработки речевых сигналов, распознавания образов и искусственного интеллекта.

УДК 004.934(075.4) 
ББК 81.111

Данная книга доступна в цветном  исполнении  
в электронно-библиотечной системе Znanium

Введение

Цифровая обработка звуковых сигналов включает в себя сильно 
отличающиеся друг от друга области, объединенные, однако, тем, 
что все они посвящены анализу данных, непосредственно поступающих на вход слуховой системы человека. В первую очередь под 
звуковыми сигналами понимаются речь и музыка. Проблемой обработки и выделения различной информации из звуковой волны 
занимаются уже не один десяток лет. Это обусловлено не только 
сложностью поставленных задач, но и недостаточностью имевшихся ресурсов вычислительной техники. В последнее время 
в связи с бурным развитием и усовершенствованием компьютеров, 
а также ростом имеющихся объемов данных появилась реальная 
возможность успешного решения многих задач, среди которых 
можно назвать разработку надежных и качественных речевых 
и музыкальных синтезаторов, систем определения психоэмоционального состояния дикторов, а также автоматического распознавания спонтанной речи, не требующих предварительной настройки, 
обладающих способностью распознавать только семантически значимые отрезки речевой волны и функционирующих с точностью 
не ниже 97–98%.
Параллельно прогрессу в компьютерной технике было достигнуто более глубокое понимание процесса восприятия речи и музыки слуховой сенсорной системой человека, а также процесса речевоспроизведения. В действительности, обработка звуковых сигналов соответствующими устройствами и их восприятие человеком 
являются неразрывно связанными между собой и взаимодополняющими друг друга областями.
Несмотря на очевидные успехи последних лет, многие задачи 
цифровой обработки звуковых сигналов до сих пор не решены. 
Например, лучшие системы автоматического распознавания речи, 
демонстрирующие точность порядка 99% и выше для известных им 
дикторов и в идеальных условиях (отсутствие шума и речевых артефактов, четкое произнесение слов), работают значительно хуже 
при обработке спонтанной речи в реальной среде. Аналогично, речь, 
синтезированная из произвольного текста, звучит по-прежнему искусственно. Существующие системы кодирования речи пока довольно далеки от оптимальных, что вызывает необходимость дальнейших работ в этой области.

Наконец, растущая быстрыми темпами доступность компьютерных приложений, включающих в себя звуковую составляющую 
(особенно посредством интернета и мобильных устройств), обуславливает необходимость изучения современных методов анализа звуковых сигналов специалистами самых разных областей. 
К сожалению, на русском языке ощущается недостаток современной литературы, посвященной цифровой обработке речевых 
сигналов при разработке современных систем автоматического 
распознавания речи. Данная книга имеет свой целью восполнить 
этот пробел.
Распознавание речи — одна из самых сложных областей компьютерных наук, отчасти по причине ее междисциплинарности: она 
включает в себя, в первую очередь, лингвистику, математику и вычислительные технологии. Существует целый ряд обстоятельств, 
осложняющих процесс автоматического распознавания речи. Вопервых, наша естественная речь является непрерывной; в ней часто 
нет пауз между словами. Это, среди прочего, затрудняет определение границ слов. Кроме того, как правило, в речевом сигнале 
содержатся различные дефекты и артефакты. Дикторы могут изменять на полуслове свои намерения о том, что они хотят сказать, 
а также часто вставляют в свою речь различные междометия.
Во-вторых, характеристики сигнала могут значительно изменяться в зависимости от скорости речи, от произношения говорящего, а также от того, в каком контексте произносятся те или иные 
фонемы.
В-третьих, использование в настоящее время огромных речевых 
корпусов приводит к увеличению в них числа слов, акустические 
характеристики которых весьма схожи. Кроме того, каков бы 
ни был объем базы данных, при использовании системы распознавания всегда встретятся отсутствующие в речевом корпусе слова. 
Распознавание таких неизвестных слов является сложной задачей, 
от решения которой во многом зависит эффективность разрабатываемых систем.
В-четвертых, записанная речь зависит от того, где производилась 
запись, от характеристик записывающего оборудования, а также 
от фонового шума. Например, в телефонном разговоре канал, используемый для конкретного вызова, будет оказывать влияние 
на спектральные и временные характеристики передаваемого речевого сигнала. Фоновый шум и акустические параметры среды, 
в которой находится телефонный динамик, также будут ощутимым 
образом воздействовать на сигнал. Разные микрофоны имеют 
разные частотные характеристики; кроме того, даже наклон ми
крофона под разными углами, а также его расстояние от источника 
речи будут приводить к изменениям частотной характеристики.
Все указанные факторы могут в значительной мере менять 
характеристики речевого сигнала. При этом в отличие от современных систем автоматического распознавания речи люди в большинстве случаев могут их с легкостью компенсировать.
Основное внимание в книге уделено методам и системам автоматического распознавания речи. Однако отдельные разделы, которые посвящены таким важным аспектам, как основы цифровой 
обработки сигналов, являются весьма общими и могут быть использованы при изучении не только звуковых (речевых) сигналов.
Структура книги следующая. В главе 1 дана краткая история 
систем автоматического распознавания речи и их классификация.
Основные методы и особенности цифровой обработки сигналов, 
необходимые для анализа и распознавания речи, представлены 
в главе 2. Рассмотрены такие понятия, как сигналы и их преобразования системами, различные операции над сигналами, преобразования Фурье, Z-преобразование, фильтрация и др.
В главе 3 кратко изложена структура речеобразующей системы 
человека, рассмотрены акустические свойства и механизмы образования основных групп звуков русского языка. Кроме этого, описаны математические модели распространения звука в голосовом 
тракте для случая его представления в виде одной или нескольких 
труб. Построена общая дискретная модель речеобразования, состоящая из линейной системы с медленно изменяющимися во времени 
параметрами, возбуждаемой сигналом от источника звуков.
Глава 4 посвящена кратковременному анализу речевых сигналов и выделению из них характерных признаков, в том числе 
энергии, количеству нулевых пересечений, частоты основного тона, 
формант, мел-частотных кепстральных коэффициентов и др. Рассмотрены метод линейного предсказания и гомоморфная обработка 
сигналов (кепстральный анализ).
В главе 5 представлены скрытые марковские модели. Даны 
необходимые определения, рассмотрены три основные задачи 
для скрытых марковских моделей и методы их решения. Данные 
задачи включают в себя оценку вероятности последовательности 
наблюдений для заданной модели, выбор «оптимальной» последовательности состояний для данных модели и последовательности 
наблюдений и подбор параметров модели для максимизации вероятности последовательности наблюдений. Описаны методы решения задач, а именно, метод прямого-обратного хода, а также алгоритмы Витерби и Баума — Уэлша.

Глава 6 посвящена описанию традиционных систем автоматического распознавания речи, основанных на использовании 
скрытых моделей Маркова. Представлены составные части архитектуры таких систем: акустическая и языковая модели, словарь 
произношений, декодировщик. В качестве языковой рассмотрена 
N-граммная модель и ее различные модификации. При этом процесс декодирования для распознавания речи рассматривается как 
задача поиска последовательности слов, наилучшим образом соответствующей входному сигналу. Данный процесс с увеличением 
объема словаря становится все более затратным с вычислительной 
точки зрения, и одним из путей эффективного решения проблемы 
является использование взвешенных конечных преобразователей, позволяющих добиться высокой скорости распознавания 
с меньшим по сравнению с традиционными системами числом 
ошибок. Описаны взвешенные конечные преобразователи и их 
свойства, а также структура распознающей системы на их основе.
Различные архитектуры искусственных нейронных сетей, 
использующиеся для решения задачи распознавания речи, рассмотрены в заключительной главе 7. К числу таких архитектур 
в первую очередь следует отнести рекуррентные нейронные сети 
и их разновидности, а также сверточные нейросети и трансформеры. Даны примеры современных интегральных (или, иначе, 
сквозных — end-to-end) систем распознавания, целиком основывающихся на использовании нейросетей.

Глава 1.  
КРАТКАЯ ИСТОРИЯ  
СИСТЕМ ЦИФРОВОЙ ОБРАБОТКИ РЕЧИ

Цифровая обработка речевых сигналов является предметом 
активных научных исследований уже в течение достаточно долгого времени. При этом на научно-исследовательские разработки 
для решения проблем автоматического распознавания, синтеза 
и понимания речи каждый год тратятся весьма значительные 
средства. Это стимулируется практическими требованиями, связанными с созданием эффективных систем как гражданского, так 
и военного назначения.
Особенно быстрое развитие технологий анализа речи началось 
после появления устройств цифровой обработки, выполненных 
в виде микросхем и позволивших создать относительно дешевые 
распознаватели и синтезаторы, работавшие в режиме реального 
времени. По мере роста вычислительной мощности сначала специализированных акустических, а затем и цифровых сигнальных процессоров усложнялись и совершенствовались алгоритмы, использовавшиеся в системах обработки речи. Однако точность систем 
распознавания спонтанной речи в реальных условиях до сих пор 
находится в диапазоне 80–90%, тогда как у человека этот показатель составляет 98–99%. Поэтому крайне необходимо продолжать 
исследования в этой области.

1.1. ЧТО ТАКОЕ РАСПОЗНАВАНИЕ РЕЧИ

Наиболее часто под задачей автоматического распознавания 
речи понимают ее преобразование в текст. Это совсем не просто, 
так как даже человеку часто непонятно, что сказал его собеседник.
Существует несколько основных подходов к проблеме автоматического распознавания речевого сигнала:
1. Простое сопоставление с образом (шаблоном), при котором 
каждое произносимое слово или сочетание слов распознаются полностью.
2. Анализ шаблонов и признаков, когда каждое слово разбивается на части и распознается по ключевым признакам, например, 
таким как содержащиеся в нем гласные.
3. Языковое моделирование и статистический анализ, в котором 
знание грамматики и вероятность того, что определенные слова 

или звуки следуют друг за другом, используются для ускорения 
распознавания и повышения точности.
4. Искусственные нейронные сети, которые могут распознавать 
закономерности, такие как звуки слов, после длительного обучения 
на больших объемах данных.
На практике повседневное распознавание речи, с которым мы 
сталкиваемся, например, в автоматизированных кол-центрах, в программном обеспечении для компьютерной диктовки или при использовании помощников типа Siri на смартфонах, сочетает в себе, как 
правило, различные подходы. Рассмотрим их более подробно.
1. С простейшим видом распознавания речи мы сталкиваемся, 
когда звоним, например, в автоматизированный кол-центр и получаем ответ от компьютеризированного коммутатора. Подобные 
системы на самом деле вообще не распознают речь: они просто 
должны уметь различать несколько различных звуковых образов 
(небольшой набор произносимых слов или фраз) на основе входного речевого сигнала. При этом в системе распознавания речи 
хранится нечто, напоминающее словарь с допустимыми словами 
соответствующего языка и их фонетическое представление. Это 
представление описывает различные способы произнесения данного конкретного слова. Хорошо известно, насколько сильно отличается произношение в зависимости от уровня образованности 
и места жительства. Те же самые комбинации звуков или целых 
слов произносятся совершенно по-разному уроженцами средней 
полосы и юга России. Для решения этой проблемы словарь распознающей системы дополняется различными типами произношений. 
Когда такая система слышит несколько различных версий одного 
и того же слова, произнесенных разными людьми, она не должна 
распознать его как разные слова.
Для того чтобы понять, что было сказано, система должна разделить сигнал на части, каждая из которых представляет собой отдельное слово, имеющее смысл в контексте окружающих его слов. 
К сожалению, задача это имеет не единственное решение, т.к. один 
и тот же сигнал можно разделить на части разными способами. 
При этом каждая будет представлять цепочку слов, а смысл будет 
меняться от способа разбиения.
Подход к распознаванию речи, описанный выше, является 
стандартным для узкоспециализированных приложений. Словарь 
и также созданные вручную грамматические правила описывают 
большую часть фраз, которые могут быть произнесены пользователями таких систем. Любая другая фраза будет проигнорирована, 
при этом это слабо скажется на эффективности системы в целом.

2. Описанные выше автоматизированные системы работают 
очень надежно, потому что у них очень маленький словарный запас. 
Хотя ранние речевые системы часто оптимизировались для работы 
в очень специфических областях, однако со временем возникла потребность распознавания речи в любой области, что привело к созданию словарей в десятки тысяч и больше разных слов.
У большинства из нас есть относительно большой словарный 
запас, состоящий из сотен общеупотребительных слов, которые мы 
слышим много раз в день и тысяч гораздо менее употребительных 
слов, не встречающихся нам иногда годами. Теоретически можно 
научить систему распознавания речи понимать любое количество 
разных слов: для этого необходимо прочитать каждое слово несколько раз в микрофон, пока компьютер обобщит звуковую картину во что-то, что он мог бы надежно распознать.
Проблема с этим подходом заключается в том, что он крайне 
неэффективен. Зачем учиться распознавать каждое слово в словаре, если все эти слова состоят из одного и того же базового набора звуков? Никто не станет покупать готовую компьютерную 
систему диктовки только для того, чтобы обнаружить, что нужно 
три или четыре раза прочитать словарь, натренировав программу 
на распознавание всех возможных слов, которые могут быть когдалибо произнесены, прежде чем она сможет сделать что-нибудь полезное. В то же время наш мозг хранит то, что называется прототипами (например, обобщенное понятие какого-либо предмета), и мы 
выясняем, что объект, который мы никогда раньше не видели, является именно этим предметом, сравнивая его с прототипом. Точно 
так же нам не нужно слышать, как каждый человек читает каждое 
слово в словаре, прежде чем мы сможем понять, что он говорит; 
мы можем распознавать слова, анализируя ключевые особенности 
(или компоненты) звуков, которые мы слышим. Системы распознавания речи используют тот же подход.
То, что говорит человек, на начальном этапе воспринимается системой как звуковая волна, т.е. как сигнал, изображенный 
на рис. 1.1.
Затем речевой сигнал обрабатывается и анализируется различными способами, чтобы найти содержащиеся в нем компоненты 
речи. Предполагая, что мы разделили высказывание на слова 
и определили ключевые особенности каждого из них, все, что нам 
нужно сделать, это сравнить то, что у нас есть, с фонетическим словарем (список известных слов и звуковых фрагмен тов, из которых 
они образованы). После этого мы сможем определить, что, вероятно, было сказано. Заметим, что здесь мы употреб ляем слово «ве
роятно»: никто, кроме говорящего, никогда не может точно знать, 
что было сказано.

Рис. 1.1. Пример речевого сигнала

Теоретически, поскольку разговорный язык состоит всего из нескольких десятков звуков, называемых фонемами (в русском языке 
около 42 фонем, в английском — около 46), мы можем распознать 
любое возможное устное высказывание, просто научившись выбирать фонемы (или аналогичные ключевые особенности разговорной речи, например форманты, представляющие собой резонансные частоты голосового тракта, которые можно использовать 
для идентификации гласных). Вместо того, чтобы распознавать 
звуки огромного числа слов, нам нужно будет распознавать только 
несколько десятков фонем, хотя все равно понадобится большой 
фонетический словарь со списком фонем, из которых состоит 
каждое слово.
Большинство программ распознавания речи становятся лучше 
по мере их использования, потому что они учатся в ходе работы, 
используя обратную связь, которую им дают либо преднамеренно 
(путем исправления ошибок), либо по умолчанию (если не исправляется ни одна ошибка, то фактически подтверждается отличное качество распознавания, что также является обратной связью). Если 
не исправлять ошибки, программа считает, что она все правильно 
распознала, а значит, подобные ошибки в следующий раз еще более 
вероятны. Если же заставить систему исправиться, сказав ей, какие 
слова она должна была выбрать, она свяжет эти исправленные 
слова со звуками, которые она услышала, и в следующий раз сделает это намного лучше.

К покупке доступен более свежий выпуск Перейти