Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Обработка речевых и звуковых сигналов и изображений в пакетах специального программного обеспечения

Покупка
Новинка
Артикул: 842139.01.99
Доступ онлайн
800 ₽
В корзину
Приведены краткие теоретические сведения о методах повышения разборчивости речи с использованием пакетов специального программного обеспечения для обработки речевых и звуковых сигналов и их графических спектрограмм. Для студентов МГТУ им. Н.Э. Баумана, обучающихся по направлению подготовки «Информационная безопасность». Рекомендовано Учебно-методической комиссией Научно-учебного комплекса «Информатика и управление» МГТУ им. Н.Э. Баумана.
Дворянкин, С. В. Обработка речевых и звуковых сигналов и изображений в пакетах специального программного обеспечения : методические указания / С. В. Дворянкин, А. М. Бонч-Бруевич, С. Б. Козлачков. - Москва : Изд-во МГТУ им. Баумана, 2013. - 52 с. - ISBN 978-5-7038-3812-9. - Текст : электронный. - URL: https://znanium.ru/catalog/product/2169314 (дата обращения: 22.11.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
Московский государственный технический университет
имени Н.Э. Баумана
С.В. Дворянкин, А.М. Бонч-Бруевич,
С.Б. Козлачков
Обработка речевых и звуковых
сигналов и изображений
в пакетах специального
программного обеспечения
Методические указания к выполнению
научно-исследовательских работ студентов по дисциплине
«Специальные информационные технологии»
Москва
Издательство МГТУ им. Н.Э. Баумана
2013


УДК 534.84
ББК 32.811
Д24
Рецензент Т.И. Булдакова
Д24
Дворянкин С. В.
Обработка речевых и звуковых сигналов и изображений в
пакетах специального программного обеспечения : метод. указания / С. В. Дворянкин, А. М. Бонч-Бруевич, С. Б. Козлачков. — М. : Изд-во МГТУ им. Н. Э. Баумана, 2013. — 48, [4] с. :
ил.
ISBN 978-5-7038-3812-9
Приведены краткие теоретические сведения о методах повышения разборчивости речи с использованием пакетов специального программного обеспечения для обработки речевых и звуковых сигналов
и их графических спектрограмм.
Для студентов МГТУ им. Н.Э. Баумана, обучающихся по направлению подготовки «Информационная безопасность».
Рекомендовано Учебно-методической комиссией Научно-учебного
комплекса «Информатика и управление» МГТУ им. Н.Э. Баумана.
УДК 534.84
ББК 32.811
ISBN 978-5-7038-3812-9
c
⃝МГТУ им. Н.Э. Баумана, 2013


ВВЕДЕНИЕ
В настоящее время активно развивается технология анализа и
обработки речевых сигналов по их динамическим спектрограммам для повышения качества звучания и разборчивости речи. Динамическая спектрограмма речевого сигнала представляется в виде полутонового изображения, которое может быть изменено в
графическом редакторе. Это изображение также иногда называется сонограммой или спектрограммой. В методических указаниях
приведены примеры решения задач обработки речи в пакетах специального программного обеспечения, позволяющих работать одновременно и с временн´
ой формой сигнала, и с его графической
спектрограммой.
При решении задач шумоочистки бывает необходимо повысить качество звучания зашумленного речевого сигнала. Качество
звучания — это совокупность таких характеристик речевого сигнала, как его разборчивость, натуральность (естественность) речи и
комфортность ее восприятия. Как правило, аудиозаписи, в которых
надо повысить качество звучания, изначально уже разборчивы или
почти разборчивы после многократного прослушивания. Решение
подобных задач обеспечивается большинством присутствующих
на отечественном рынке программно-аппаратных средств шумоочистки [1—8].
В тех случаях, когда важно лишь смысловое содержание записанной речи, круг участвующих в переговорах лиц и тема беседы априори известны лицу, ведущему анализ аудиозаписи, поэтому основной задачей является восстановление разборчивости
искаженной помехами речи, а натуральность и комфортность ее
3


восприятия могут быть переведены на второй план. При этом интересующий фрагмент записи может быть небольшим по объему
и содержать всего несколько слов, таких, как фамилии, имена, место и время встречи и т. п. Часто значимой является информация о
сопутствующей окружающей акустической обстановке, в которой
была произведена аудиозапись. Исходя из этой аудиозаписи можно
сделать следующие выводы: где происходила встреча (например,
на какой станции метро), какая техника была использована в офисе
во время переговоров [3] (например, что в этот момент распечатывал принтер, номер какого абонента был набран) и т. п.
В методических указаниях представлены краткие теоретические сведения об основных методах повышения разборчивости
речи и дано описание специального программного обеспечения,
реализующего необходимые алгоритмы обработки речевых сигналов и их динамических спектрограмм.


1. МЕТОДЫ ПОВЫШЕНИЯ РАЗБОРЧИВОСТИ РЕЧИ
1.1. Классификация методов повышения разборчивости речи
К задачам очистки речевого сигнала (шумоочистки) относятся
определение типа помехи и сигнала, выбор алгоритма обработки
для шумоочистки и нахождение параметров алгоритма. Наиболее
часто встречается ситуация, когда на речевой сигнал накладывается аддитивная помеха различного вида. Помеха может иметь
шумоподобный, как в случае уличного шума, либо речеподобный
характер, когда одновременно с речью интересующего лица звучит
речь многих других, воспроизводимая, например, радиовещательной сетью, телевизором, магнитофонными записями. Методы решения задачи шумоочистки могут весьма разниться в зависимости
от характера присутствующих мешающих (помеховых) сигналов
(помех), а также от условий записи. Однако все эти методы в той
или иной степени базируются на информации о полезном сигнале
и помехе.
Сегодня существует большое количество различных программных средств и аппаратных устройств, способных повышать качество звучания или разборчивость человеческой речи [1]. Основу
некоторых из них составляют методы, использующие различные
особенности образования речи и ее слухового восприятия, либо
модели удаляемых помех, либо то и другое.
Более сложные устройства шумоочистки и восстановления разборчивости речи базируются на применении широкого набора различных математических процедур, включающих моделирование
речевых сигналов и помех, статистический анализ случайных процессов и цифровую обработку сигналов и изображений. При работе
5


с программными и аппаратными средствами шумоочистки речевых сигналов учитывается, что хорошее воспроизведение кратковременного амплитудного спектра речевого сигнала является существенным фактором повышения разборчивости речи, тогда как
учет фазового спектра имеет меньшее значение. Важная особенность слухового восприятия, которую используют в процедурах
шумоочистки, — это маскировка звука. Так, после громких звуков
некоторое время не воспринимаются тихие [4, 5].
Поскольку речевой сигнал занимает широкую полосу частот и
имеет некоторую избыточность по частоте, то разборчивость речи
можно повысить путем обработки сигнала в спектральной области. Ряд методов шумоочистки применяется для борьбы с мощными узкополосными помехами, они основаны на их подавлении
в спектральной области с восстановлением сигнала по оставшейся части спектра. При этом в большинстве случаев оценивается
лишь амплитудный спектр, так как именно он имеет преимущественное значение для разборчивости речи. Однако отбрасывание
такой значительной информационной части комплексного спектра,
которую несут фазовые спектральные составляющие, приводит к
тому, что восстановленный сигнал не может считаться полностью
аутентичным и, как следствие, не может использоваться для фоноскопических исследований и экспертиз. Но для нарушителя сигнал, восстановленный таким образом, уже несет в себе ценную
смысловую информацию.
Ряд методов шумоочистки базируется на формантной структуре речевого сигнала [8]. Известно, что основная энергия речи
часто сосредоточена на определенных частотах, называемых формантами. Энергия шума в общем случае может быть распределена
по всему диапазону звуковых частот. Таким образом, используя
соответствующий фильтр, реализованный во временн´
ой или спектральной областях и точно настроенный на формантные частоты,
можно уменьшать шум, сохраняя при этом полезный сигнал. Поскольку значения формант остаются постоянными только на коротких интервалах времени, то при обработке разных участков речи
требуется постоянная адаптивная подстройка фильтра. Это не всегда просто реализуется на практике. Например, такая фильтрация
совершенно неприемлема в случае воздействия на сигнал суммы
6


Доступ онлайн
800 ₽
В корзину