Методы и технологии компьютерного сурдоперевода
Покупка
Основная коллекция
Издательство:
Новосибирский государственный технический университет
Автор:
Гриф Михаил Геннадьевич
Год издания: 2012
Кол-во страниц: 76
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
Профессиональное образование
ISBN: 978-5-7782-2092-8
Артикул: 631992.01.99
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 45.03.02: Лингвистика
- ВО - Магистратура
- 45.04.02: Лингвистика
- 45.04.03: Фундаментальная и прикладная лингвистика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Министерство образования и науки Российской Федерации НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ М.Г. ГРИФ МЕТОДЫ И ТЕХНОЛОГИИ КОМПЬЮТЕРНОГО СУРДОПЕРЕВОДА Утверждено Редакционно-издательским советом университета в качестве учебного пособия НОВОСИБИРСК 2012
УДК 004.822(075.8) Г 857 Рецензенты: канд. техн. наук, доц. А.В. Гаврилов', канд. техн. наук, доц. В. С. Поздняков Гриф М.Г. Г 857 Методы и технологии компьютерного сурдоперевода: учеб. пособие / М.Г. Гриф. - Новосибирск: Изд-во НГТУ, 2012.-76 с. ISBN 978-5-7782-2092-8 Учебное пособие раскрывает подходы, модели, методы и технологии построения систем компьютерного сурдоперевода русской речи (текста) на русский жестовых язык для поддержки коммуникаций глухих и слышащих граждан России. Пособие адресовано студентам и специалистам, изучающим системы искусственного интеллекта и человеко-машинного взаимодействия. Работа подготовлена на кафедре автоматизированных систем управления для студентов дневного отделения по курсу взаимосвязанных дисциплин «Интеллектуальные системы» и «Системы искусственного интеллекта» (ООП по направлениям 230100.68 «Информатика и вычислительная техника» (магистерская программа «Компьютерное моделирование систем», квалификация «магистр»), 230100.62 «Информатика и вычислительная техника» (квалификация «бакалавр») УДК 004.822(075.8) ISBN 978-5-7782-2092-8 © Гриф М.Г., 2012 © Новосибирский государственный технический университет, 2012
ОГЛАВЛЕНИЕ ВВЕДЕНИЕ...............................................5 ГЛАВА 1. ПОСТАНОВКА ЗАДАЧИ АВТОМАТИЗАЦИИ СУРДОПЕРЕВОДА ДЛЯ ГЛУХИХ...............................7 1.1. Типы автоматических сурдопереводчиков...........7 1.2. Варианты организации интерлингвы в автоматических сурдопереводчиках....................................9 1.2.1. Система ZARDOZ...............................9 1.2.2. Использование виртуальной реальности в качестве интерлингвы.......................................14 1.3. Вариант построения семантического языка-посредника..22 1.3.1. Требования к языку-посреднику...............22 1.3.2. Возможный способ построения семантического языка.24 1.4. Описание моделей взаимосвязей в семантике русского звучащего и разговорного русского жестового языков...29 1.4.1. Неформальное описание интерлингвы...........30 1.4.2. Критерии выделения параметров действий......33 ГЛАВА 2. АНАЛИЗ ОСОБЕННОСТЕЙ РАЗГОВОРНОГО РУССКОГО ЖЕСТОВОГО ЯЗЫКА..............................39 ГЛАВА 3. РАЗРАБОТКА СТРАТЕГИЙ КОМПЬЮТЕРНОГО СУРДОПЕРЕВОДА.........................................47 3.1. Общая схема системы перевода русского текста на русский жестовый язык.......................................47 3
3.2. Подсистема анализа русского текста..............49 3.2.1. Досемантический анализ русского текста.......49 3.2.2. Семантический анализ текста..................52 3.2.3. Описание констант русского словаря...........53 3.2.4. Примеры использования программных модулей анализа русского текста.............................56 ГЛАВА 4. ПРИКЛАДНЫЕ СИСТЕМЫ КОМПЬЮТЕРНОГО СУРДОПЕРЕВОДА..........................................59 Библиографический список...............................71
ВВЕДЕНИЕ Примерно 10 % населения любой страны мира - это лица с ограниченными возможностями здоровья по слуху. Так, в России сейчас около 13 миллионов глухих и слабослышащих. Подавляющее большинство из них в повседневной жизни использует русский жестовый язык (РЖЯ). Существует проблема физической нехватки сурдопереводчиков для обеспечения биолингвистических потребностей глухих людей во всех областях их жизнедеятельности: в системе образования, здравоохранении, социальных службах, сотовой связи и т. п. Постепенная замена человека-сурдопереводчика на компьютерный сурдопереводчик служит благородной задаче разрушения барьеров, препятствующих коммуникации глухих и слышащих граждан России [1-26]. В России и в мире известны системы компьютерного сурдоперевода естественного языка (речи) на калькирующий национальный жестовый язык. Например, система Say It Sign It исследовательского центра IBM Hursley в Великобритании и программно-аппаратный комплекс жестовой речи в Институте социальной реабилитации Новосибирского государственного технического университета. Однако внедрение указанных программных систем в различные области жизнедеятельности глухих тормозится по следующим причинам: 1) отсутствие эффективных программных систем распознавания непрерывной русской речи; 2) перевод русского текста преимущественно на калькирующий жестовый язык, что затрудняет его восприятие глухими; 3) отсутствие признанной грамматической системы русского жестового языка; 4) отсутствие эргономичной системы визуализации жестового языка. Для решения указанных проблем в настоящем учебном пособии сделана попытка изложить с системных позиций современный подход к построению систем компьютерного сурдоперевода. Кроме того, данный вопрос недостаточно освещен в имеющейся учебной литературе. Учебное пособие содержит также ряд новых научных результатов, в частности, стратегии перевода русского текста на русский жестовый язык. Рассматриваемые подходы, модели, методы и технологии ком 5
пьютерного сурдоперевода русской речи (текста) на русский жестовый язык предназначены как студентам, так и специалистам в области систем искусственного интеллекта и человеко-машинного взаимодействия. Автор выражает благодарность А.А. Бертик, О.О. Корольковой, Л.Г. Панину, М.К. Тимофеевой, Е.Б. Цою за ценные советы и замечания при написании учебного пособия.
ГЛАВА 1 ПОСТАНОВКА ЗАДАЧИ АВТОМАТИЗАЦИИ СУРДОПЕРЕВОДА ДЛЯ ГЛУХИХ 1.1. ТИПЫ АВТОМАТИЧЕСКИХ СУРДОПЕРЕВОДЧИКОВ Выделяют два основных подхода к построению автоматических сурдопереводчиков: перевод, базирующийся на правилах (rule-based), и перевод, базирующийся на данных (data-based). В системах первого типа правила перевода строятся вручную на основе знания обоих языков; в системах второго типа правила выводятся автоматически на основе компьютерного анализа языковых данных, не опирающегося на какие-либо предварительные знания об устройстве рассматриваемых языков. Примером системы второго типа может служить статистический автоматический перевод. Ввиду отсутствия достаточно представительных корпусов параллельных текстов, по которым система могла бы обучаться, извлекая из них закономерности соотнесения текстов русского звучащего языка (РЗЯ) с текстами русского жестового языка, этот подход в настоящее время не представляется реализуемым. Системы первого типа различаются по степени глубины анализа переводимого текста. При прямом переводе синтаксический (и тем более семантический) анализ не проводится, перевод осуществляется на основе установления лексических соответствий. Перевод типа трансфер базируется на более глубоком анализе, доходящем до уровня синтаксиса или семантики. Синтаксическое/семантическое представление переводимого текста преобразуется (на основе заложенных в систему правил) в синтаксическое/семантическое представление другого языка, которое затем служит основой генерации перевода. Такая стратегия перевода восходит к идеям В. Ингве (Victor Yngve), высказанным в конце 50-х годов прошлого века. Еще более глубокий анализ текста происходит при переводе, базирующемся на построении искусственного языка-посредника (интер 7
лингвы). Эта стратегия перевода восходит к идеям Уоррена Уивера (Warren Weaver), предложенным в 1955 г. [27], и состоит в использовании схемы перевода, при которой текст одного языка преобразуется в текст другого языка на основе сведения обоих текстов к общему для них (в идеале не зависящему от языков L1 и L2) семантическому представлению на языке-посреднике. В самом общем виде схему перевода можно изобразить так (рис. 1.1): Рис. 1.1. Схема перевода, использующего интерлингву Существуют два типа стратегий построения интерлингвы [27]. 1. Создание универсального языкового описания, обобщающего (синтаксические или семантические) средства разных естественных языков. К этому подходу близок метод, используемый в системе [28]. 2. Создание языка-посредника, непосредственно моделирующего не естественные языки, а сам мир, о котором говорят на этих языках. Формализация знаний о мире позволяет включать в процесс перевода процедуры логического вывода, основанные на соображениях из области здравого смысла. Например, систему ZARDOZ [29, 27, 30] ее авторы относят именно к этому классу. Опыт разработки систем машинного перевода показывает, что чем более универсален язык-посредник, тем сложнее построить качественную и работоспособную систему перевода. Поэтому для автоматического перевода, ориентированного на два языка (РЗЯ и РЖЯ), построение универсального семантического описания, распространяющегося на большее число языков, было бы излишне. Второй подход отличается от первого тем, что вместо универсального описания языка строится универсальное описание мира. Но и такая замена тоже опирается на довольно жесткое требование к системе перевода. Если система ориентирована только на пару языков, то достаточно построить интерлингву, являющуюся универсальной именно для них, т. е. использование семантического языка-посредника, пригодного для описания семантик только тех двух языков, между которыми устанавливаются переводные соответствия. Различия между звучащим языков и жестовым языком очень существенны, такой межъязыковой перевод преобразует одну модальность 8