Разработка аватарных технологий для систем компьютерного сурдоперевода
Покупка
Основная коллекция
Тематика:
Прикладная информатика
Издательство:
Новосибирский государственный технический университет
Автор:
Гриф Михаил Геннадьевич
Год издания: 2013
Кол-во страниц: 70
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
Профессиональное образование
ISBN: 978-5-7782-2349-3
Артикул: 632311.01.99
Тематика:
УДК:
ОКСО:
- ВО - Бакалавриат
- 09.03.02: Информационные системы и технологии
- ВО - Магистратура
- 09.04.02: Информационные системы и технологии
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Министерство образования и науки Российской Федерации НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ М.Г. ГРИФ РАЗРАБОТКА АВАТАРНЫХ ТЕХНОЛОГИЙ ДЛЯ СИСТЕМ КОМПЬЮТЕРНОГО СУРДОПЕРЕВОДА Утверждено Редакционно-издательским советом университета в качестве учебного пособия НОВОСИБИРСК 2013
УДК 004.89(075.8) Г 857 Рецензенты: канд. техн. наук, доцент А.В. Гаврилов', канд. техн. наук, доцент В. С. Поздняков Работа подготовлена на кафедре автоматизированных систем управления для студентов дневного отделения по курсу взаимосвязанных дисциплин «Интеллектуальные системы» и «Системы искусственного интеллекта» (ООП по направлениям 230100.68 «Информатика и вычислительная техника» (магистерская программа «Компьютерное моделирование систем», квалификация «магистр»), 230100.62 «Информатика и вычислительная техника» (квалификация «бакалавр») Гриф М.Г. Г 857 Разработка аватарных технологий для систем компьютерного сурдоперевода: учеб. пособие / М.Г. Гриф. - Новосибирск : Изд-во НГТУ, 2013.- 70 с. ISBN 978-5-7782-2349-3 Учебное пособие раскрывает подходы, модели, методы и технологии визуализации русского жестового языка при построении систем компьютерного сурдоперевода для поддержки коммуникаций глухих и слабослышащих граждан России. Пособие адресовано студентам и специалистам, изучающим системы искусственного интеллекта и человеко-машинного взаимодействия. УДК 004.89(075.8) ISBN 978-5-7782-2349-3 ©ГрифМТ., 2013 © Новосибирский государственный технический университет, 2013
ОГЛАВЛЕНИЕ Введение............................................... Глава 1. РАЗРАБОТКА АНИМИРОВАННОГО ПЕРСОНАЖА ЧЕЛОВЕКА-СУРДОПЕРЕВОДЧИКА.............................. 1.1. Создание полигональной модели................... 1.2. Риггинг модели.................................. 1.3. Применение инверсной кинематики................. 1.4. Анимация персонажа.............................. Глава 2. СИСТЕМЫ НОТАЦИЙ ЖЕСТОВЫХ ЯЗЫКОВ............... 2.1. Система Sign Writing............................ 2.2. Гамбургская система нотаций..................... Глава 3. ПРОГРАММНОЕ И АЛГОРИТМИЧЕСКОЕ ОБЕСПЕЧЕНИЕ 3.1. Описание игрового движка........................ 3.2. Общая структура программы....................... 3.3. Использование HamNoSys в системе................ 3.4. Организация калькирующей речи................... 3.5. Руководство по работе с системой................ Библиографический список............................... 4 .. ^5 ..7 13 20 25 29 30 34 45 45 48 50 57 62 67
Введение Примерно 10 % населения любой страны мира - это лица с ограниченными возможностями здоровья по слуху. Так, в России сейчас около 13 миллионов глухих и слабослышащих. Причем, около 300 тысяч человек - тотально глухие. Подавляющее большинство из них в повседневной жизни использует русский жестовый язык (РЖЯ). Существует и проблема физической нехватки сурдопереводчиков для обеспечения биолингвистических потребностей глухих людей по всей области их жизнедеятельности: система образования, здравоохранение, социальные службы, сотовая связь и т. п. Поэтому постепенная замена человека-сурдопереводчика на компьютерный сурдопереводчик будет служить благородной задаче разрушения барьеров, препятствующих коммуникации глухих и слабослышащих граждан России [1-26]. Одной из наиболее острых проблем при создании систем компьютерного сурдоперевода является визуализация РЖЯ. Наиболее простая система визуализации может быть создана на основе компьютерного видеословаря жестов, целиком показанного одним человеком. В ней слова (или распространённые предложения) представлены в виде отдельных видеофрагментов, а сложные фразы собираются из отдельных слов. Подобные системы разработаны в Новосибирске и в Минске. Несмотря на свои очевидные достоинства (главное из которых - простота), они обладают серьёзными недостатками. Основной недостаток в том, что синтез РЖЯ в этих системах не является непрерывным, он лишь воспроизводит последовательность изолированных друг от друга жестов. Другой подход при решении проблемы визуализации РЖЯ -использование компьютерной модели человека (аватара). Здесь воспроизводимые жесты свободно перетекают из одного в другой, что очень хорошо для восприятия глухими людьми. Для решения указанных проблем в настоящем учебном пособии сделана попытка изложить с системных позиций современный подход к построению систем визуализации РЖЯ для компьютерного сурдоперевода. Кроме того, данный вопрос недостаточно освещён в имеющейся учебной литературе. Автор привлекает новые результаты исследований, в частности описание жестов РЖЯ в гамбургской системе нотаций. Рассматриваемые подходы, модели, методы и технологии визуализации РЖЯ предназначены как студентам, так и специалистам, работающим в области систем искусственного интеллекта и человекомашинного взаимодействия.
ГЛАВА 1 РАЗРАБОТКА АНИМИРОВАННОГО ПЕРСОНАЖА ЧЕЛОВЕКА-СУРДОПЕРЕВОДЧИКА Для воспроизведения текста в жесты необходимо построить высококачественную анимированную модель человека. В общем случае этот процесс состоит из следующих этапов: • создание полигональной модели; • создание скелета; • скиннинг модели; • применение инверсной кинематики; • анимация персонажа. Данные этапы выполняются последовательно. Важно помнить, что при наличии ошибок на предыдущих этапах хороший результат на следующем этапе может быть недостижим. На сегодня существует несколько программных комплексов, позволяющих упростить построение компьютерных персонажей. Ниже приведено описание некоторых из них. 3ds Мах 3ds Мах (3D Studio МАХ) - полнофункциональная профессиональная программная система для создания и редактирования трёхмерной графики и анимации, разработанная компанией Autodesk. Содержит самые современные средства для художников и специалистов в области мультимедиа. Работает в операционных системах Microsoft Windows и Windows NT (как в 32-битных, так и в 64-битных). Весной 2010 года выпущена тринадцатая версия этого продукта под названием «3ds Мах 2011». 3ds Мах располагает обширными средствами по созданию разнообразных по форме и сложности трёхмерных компьютерных моделей реальных или фантастических объектов окружающего мира с использованием разнообразных техник и механизмов, включающих следующие: 5
• полигональное моделирование, в которое входят Editable mesh (редактируемая поверхность) и Editable poly (редактируемый полигон) - это самый распространённый метод моделирования, он используется для создания сложных моделей и моделей для игр; • моделирование на основе неоднородных рациональных В-сплайнов (NURBS); • моделирование на основе порций поверхностей Безье (Editable patch) - подходит для моделирования тел вращения; • моделирование с использованием встроенных библиотек стандартных параметрических объектов (примитивов) и модификаторов; • моделирование на основе стандартных объектов, как правило, является основным методом моделирования и служит отправной точкой для создания объектов сложной структуры - это связано с использованием примитивов в сочетании друг с другом как элементарных частей составных объектов. Применяемые здесь методы моделирования могут сочетаться друг с другом. Мауа Maya - редактор трёхмерной графики. В настоящее время это стандарт ЗЭ-графики в кино и телевидении. Первоначально система разработана для ОС Irix (платформа SGI), затем была портирована под ОС Linux, Microsoft Windows и Mac OS. Сейчас существует как для З2-бит-ных, так и для 64-битных систем. В Maya встроен мощный интерпретируемый кросс-платформенный язык: Maya Embedded Language (MEL), очень похожий на Tcl. Это не просто скриптовый язык, это способ настроить основную функциональность Maya (большая часть окружения Maya и сопутствующих инструментов написана на нём). В частности, пользователь может записать свои действия как скрипт на MEL, из которого можно быстро сделать удобный макрос. Так, аниматоры могут добавлять функциональность к Maya, даже не владея языками С или C++, оставляя при необходимости такую возможность. Для написания расширений на языке C++ имеется подробно документированный язык C++ API. Также для разработчиков теперь имеется возможность написания дополнений на языке Python. Язык MEL не привязан к платформе, поэтому код, написанный на нём, будет исполняться в любой операционной системе. Файлы проектов, включая все данные о геометрии и анимации, сохраняются как последовательности операций MEL. Эти файлы могут 6
быть сохранены в текстовом файле (.ma - Maya ASCII), который может быть отредактирован в любом текстовом редакторе. Это обеспечивает непревзойденный уровень гибкости при работе с внешними инструментами. Rhino Rhinoceros (Rhino) - это коммерческое программное обеспечение для трёхмерного NURBS-моделирования разработки Robert McNeel & Associates. Преимущественно используется в промышленном дизайне, архитектуре, корабельном проектировании, ювелирном и автомобильном дизайне, в CAD/CAM-проектировании, быстром прототипировании, реверсивной разработке, а также в мультимедиа и графическом дизайне [27, 28]. Rhino специализируется на NURBS-моделировании. В плагины, разрабатываемые McNeel, входят Flamingo (рейтрейс рендеринг), Penguin (нефотореалистичный рендеринг), Bongo (анимация) и Brazil (сложный рендеринг). Существует более 100 сторонних плагинов для Rhino. Как и во многих других программах моделирования, в Rhino есть свой язык скриптов, основанный на Visual Basic, a SDK позволяет читать и записывать файлы напрямую. 1.1. Создание полигональной модели Основой любого компьютерного персонажа служит полигональная модель. Такая модель любого объекта (в данном случае - человека) состоит из большого количества выпуклых многоугольников, называемых полигонами. Чаще всего встречаются полигоны с тремя и четырьмя гранями. Таким образом, полигональный объект задается набором полигонов и включает в себя множество таких однотипных подобъектов, как вершины, рёбра и грани (рис. 1.1): • вершины - это точки, в которых сходится и соединяется друг с другом любое число рёбер; • рёбра - это линии границы грани. Рёбра могут быть видимыми, если соседние грани не лежат в одной плоскости, в противном случае они невидимы; • грани (полигоны) - выпуклые многоугольники, обычно с тремя или четырьмя вершинами. Для создания модели используют её проекции [29]. Сначала создаётся простой примитив (например, параллелепипед), а затем из него 7