Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Машинный и автоматизированный перевод

Покупка
Основная коллекция
Артикул: 808077.01.99
Доступ онлайн
138 ₽
В корзину
Учебное пособие предназначено для студентов - филологов, лингвистов, переводчиков и широкого круга читателей, интересующихся вопросами машинного перевода. Учебное пособие состоит из двух частей. В первой теоретической части дается краткий исторический обзор развития машинного перевода как отрасли науки, рассматриваются основные системы машинного перевода и принципы их работы, критерии оценки качества машинного перевода, наиболее распространенные CAT-системы, практические принципы организации работы переводчика с автоматизированными системами перевода. В практической части учебного пособия содержатся контрольные вопросы и практические задания к теоретической части. Публикуется в авторской редакции.
Бутусова, А. С. Машинный и автоматизированный перевод : учебное пособие / А. С. Бутусова, Ю. В. Бец ; Южный федеральный университет. - Ростов-на-Дону ; Таганрог : Издательство Южного федерального университета, 2021. - 106 с. - ISBN 978-5-9275-3982-6. - Текст : электронный. - URL: https://znanium.com/catalog/product/2057597 (дата обращения: 23.11.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ

РОССИЙСКОЙ ФЕДЕРАЦИИ

Федеральное государственное автономное образовательное

учреждение высшего образования

«ЮЖНЫЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ»

А. С. Бутусова, 

Ю. В. Бец 

Машинный 

и автоматизированный 

перевод

Учебное пособие

Ростов-на-Дону − Таганрог

Издательство Южного федерального университета

2021

УДК 81'322.4(075.8)
ББК 81.2-7я73
Б 93

Издается по решению кафедры теории, практики и межкультурной 

коммуникации ИФЖиМК Южного федерального университета  
(протокол № 4 от 29 апреля 2021 г.)

Рецензенты:
профессор кафедры «Мировые языки и культуры» Донского 
государственного технического университета, доктор филологических наук, 
профессор Г. Г. Матвеева;
доцент кафедры английской филологии ИФЖиМКК ЮФУ, 
кандидат филологических наук А. А. Медведева

Бутусова, А. С. 
Машинный и автоматизированный перевод [Электронный ресурс] : учебное пособие / А. С. Бутусова, Ю. В. Бец ; Южный федеральный университет. – 
Ростов-на-Дону ; Таганрог : Издательство Южного федерального университета, 
2021.  – Электрон. текстовые дан. (1 файл:      Мб). – 1 электрон. опт. диск 
(CD-R). – Системные требования: процессор с тактовой частотой 1,5 ГГц и выше,  
1 Гб оперативной памяти, Windows 7 SP1, Windows 8, 8.1, Windows 10 (32- и 
64-разрядные версии), Acrobat Reader DC, привод DVD-ROM. – Загл. с экрана. –
106 с.
ISBN 978-5-9275-3982-6

Учебное пособие предназначено для студентов – филологов, лингвистов, переводчиков и широкого круга читателей, интересующихся вопросами машинного перевода. 
Учебное пособие состоит из двух частей. В первой теоретической части дается краткий 
исторический обзор развития машинного перевода как отрасли науки, рассматриваются основные системы машинного перевода и принципы их работы, критерии оценки 
качества машинного перевода, наиболее распространенные CAT-системы, практические принципы организации работы переводчика с автоматизированными системами 
перевода.
В практической части учебного пособия содержатся контрольные вопросы и практические задания к теоретической части. 
Публикуется в авторской редакции.
УДК 81'322.4(075.8)
ББК 81.2-7я73

ISBN 978-5-9275-3982-6 
© Южный федеральный университет, 2021 
© Бутусова А. С., Бец Ю. В., 2021 
© Оформление. Макет. Издательство 
Южного федерального университета, 2021

Б 93

 2,41 

Оглавление

Теоретические вопросы машинного перевода ...................................... 5

1. Понятие машинного перевода ....................................................................... 5

1.1. Определения машинного перевода ................................................... 5

1.2. Первые шаги в истории развития машинного перевода .............. 5

1.3. Машинные помощники переводчика ................................................. 6

1.4. Автоматизированный перевод ......................................................... 6

1.5. Автоматический перевод .................................................................. 7

2. История машинного перевода ....................................................................... 8

2.1. Машинный перевод до изобретения компьютера ........................ 9

2.2. Пионеры машинного перевода ........................................................... 9

2.3. Годы инноваций и великой эйфории ................................................. 11

2.4. Годы разочарований ........................................................................... 11

2.5. Доклад ALPAC и его последствия ..................................................... 11

2.6. Возвращение МП на научную арену ................................................. 12

2.7. История становления и развития МП в советском и постсоветском пространстве ........................................................................... 15

2.8. Новейшие разработки: состояние вопроса ................................... 17

3. Современные стратегии МП ......................................................................... 18

3.1. МП, основанный на правилах ............................................................ 19

3.2. Прямой перевод .................................................................................. 19

3.3. Непрямой перевод .............................................................................. 20

3.3.1.Метод перевода с языком посредником (Interlingua) ................ 21

3.3.2. Метод трансфера ........................................................................ 21

4. Эмпирические методы .................................................................................. 22

4.1. Статистический перевод ................................................................ 22

4.1.1. Принцип работы ........................................................................... 24

4.1.2. Типы статистического машинного перевода .......................... 25

4.1.2.1. Статистический перевод на уровне слова ............................ 25

4.1.2.2. Фразеологический статистический МП ................................. 26

4.2. Статистические и основанные на правилах системы МП ........ 27

4.3. Другие подходы ................................................................................... 28

4.3.1. Нейронный машинный перевод (NMT) ........................................ 28

4.3.2. Перевод, основанный на примерах .............................................. 30

4.3.3. Контекстуальный подход ............................................................ 31

4.3.4. Подход, основанный на знаниях ................................................... 31

4.3.5. Гибридные системы ...................................................................... 32

5. Современные системы машинного перевода ............................................ 32

5.1. PROMT Professional 7.0 ........................................................................ 32

5.2. SYSTRAN ................................................................................................ 34

5.3. GOOGLE-переводчик (или Google Translate) ..................................... 36

5.4. Яндекс. Переводчик............................................................................. 38

5.5. ЭТАП-3 (Россия) .................................................................................... 40

6. Системы автоматизированного перевода («КОШКИ») .............................. 45

6.1. Smartcat ................................................................................................ 46

6.2. Memsource ............................................................................................ 46

6.3. SDL Trados Studio .................................................................................. 47

6.4. memoQ .................................................................................................. 47

7. Оценка качества МП ...................................................................................... 48

8. Практические аспекты работы переводчика с МП ..................................... 50

8.1. Алгоритм работы переводчика с машинным переводом ........... 50

8.2. Пользовательский словарь переводчика при работе с МП ........ 52

Контрольные вопросы и практические задания ................................. 54

1. Контрольные вопросы ................................................................................... 54

2. Практические задания. Типы ошибок машинного перевода .................... 56

3. Задания для самостоятельной работы ........................................................ 77

Список литературы ........................................................................................103

Часть 1
Теоретические вопросы машинного перевода

1. Понятие машинного перевода

1.1. Определения машинного перевода

В настоящее время различают машинный перевод (МП) в узком и широком 

смыслах. В узком смысле под МП понимается перевод текста с одного естественного языка на другой, выполняемый компьютером полностью или почти 
полностью. Перевод текста оригинала производится автоматически, без участия человека. При этом допускается постредактирование. В широком смысле 
машинный перевод представляет собой междисциплинарную научную сферу, 
объединяющую в себе лингвистику, математику, кибернетику, и разрабатывающую системы, осуществляющую машинный перевод в узком смысле.

1.2. Первые шаги в истории развития машинного перевода

Первым исследователем 50–60-х годов 20 века, 

всерьез занявшимся сферой машинного перевода, 
был Йогошуа Бар-Гиллел (см. Рис. 1). Термин автоматический высококачественный перевод (Fully Automatic 
High Quality Translation (FAHQT) ввел именно он. Под 
автоматическим 
высококачественным 
переводом 

(FAHQT) он понимал «качественный перевод, выполняемым опытным переводчиком-человеком с использованием автоматизированной системы перевода [14, 
с. 33]. Как мы видим, возможность получения качественного перевода автоматизированным способом 
без участия человека в качестве редактора Й. Бар-Гиллел не считал осуществимой на современном исследователю этапе. Целью МП в период его возникновения 
была разработка системы, способной генерировать тексты переводов, по качеству не уступающих переводам опытных переводчиков и не нуждающихся 
в редактировании человеком. Однако Бар-Гиллел скептически относился к такой постановке задачи и считал ее утопичной. 

В 1966 году в так называемом отчёте Консультативного комитета по пробле
мам автоматической переработки текстов на естественных языках (Automatic 
Language Processing Advisory Committee ALPAC), учрежденном правительством США при Национальной академии наук, встречается следующая дефиниция МП: «МП прежде всего предполагает генерирование текста перевода 
на естественном языке путем выполнения алгоритма распознавания маши
 Рис. 1. Йогошуа 

Бар-Гиллел

Часть 1

ной исходного текста оригинала без использования человеческого перевода 
или редактирования» [10, с. 19]. И здесь мы наблюдаем дефиницию, схожую 
с определением Й. Бар-Гелля. Однако и авторы этой дефиниции были едины 
во мнении, что выполнение этой задачи никогда не будет возможным. Как отмечали в своих научных публикациях Й. Бар-Гиллел и ALPAC, без вмешательства опытного переводчика в процесс перевода или редактирования качество 
машинного перевода никогда не будет соответствовать высоким стандартам 
качества. 

1.3. Машинные помощники переводчика

Данный термин мы встречаем у М. Кренца и М. Рамлоу [25], Ф. Шефера 

[28], М. Шванке [29], А. Блатта [15]. Как следует из названия данной категории, участие человека в процессе перевода здесь значительное. По сути, 
здесь речь идет о человеческом переводе с использованием полезных инструментов [28]. У А. Блатта мы находим следующую дефиницию помощников: «Машинные помощники переводчика (maschinelle Übersetzungshilfen) 
это системы обработки текстов и поиска терминологии, которые могут использоваться автономно» [15, с. 77]. Понятие машинных помощников переводчиков затрагивает как компьютерное оборудование (Hardware), так 
и программное обеспечение, которые должны присутствовать на рабочем 
месте переводчика и иногда разрабатываются специально для переводчиков. К компьютерному оборудованию относятся жесткие диски с большим 
объемом памяти, мультиязыковые сканнеры и клавиатуры, программы для 
обработки текстов со встроенным контролем орфографии и грамматики как, 
например, Microsoft Word, связанные с программами по установке мультилингвальных шрифтов. Кроме того к помощникам переводчика причисляют 
электронные словари, дву- или мультиязычные корпуса, терминологические 
базы терминов [29, с. 59].

1.4. Автоматизированный перевод

В немецкоязычной специальной литературе по МП наряду с немецким на
званием (maschinengestützte Übersetzung, [26] и [28] встречается английский 
термин Human-Aided Machine Translation [29], [25], [15].

У Ф. Шефера мы находим термин машинный перевод с поддержкой поль
зователя (benutzerunterstützte maschinelle Übersetzung). В данной категории 
участие человека в процессе перевода значительно меньше, чем в случае с 
машинными помощниками переводчика. Задача переводчика ограничивается 
решением тех переводческих задач, с которыми не справилась машина. В процесс перевода человек вступает на этапе предварительного и постредактирования. Предварительное редактирование среди прочего предполагает поиск 
и маркировку сегментов, не подлежащих машинному переводу, например, 

Часть 1

имена собственные. Помимо этого, уточняются значения многозначных слов с 
целью их корректного перевода в последующем. После соответствующей обработки текста на этапе предварительного перевода, текст переводится автоматически. Но и текст, полученный в результате машинного перевода, требует 
доработки переводчиком [28, с. 31].

1.5. Автоматический перевод

В специальной немецкоязычной литературе по МП в настоящее время 

сосуществуют следующие термины, обозначающие автоматический машинный перевод без вмешательства человека: vollautomatische Übersetzung 
[29], и maschinelle Übersetzung [15]. Обозначение автоматического перевода подчеркивает, что процесс перевода происходит без участия человека. И, как показала пока еще непродолжительная история развития систем 
МП, автоматический перевод не дает удовлетворительных результатов, а 
доработка текстов машинного перевода остается необходимым условием 
качественного перевода. Системам машинного перевода A. Блатт дает следующую дефиницию: «Системы машинного перевода – это такие системы, 
которые, по крайней мере, изначально были или остаются и поныне ориентированными на автоматический перевод [15, с. 108]. Первоначально 
системы МП разрабатывались для получения высококачественных текстов 
переводов без участия человека.

Другая дефиниция гласит: «В настоящее время в теории МП под поняти
ем автоматического перевода (FAMT – Fullу Automаtical Maсhine Translation) 
мыслится только форма МП, не предусматривающая участия человека от 
загрузки текста оригинала до выгрузки «сырого» текста перевода, т. е. до 
редактирования [28, с. 31]. Таким образом, автоматический перевод (Fully 
Automatic Machine Translation) здесь понимается как автоматический процесс, в результате которого получается текст перевода, требующий постредактирования, которое выполнить может только человек. Похожую 
дефиницию мы находим и у Джона Лербергера/ Лорана Бурбо: «При автоматическом переводе переводчик не вмешивается в процесс перевода от 
ввода оригинального текста и до получения финального «сырого» текста 
перевода. Проверка финального «сырого» текста перевода […]; конечно, 
может быть полностью автоматической, что не исключает процесса постредактирования человеком.» [26, с. 8].

Д. Лербергер/ Л. Бурбо тоже не исключают постредактирования. При 

сравнении дефиниций возникает очевидный вопрос: В чем разница между 
автоматизированным и автоматическим переводом? Дефиниции обоих понятий близки и уловить различие на первый взгляд действительно непросто. Для ответа на поставленный вопрос рассмотрим еще одну дефиницию: 
«Машинный перевод – это передача смысла одного естественного языка 
на другой с использованием компьютера. Существует немного систем МП, 

Часть 1

являющихся автоматическими или стремящимися к полному автоматизму. Почти все они относятся к системам автоматизированного перевода 
(Machine Aided Translation – MAT), включающие помощь человека либо в 
начале, при предредактировании, либо в конце, при постредактировании, 
либо на обоих этапах [6]. В. Госхоук / А. Д. К. Келли / Д. Д. Вигг определяют 
автоматические системы МП в отличие от приведенных выше авторов как 
системы, выдающие высококачественные тексты переводов без участия человека на этапе предварительного или постредактирования. Вместе с тем 
авторы утверждают, что на сегодняшний день едва ли существуют такие 
системы автоматического перевода, которые могут выдавать качественные 
тексты перевода без участия человека, поэтому их следует отнести к категории автоматизированных систем перевода и не выделять в отдельную 
категорию. 

2. История машинного перевода

Перевод как вид деятельности ведет свою историю с древнейших времен. 

В Европе в древние времена переводом активно занимались поэты и ораторы (Гораций, Цицерон) и монахи и богословы (толкования Библии, перевод 
М. Лютера). После появления книгопечатания перевод как вид деятельности 
набирает свою популярность, т.к. развитие философской мысли пробуждает 
к жизни и потребность в информации. Впоследствии выполняются также переводы художественных текстов. Первые теоретические работы появляются 
только в 17-м веке, в трудах таких ученых как Джон Дeнxэм, Aбрaxaм Коули, 
Джон Дрaйдeн, Aлeксaндр Поуп. 18 век становится новым витком в развитии 
перевода и теории перевода, в частности. В это время выходит книга Aлeксaндрa Ф. Тэйлeрa «Основы пeрeводa», посвященная процессу и тонкостям перевода. Если на первых этапах перевод был дословным с исходным порядком слов, иначе слово за словом, то в этот период переводчик ассоциируется 
с творцом, призванным обогатить входной язык за счет заимствований или 
калькирования.

Особенностями перевода, которые отличают его от других видов деятель
ности, является замена исходного текста переведенным текстом. Но полное 
соблюдение соответствия невозможно из-за неизбежных потерь при переводе, например, из-за различий в культурно-исторических ассоциациях, несоответствия различных элементов содержания в языке оригинала и переводе, с 
разницей в грамматической структуре языка, языковых стилистических особенностей. Это дало право на появление в 19-м и 20-м вв. многочисленных 
теорий перевода и направлений в теории перевода. В условиях технического 
прогресса человек начинает задумываться о том, как можно упростить процесс перевода.

Датой возникновения МП как научной сферы считаются 40-е годы, но идея 

автоматического перевода зародилась гораздо раньше [28, с. 19].

Часть 1

2.1. Машинный перевод до изобретения компьютера

Идеи механизации процесса перевода представляется возможным про
следить с 17 века. Но более реалистичный характер они приобрели только в 20-м веке. В 30-е годы появились первые патенты на переводческие 
машины французского исследователя Жоржа Артсруни (Georges Artsrouni) 
и русского разработчика Петра Смирнова-Троянского. В то время появились так называемые механические словари. Именно эти исследователи 
считаются предтече МП. Наиболее значительными были труды П. П. Смирнова-Троянского. [23, с. 5]. Разработанный П. П. Смирновым-Троянским 
переводческий процесс делился на три фазы, механизирована была только вторая фаза. На первом этапе исходный текст обрабатывался предредактором. Он заменял склоняемые словоформы на их начальную форму 
и снабжал ее информацией о синтаксической функции в предложении. На 
втором этапе исходный текст переводился на целевой язык, при этом все 
слова в тесте целевого перевода снова представали в начальной форме. 
На третьем этапе постредактор обрабатывал целевой текст снова, переводя начальные формы слов в синтаксически целесообразные словоформы. 
Таким образом, система машинного перевода П. П. Смирного-Троянского 
осуществляла перевод исходных начальных форм слов предложения в целевые начальные формы. В дальнейшем он стремился автоматизировать 
грамматический анализ текстов. В 1939 году П. П. Смирнову-Троянскому 
удалось представить улучшенную версию своей переводческой машины. 
Однако она не нашла признания [2, с. 55]. 

2.2. Пионеры машинного перевода

Предпосылки для развития МП во всем мире были 

заложены появлением в 1942 году компьютеров.  
В 1946 Э. Д. Бут, руководитель вычислительного центра Лондонского университета и В. Вивер (см. Рис. 2), 
вице-президент фонда Рокфеллера впервые заявил 
возможности использования компьютера для автоматического перевода. После того, как Э. Д. Буту и  
Д. Х. В. Бриттену удалость создать специальную систему кодов, Р. Х. Риченс разработал систему для МП, экспериментальную модель которой он представил в 
1948 году. Первоначально эта система основывалась 
не просто на переводе слово в слово, но и осуществляла синтаксический анализ, в ходе которого сопоставлялись начальные формы слов и их словоформы. Полученные в результате 
грамматического анализа синтаксические характеристики позволяли представить текст в более совершенном виде на целевом языке [29, с. 69]. Так 

Рис. 2. 

Воррен Вивер

Часть 1

были заложены основы для новой сферы исследования – МП, который на 
тот момент не был знаком общественности. Известность методу МП принес меморандум Воррена Вивера 1949 года, послуживший официальной 
датой начала истории развития МП. В своем меморандуме Вивер описал 
различные методы МП и обозначил исследовательские проблемы. Главную 
проблему автоматического перевода он видел в неоднозначности переводимых слов. Однако на преодоление этой проблемы он смотрел весьма оптимистично. Проблему многозначности лексем он предлагал решить путем 
изучения непосредственного контекста. К сожалению, его оптимизм не 
был обоснован, как показали последующие годы. Однако его меморандум 
способствовал появлению множества исследовательских течений в США 
[28, с. 20].

Среди важнейших в этой связи исследовательских 

центров МП можно назвать Массачусетский технологический институт (MIT), университет Калифорнии 
Лос-Анджелеса (UCLA), Национальное бюро стандартов 
(NBS) и Корпорацию RAND в Санта Монике. Исследователи различных направлений сосредоточились, прежде 
всего, на вышеупомянутой проблеме неоднозначности 
слов и объеме контекста. Следующую проблему представляли различные синтаксические системы языков 
и вопрос, насколько успешно эту проблему можно решить механически. Кроме того разрабатывалась диакритическая маркировка текста для решения проблемы 
неоднозначности слов [29, с. 71]. В 1951 году Й. Бар-Гиллел впервые занялся МП исключительно профессионально. В течение года он встречался с 
исследователями и разработчиками систем МП и написал доклад о тогдашнем состоянии техники, в котором он осветил насущные проблемы МП на 
тот момент. Он не разделял оптимизма В. Вивера и призвал е поддаваться 
эйфории, вызванной меморандумом В. Вивера. 

В 1952 году он провел первую конференцию о МП, в которой приня
ли участие все исследователи и разработчики МП тех лет. На конференции обсуждалось состояние новой научной отрасли. Важными вопросами 
на повестке дня были предварительное и постредактирование текстов, 
электронные словари и модели анализа синтаксиса. Так, Леон Достер (см. 
Рис. 3) полагал, что необходимо демонстрировать возможности МП, чтобы продолжать усовершенствования разработок в данной сфере [23, с. 6]. 
Впоследствии Л. Достер в сотрудничестве с IBM разработал систему автоматического перевода, которую представил 1954 году. Она впервые была 
способна выполнять автоматический перевод в паре языков русский-английский на основе 250 словарных статей и шести грамматических правил 
[29, с. 72].

Рис. 3.  

Леон Достер

Доступ онлайн
138 ₽
В корзину