Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Информационные технологии в лингвистике

Покупка
Артикул: 619296.01.99
Доступ онлайн
175 ₽
В корзину
В учебном пособии излагаются основы курса «Информационные технологии в лингвистике», приводятся задания для организации самостоятельной работы студентов и глоссарий, включающий необходимые понятия курса.
Щипицина, Л. Ю. Информационные технологии в лингвистике [Электронный ресурс] : учеб. пособие / Л. Ю. Щипицина. — Москва : ФЛИНТА, 2013. — 128 с. - ISBN 978-5-9765-1431-7. - Текст : электронный. - URL: https://znanium.ru/catalog/product/462989 (дата обращения: 22.11.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
Л.Ю. Щипицина

ИнформацИонные техноЛогИИ
в ЛИнгвИстИке

Учебное пособие

Москва 
Издательство «ФлИнта» 
2013

3

УДК
800(075.8) 
ББК 
81.1я73
   
Щ85

Щипицина Л.Ю. 
    Информационные технологии в лингвистике [Электронный    
ресурс]: учеб. пособие / Л.Ю. Щипицина. — М. : ФЛИНТА,
2013. — 128 с.
      
  ISBN 978-5-9765-1431-7 

В учебном пособии излагаются основы курса «Информационные технологии 
в лингвистике», приводятся задания для организации самостоятельной 
работы студентов и глоссарий, включающий необходимые понятия курса.
Для преподавателей и студентов филологических и лингвистических 
специальностей.

© Щипицина л.Ю., 2013 
© Издательство «ФлИнта», 2013

УДК 800(075.8) 
ББК  81.1я73

ISBN  978-5-9765-1431-7 

содержание

Предисловие ............................................................................................................ 4

Часть 1.  Основные понятия . ................................................................................ 6

1.1. лингвистика. Язык . ...................................................................... 6

1.2. Информация. Информационные технологии .......................... 12

1.3. аппаратное и программное обеспечение  информационных 
технологий в лингвистике . ........................................................ 21

Часть 2. Области применения информационных технологий  
в лингвистике ........................................................................................ 27

2.1. автоматический анализ и синтез звучащей речи .................... 27

2.2. автоматическое распознавание текста .................................... 35

2.3. автоматическое аннотирование и реферирование текста ...... 38

2.4. автоматический анализ и синтез текста .................................. 43

Часть 3. Прикладные разделы компьютерной лингвистики ............................ 57

3.1. Корпусная лингвистика . ............................................................. 57

3.2. Компьютерная лексикография .................................................. 65

3.3. Компьютерная терминография ................................................. 76

3.4. Машинный перевод . .................................................................. 81

3.5. Компьютерное обучение языкам .............................................. 91

3.6. Информационно-поисковые системы ...................................... 98

Заключение .......................................................................................................... 104 

Библиография . .................................................................................................... 105 

Приложения ......................................................................................................... 111

Приложение 1. Глоссарий . ....................................................................... 111 

Приложение 2. темы докладов по курсу ................................................. 115 

Приложение 3. тест для проверки знаний по курсу ............................... 117 

Приложение 4. Ключи к тесту . ................................................................ 124

Р е ц е н з е н т ы: 

д-р филол. наук, проф., зав. кафедрой теории перевода 
и межкультурной коммуникации Воронежского
государственного университета В.Б. Кашкин;
канд. техн. наук, доцент кафедры информационных технологий 
и автоматизированных систем Московского государственного института 
электроники и математики Э.С. Клышинский

Щ85

5

Предисловие

Информационные технологии в настоящее время являются неотъемлемой частью любой сферы профессиональной деятельности, 
в том числе лингвистики. И если когда-то использование компьютеров и соответствующих программ в лингвистических исследованиях, 
переводе и в обучении языку не являлось обязательным, то сегодня 
уже со студенческой скамьи будущим преподавателям иностранных 
языков, переводчикам и лингвистам-исследователям необходимы 
компетенции, связанные с использованием информационных технологий в своей профессиональной сфере деятельности.
Первичному знакомству с возможностями информационных 
технологий в лингвистике служит настоящее учебное пособие, которое предназначено для студентов лингвистических специальностей бакалавриата младших курсов. Пособие соответствует рабочей 
программе дисциплины «Информационные технологии в лингвистике» и может быть использовано в качестве основного источника 
литературы по этой дисциплине.
Именно полный охват тем курса, подлежащих изучению студентами, а также наличие системы заданий и упражнений, облегчающих формирование у обучающихся необходимых компетенций, отличает данное пособие от других подобных изданий.
Пособие включает три основных части, библиографический список и приложения.
В основное содержание пособия входит часть 1 «Основные понятия», часть 2 «Области применения информационных технологий 
в лингвистике» и часть 3 «Прикладные разделы компьютерной 
лингвистики». Каждая часть содержит несколько разделов, включающих перечень основных теоретических вопросов, рассматриваемых в разделе, их краткое изложение, вопросы для обсуждения на 
семинарских занятиях, список литературы для самостоятельной 
подготовки студентов по теме раздела, упражнения и лабораторные 
работы. Для выполнения лабораторных работ требуются главным 

образом базовые программы операционной системы и ресурсы Интернета, что до минимума сводит необходимость привлечения дополнительного программного обеспечения в ходе изучения курса.
В библиографическом списке приводится литература, использованная при подготовке пособия, а также список интернет-ресурсов, 
который может быть дополнен студентами при работе над курсом.
В приложении приводится глоссарий с определениями необходимых теоретических понятий курса, сформулированных автором 
пособия с опорой на различные источники, список тем, предлагаемых студентам для более глубокой проработки в виде индивидуальных докладов, а также тест для проверки знаний по курсу, снабженный ключами, что позволяет использовать тест для индивидуальной 
работы студентов.
Содержание и учебно-методический аппарат пособия позволяют 
рассматривать его как базовое в освоении возможностей информационных технологий в лингвистике. В дальнейшем предусматривается углубленное изучение отдельных разделов курса («Машинный 
перевод», «автоматический анализ текста», «Компьютерная лингводидактика» и т.п.) в зависимости от профиля подготовки обучающегося в рамках специальных дисциплин профессионального цикла 
бакалавриата и магистратуры.

7

Часть 1

основные ПонятИя

1.1. Лингвистика. Язык

лингвистика как наука о закономерностях строения и развития естественного языка. Понятие теоретической и прикладной лингвистики. Соотношение прикладной и компьютерной лингвистики.
Язык как знаковая система. Понятие естественного и искусственного языка. Виды искусственных языков.

Изучение возможностей применения информационных технологий в лингвистике предполагает знание основных понятий соответствующей области знания, среди которых можно выделить понятия 
из сферы лингвистики (язык, лингвистика, компьютерная лингвистика и т.п.) и информатики (информация, алгоритм, модель и др.). 
Знакомство с этими понятиями начнем с лингвистических терминов, характеризующих непосредственную профессиональную область деятельности лингвистов, преподавателей иностранных языков и переводчиков.
лингвистика (или языкознание) традиционно понимается как 
наука о естественном человеческом языке [9, 28]. лингвистов занимают вопросы строения языка (выделение в нем фонетического, 
лексического, грамматического уровня и уровня текста), социального варьирования языка, вопросы порождения и понимания языковых 
высказываний, принципы функционирования языка в обществах 
разных типов, происхождения и развития языка и другие его аспекты [13, 618—622].
В зависимости от изучаемого аспекта языка, национальной традиции и научной методологии выделяются различные разделы лингвистики, например структурная лингвистика, социолингвистика, 
психолингвистика и т.п.
Чтобы определить раздел лингвистики, наиболее тесно связанный с использованием информационных технологий, целесообразно 

обратиться к разграничению теоретической и прикладной лингвистики.
теоретическая (или фундаментальная) лингвистика — это область языкознания, направленная на объективное установление состояния отдельного языка, его истории и закономерностей. Эта 
область лингвистики призвана ответить на вопрос «Каков язык?» 
[37, 214—215].
Прикладная лингвистика развивается с конца 20-х годов XX в. и 
является областью языкознания, связанной с разработкой методов 
решения практических задач использования языка [13, 397]. Прикладная лингвистика отвечает на вопрос «Как лучше использовать 
язык?».
Следует отметить, что в России и за рубежом сложились разные 
интерпретации понятия прикладной лингвистики. Если за рубежом в 
1930—1940-е годы под прикладной лингвистикой (Applied Linguistics) 
прежде всего понимается процесс обучения иностранному языку, 
методика его преподавания, особенности описания грамматики для 
учебных целей, то в России начиная с 1950-х годов, прикладная лингвистика ассоциируется с компьютерными технологиями и автоматическими системами обработки информации [4, 6]. В связи с этим в 
русскоязычной научной традиции прикладная лингвистика нередко 
рассматривается как синоним компьютерной / вычислительной / автоматической / инженерной лингвистики.
на современном этапе развития науки в рамках прикладной 
лингвистики выделяется несколько направлений по оптимизации 
использования языка, которые объединяются исследователями в две 
большие группы: традиционные («вечные») и новые.
К традиционным направлениям и соответствующим задачам 
прикладной лингвистики относятся:

l  создание и совершенствование письменностей;

l  создание систем транскрипции устной речи;

l  создание систем транслитерации иноязычных слов;

l  создание систем стенографии;

l  создание систем письма для слепых;

9

l  упорядочение, унификация и стандартизация научно-технической терминологии;

l  изучение процессов и создание правил образования названий новых изделий, товаров, химических веществ;

l  разработка методов адекватного преобразования текстов в иноязычную форму (перевода);

l  совершенствование методики преподавания языков и др. [13, 397].

новыми задачами прикладной лингвистики считаются:

l  разработка лингвистических основ машинного перевода;

l  автоматическое индексирование и аннотирование документов;

l  автоматический анализ текстов;

l  автоматический синтез текстов;

l  создание словарей-тезаурусов для автоматического поиска информации и др. [ср. 36].

Именно те области прикладной лингвистики, которые связаны с 
привлечением компьютеров для решения практических задач использования языка, являются предметом компьютерной лингвистики, оформившейся в 1960-е годы как особое научное направление.
Компьютерную лингвистику можно определить как область использования компьютерных инструментов — программ, технологий 
организации и обработки данных — для моделирования функционирования языка в тех или иных условиях, а также сферу применения 
компьютерных моделей языка в лингвистике и смежных с ней дисциплинах [4, 13].
В связи с тем, что язык представляет собой весьма сложное образование, в компьютерной лингвистике сложились и развиваются 
различные направления, примерно сопоставимые с отдельными 
уровнями языка, с процессами порождения и восприятия языковых 
сообщений или другими видами человеческой деятельности, связанной с языком. Соответственно, к направлениям компьютерной лингвистики относятся:

l  автоматический анализ текстов;

l  автоматический синтез текстов;

l  создание и поддержка автоматических словарей;

l  создание автоматизированных информационно-поисковых систем;

l  машинный перевод;

l  создание автоматических систем обучения языку;

l  автоматическая атрибуция и дешифровка анонимных текстов;

l  создание лингвистических баз данных;

l  разработка программных инструментов для решения задач теоретической и прикладной лингвистики и т.д. [20; 53 и др.].

лингвистика в целом и компьютерная лингвистика в частности 
имеют дело с языками различного типа и их отдельными уровнями. 
Язык в наиболее общем виде определяется как знаковая система, 
используемая для общения в некотором социуме [13, 604; 29, 5].
Различают естественные и искусственные языки. Естественный 
язык — это исторически сложившаяся и используемая в определенной 
этнической группе или национальном государстве знаковая система. 
Примерами естественных языков выступают русский и английский 
(принадлежащие к индоевропейской языковой семье) или финский и 
эстонский (принадлежащие к финно-угорской языковой семье).
Искусственные языки представляют собой знаковые системы, 
искусственно создаваемые в тех областях, где применение естественных языков менее эффективно или невозможно. Среди искусственных выделяются неспециализированные (или международные) 
языки (эсперанто, волапюк и др.) и специализированные языки. К последним относятся языки науки (математики, логики, химии и т.д., 
создание которых началось в XVI в.) и языки человеко-машинного 
общения (получающие распространение в специальных областях 
человеческой деятельности, связанной с облегчением диалога человека и компьютера, начиная с 1940-х годов) [13, 201—202].
Примеры языков человеко-машинного общения простираются 
от простейших систем символического кодирования (ассемблеров) 
до специализированных языков программирования (С++, Java, 
Python, ErLang и др.). К 1980-м годам в мире насчитывалось около 
500 языков программирования [13, 202]. В настоящее время активно 

11

используется примерно столько же, хотя общее количество известных языков программирования достигает нескольких тысяч [55]. 
Эти факты свидетельствуют об остроте проблемы человеко-машинного общения и о множестве подходов к ее решению.
Подводя итог разделу, констатируем, что лингвистикой следует 
считать науку о закономерностях происхождения, строения и функционирования естественного человеческого языка. Предметом лингвистики и компьютерной лингвистики как ее особого раздела выступает язык — знаковая система, используемая с различными целями.

Вопросы для обсуждения

1.  Что такое лингвистика? назовите ее разделы. В каком разделе лингвистика 
имеет дело с информационными технологиями?

2.  Можно ли считать синонимами прикладную и компьютерную лингвистику? аргументируйте свой ответ.

3.  Перечислите основные направления компьютерной лингвистики. Расскажите об одном из направлений.

4.  Сравните разные определения языка. Выделите в них ключевые слова. Составьте на основе повторяющихся ключевых слов свое определение языка.

5.  Подумайте, с естественным или искусственным языком имеет дело компьютерная лингвистика?

6.  Какие виды естественных и искусственных языков вам известны? Приведите примеры естественных и искусственных языков разных видов.

Рекомендуемая литература

1.  Баранов а.н. Введение в прикладную лингвистику: учеб. пособие. 3-е изд. 
М.: лКИ, 2007. С. 6—8, 20.

2.  Беляева л.н. лингвистические автоматы в современных гуманитарных 
технологиях: учеб. пособие. СПб.: Книжный Дом, 2007. С. 36—40.

3.  Большой энциклопедический словарь. Языкознание. М.: Большая Российская энциклопедия, 1998. С. 201—202; 604—606, 618—622.

4.  Всеволодова а.В. Компьютерная обработка лингвистических данных: 
учеб. пособие. 2-е изд., испр. М.: Флинта: наука, 2007. С. 63—64.

5.  Зубов а.В., Зубова И.И. Информационные технологии в лингвистике: 
учеб. пособие. М.: академия, 2004. С. 5—7.

Упражнения

1.  Определите статистические показатели приведенного ниже текста смешанного языкового типа.

Проекты Cíbola/Oleada реализуют обширные компьютерные системы лингвистического анализа текстов, представленных в Unicode. Компоненты системы 
включают средства работы с мультиязыковыми текстами (MUTT), построения конкорданса (XConcord) для текстов на более чем 16 языках, статистического анализа, 
автоматического перевода, различные словари и тезаурусы. некоторые версии этих 
компонентов доступны для бесплатной загрузки после процедуры формальной регистрации. Все компоненты реализованы в среде X11 Window System для SunOs и 
Solaris (источник: Проекты Cíbola/Oleada http://rvb.ru/soft/catalogue/c01.html).

Слов

Символов (без пробелов)

Символов (с пробелами)

Символов в латинской графике

Чисел

Средняя длина слов

2.  Какому языку соответствует средняя длина слов текста смешанного типа, 
приведенного в задании 1? Для выполнения задания вычислите среднюю 
длину слов русского языка из приведенного текста и среднюю длину слов 
в латинской графике.

3.  Определите, каким языкам соответствуют следующие специфические буквы, буквосочетания и слова:

а)  Ø ö ß ρ ω ё š,

б)  th sch šč,

в)  et, the, der, och, için.

4.  Создайте диагностический словарь для определения языка на материале 
текстов на двух разных языках (на ваш выбор). Для этого заполните следующую таблицу.

Таблица

Критерий
Язык 1:
Язык 2:

типичные артикли

Указательные местоимения 

13

Критерий
Язык 1:
Язык 2:

Местоимения 3-го лица

Отдельные формы 
вспомогательных глаголов

Основные предлоги и союзы

Другие частотные слова

5.  Дополните таблицу встречаемости букв в распространенных европейских 
языках [Всеволодова 2007: 64], добавив в нее данные по русскому языку. 
Используйте для этого любой текст на русском языке объемом не менее 
100 символов.

6.  Прочитайте несколько фраз на эсперанто. назовите морфологические диагностические показатели этого языка, учитывая, что существительные и 
прилагательные на эсперанто всегда имеют одни и те же окончания.

               Рус.                Эсперанто
           зеленое дерево            verda arbo
           старый человек           maljuna viro
           хороший друг            bela amiko

1.2. Информация. Информационные технологии

Информация как предмет изучения информатики и кибернетики. Понятие информационных технологий в лингвистике.
Виды информации. Способы кодирования и носители информации. Информационные революции.
Понятие модели и алгоритма в информатике. Понятие искусственного интеллекта.

Одним из основных назначений языка является его использование для передачи информации между людьми. Поэтому, говоря о 
языке, невозможно обойти вниманием и понятие информации.
Информация в обыденном понимании трактуется как сведения о 
положении дел в окружающем мире, его свойствах, протекающих в 
нем процессах и т.п. [31]. В специальных науках, изучающих информацию, это понятие определяется несколько иначе: как последовательность сигналов или символов некоторого алфавита, кодирую
щая некоторое сообщение без учета смыслового содержания этого 
сообщения (в теории передачи информации) или как содержание, 
которое получено из внешнего мира и позволяет адекватно реагировать живому организму (или технической системе) на окружающую 
среду (в кибернетике) [16, 11—12].
Обобщая различные определения информации, можно предложить следующую трактовку этого понятия: информация — это сведения об окружающем мире, передаваемые человеком, живыми организмами или техническими системами для регулирования своего 
поведения в окружающей среде.
Роль информации в современном обществе исключительно велика. Информация, кодируемая с помощью языка, превращается в 
знания; знания же передаются от поколения к поколению, тем самым обеспечивая преемственность общественных устоев.
Информация может кодироваться вербально или невербально. 
Различие способов кодирования информации (аудитивный, тактильный, визуальный, густический и т.д.) обусловливает множество способов ее представления:

l  тексты;

l  рисунки, чертежи, фотографии;

l  световые или звуковые сигналы;

l  электрические и нервные импульсы;

l  жесты и мимика;

l  запахи и вкусовые ощущения;

l  хромосомы, посредством которых передаются по наследству 
признаки и свойства организмов, и т.д.

Способов представления информации, как показывают примеры, достаточно много. но поскольку человек может воспринимать 
информацию лишь с помощью собственных органов чувств, целесообразно классифицировать виды информации именно на этом основании. По тому, какими органами чувств воспринимаются и какой 
сигнальной системой закодированы сведения об окружающем мире, 
можно выделить звуковую, вкусовую, тактильную, визуально-образную и визуально-символическую информацию. Именно последние 

Окончание таблицы

Доступ онлайн
175 ₽
В корзину