Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Корпусная лингвистика

Покупка
Основная коллекция
Артикул: 754196.01.99
Доступ онлайн
229 ₽
В корзину
Учебник знакомит с концепциями корпусной лингвистики, дает возможность освоить азы корпусных технологий, приобрести навыки работы с корпусами, определить место дисциплины и собственно корпусов в ряду информационных технологий. Базой для создания учебника послужили исследовательская работа и преподавательская деятельность авторов. Предназначен для студентов, магистрантов и аспирантов филологических и педагогических специальностей, а также для всех интересующихся вопросами корпусной лингвистики.
Захаров, В. П. Корпусная лингвистика : учебник / В. П. Захаров, С. Ю. Богданова. - 3-е изд., перераб. - Санкт-Петербург : СПбГУ, 2020. - 234 с. - ISBN 978-5-288-05997-1. - Текст : электронный. - URL: https://znanium.com/catalog/product/1244746 (дата обращения: 22.11.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
3-е издание, переработанное

В. П. Захаров, С. Ю. Богданова

КОРПУСНАЯ 
ЛИНГВИСТИКА

ИЗДАТЕЛЬСТВО САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

УДК 81.32
ББК 81.1-923
          З-38

Авторы:
канд. филол. наук, доцент В. П. Захаров (С.-Петерб. гос. ун-т);  
д-р филол. наук, профессор С. Ю. Богданова (Иркутский гос. ун-т)

Рецензенты:
д-р филол. наук С. А. Крылов (ИВ РАН); 
д-р филол. наук, профессор Л. Н. Беляева (РГПУ им. А. И. Герцена);
канд. филол. наук, доцент М. В. Хохлова (СПбГУ)

Рекомендовано к публикации 
Учебно-методической комиссией УГСН 45.00.00 
Языкознание и литературоведение 
Санкт-Петербургского государственного университета

З-38
Захаров В. П., Богданова С. Ю.
Корпусная лингвистика: учебник. 3-е изд., перераб.  — СПб.: 
Изд-во С.-Петерб. ун-та, 2020. — 234 с. 
ISBN 978-5-288-05997-1

Учебник знакомит с концепциями корпусной лингвистики, дает возможность освоить азы корпусных технологий, приобрести навыки работы с корпусами, определить место дисциплины и собственно корпусов 
в ряду информационных технологий. Базой для создания учебника послужили исследовательская работа и преподавательская деятельность 
авторов. 
Предназначен для студентов, магистрантов и аспирантов филологических и педагогических специальностей, а также для всех интересующихся 
вопросами корпусной лингвистики. 

УДК 81.32
ББК 81.1-923

  
© Санкт-Петербургский 
 
 
государственный университет, 2020
ISBN 978-5-288-05997-1  
© В. П. Захаров, С. Ю. Богданова, 2020

Оглавление

Предисловие к третьему изданию.............................................................. 
7

Предисловие к первому и второму изданиям ......................................... 
9

ЧАСТЬ 1. ВВЕДЕНИЕ В КОРПУСНУЮ ЛИНГВИСТИКУ
Глава 1. Основные понятия корпусной лингвистики ....................... 
11
1.1. Определение корпусной лингвистики ............................... 
—
1.2. Предмет корпусной лингвистики ........................................ 
13
1.3. Терминология корпусной лингвистики ............................. 
15
1.4. Направления в лингвистике, предвосхитившие 
появление корпусной лингвистики ................................... 
17
1.5. Основные характеристики корпусов.................................. 
21
1.5.1. Репрезентативность корпусов ........................................ 
—
1.5.2. Прагматическая ориентированность ........................... 
22
1.6. История создания лингвистических корпусов ................ 
24

Глава 2. Стандартизация в корпусной лингвистике.......................... 
26
2.1. Объекты стандартизации ...................................................... 
—
2.2. Международные стандарты корпусной лингвистики .... 
27
2.3. Разметка корпусов в проекте (стандарте) TEI ................. 
28

Глава 3. Разметка корпусов ........................................................................ 
34
3.1. Понятие разметки ................................................................... 
—
3.2. Лингвистическая разметка ................................................... 
36
3.2.1. Морфологическая разметка ........................................... 
37
3.2.1.1. XML формат (формат с ключевыми словами) ..... 
—
3.2.1.2. Позиционный формат кодирования 
данных разметки ......................................................... 
40
3.2.1.3. Гибридный формат кодирования  данных 
разметки ........................................................................ 
43
3.2.2. Синтаксическая разметка ............................................... 
45
3.2.3. Семантическая разметка ................................................. 
50
3.3. Экстралингвистическая разметка ....................................... 
54

Глава 4. Типология корпусов ..................................................................... 
56
4.1. Классификация корпусов по различным основаниям .. 
—
4.2. Особенности корпусов отдельных типов .......................... 
61

Оглавление

4.2.1. Параллельные корпусы .................................................... 
61
4.2.2. Корпусы устной речи ....................................................... 
64
4.2.3. Учебные корпусы текстов ............................................... 
67
Вопросы и задания для самоконтроля ...................................... 
69

ЧАСТЬ 2. СОЗДАНИЕ КОРПУСОВ

Глава 5. Традиционная технология создания корпусов ................... 
70
5.1. Проектирование и технологический процесс 
создания корпусов .................................................................. 
—
5.2. Отбор источников. Критерии отбора ................................ 
72
5.3. Основные процедуры обработки входных текстов ........ 
74
5.4. Как создать собственный корпус? ....................................... 
77

Глава 6. Создание корпусов на базе веба............................................... 
79
6.1. Поисковые системы Интернета как корпусы ................... 
—
6.2. Веб как корпус .......................................................................... 
80
6.3. Технология WaC ....................................................................... 
83

Глава 7. Обзор существующих корпусов различных типов ............ 
85
7.1. Зарубежные корпусы .............................................................. 
—
7.2. Корпусы русского языка ........................................................ 
95
7.2.1. Первые корпусы русского языка ................................... 
—
7.2.2. Современные корпусы русского языка ....................... 
99
7.2.2.1. Национальный корпус русского языка ................. 
—
7.2.2.2. Хельсинкский аннотированный корпус 
(ХАНКО) ....................................................................... 
101
7.2.2.3. Корпусы университета г. Лидс ................................. 
102
7.2.2.4. Другие текстовые корпусы русского языка .......... 
103
7.2.2.5. Устные корпусы русского языка .............................. 
—
7.2.2.6. Мультимедийные корпусы русского языка .......... 
105
7.3. Специальные корпусы ........................................................... 
107
Вопросы и задания для самоконтроля ...................................... 
109

ЧАСТЬ 3. ПОЛЬЗОВАНИЕ КОРПУСАМИ

Глава 8. Корпусные менеджеры ................................................................ 
110
8.1. Корпус как поисковая система ............................................. 
—
8.2. Функциональные возможности корпусных 
менеджеров ................................................................................... 
115

Оглавление

8.3. Языки запросов корпусных менеджеров........................... 
116
8.4. Язык запросов корпусного менеджера Sketch Engine .... 
118
8.5. Язык регулярных выражений RegEx .................................. 
121
8.6. Сервисные функции ............................................................... 
127

Глава 9. Способы использования корпусов ......................................... 
132
9.1. Пользователи корпусов .......................................................... 
—
9.2. Что можно получить из корпуса? ........................................ 
133
9.2.1. Эмпирическая поддержка ............................................... 
—
9.2.2. Статистическая информация ......................................... 
135
9.2.3. Метаинформация .............................................................. 
135
Вопросы и задания для самоконтроля ...................................... 
—

ЧАСТЬ 4. ЛИНГВИСТИЧЕСКИЕ ИССЛЕДОВАНИЯ 
НА БАЗЕ КОРПУСОВ

Глава 10. Лексикографические исследования, основанные 
на корпусах ................................................................................... 
137
10.1. Пример одного лексикографического исследования ... 
138
10.1.1. Распределение deal по регистрам ............................ 
140
10.1.2. Распределение смыслов (значений) 
по регистрам ................................................................ 
143
10.1.3. Слово deal как глагол ................................................. 
148
10.2. Анализ использования слов, кажущихся 
синонимами ......................................................................... 
149
10.2.1. Распределение по регистрам синонимичных 
английских прилагательных big, large и great ....... 
149
10.2.2. Удаленные коллокаты large .....................................  
156

Глава 11. Грамматические исследования, основанные 
на корпусах .........................................................................  
158
11.1. Распределение и функции номинализаций ................. 
159
11.1.1. Анализ распределения номинализаций 
по регистрам ................................................................ 
—
11.1.2. Распределение и функция суффиксов 
номинализаций ........................................................... 
161
11.2. Распределение грамматических категорий .................. 
163
11.2.1. Частотность грамматических категорий .............. 
164
11.2.2. Сравнение соотношения «существительное/
глагол» по регистрам ................................................. 
166

Оглавление

Глава 12. Исследования дискурса, основанные на корпусах .........  167
12.1. Характеристики референциальных выражений ........... 
169
12.1.1. Распределение референциальных выражений 
по регистрам ................................................................ 
169
12.1.2. Техника интерактивного анализа: кодирование  
характеристик референциальных выражений .... 
173
12.2. Распределение обращений в неформальной беседе ... 
175
12.3. Пример исследования дискурса на материале 
речевого корпуса ................................................................. 
176

Глава 13. Корпусные методы исследования ......................................... 
179
13.1. Применение корпусных методов сбора, обработки 
и аннотирования текстового материала ....................... 
180
13.1.1. Корпусы делового языка ........................................... 
—
13.1.2. Корпусы диалектов ..................................................... 
182
13.1.3. Корпус устной речи «Один речевой день» ........... 
183
13.1.4. Учебный прагматический корпус ........................... 
185
13.2. Применение корпусных методов извлечения 
информации из русскоязычных корпусов текстов .... 
186
13.2.1. Корпусы и переводная лексикография ................. 
—
13.2.2. Веб-корпусы: pro et contra ........................................  
190
13.3. Применение статистических методов в корпусных 
исследованиях...................................................................... 
193
13.3.1. Корпусный анализ фразеологии ............................. 
194
13.3.2. Диахронические исследования грамматики ........ 
198
13.4. Выделение коллокаций статистическими методами ... 
200
Вопросы и задания для самоконтроля ................................... 
204

Заключение ...................................................................................................... 
205

Темы докладов, рефератов, курсовых работ ........................................... 
207

Рекомендуемая литература .......................................................................... 
211

Список цитируемых источников ............................................................... 
214

Глоссарий  ......................................................................................................... 
226

Список сокращений ...................................................................................... 
230

Предметный указатель .................................................................................. 
231

Предисловие  
к третьему изданию 

Предлагаемый учебник является результатом научной и педагогической деятельности авторов, а также обобщением многочисленных 
материалов по корпусной лингвистике, опубликованных в России 
и за рубежом, естественно, малой их части. На его основе построены лекционные курсы по корпусной лингвистике и смежным с ней 
дисциплинам, читаемые на протяжении многих лет В. П. Захаровым 
в Санкт-Петербургском государственном университете и С. Ю. Богдановой в Иркутском государственном университете. Материал, 
представленный в учебнике, также может быть использован в курсах 
лекций по дисциплинам «Информационные и коммуникационные 
технологии в науке и образовании», «Основы прикладной лингвистики», «Квантитативная лингвистика», «Корпусы при автоматической 
обработке текста», «Компьютерные методы в лингвистических исследованиях», «Корпусы и переводоведение» и др.
По сравнению со вторым изданием главные изменения следующие:
• переработаны многие прежние и добавлены новые разделы, 
в частности раздел 5.4. «Как создать собственный корпус?», 
глава 6 «Создание корпусов на базе веба», глава 13 «Корпусные методы исследования» и др.;
• добавлена или исправлена информация о корпусах, существовавших на момент подготовки второго издания, и новых;
• добавлена информация о новых корпусных инструментах,

появившихся или претерпевших изменения после выхода 
второго издания;
• отражены некоторые новые публикации;
• изменена структура учебника. 

 Предисловие к третьему изданию  

В данном издании учебник состоит из 13 глав, разбитых на 4 части: «Введение в корпусную лингвистику», «Создание корпусов», 
«Пользование корпусами» и «Лингвистические исследования на 
базе корпусов».
Современное развитие лингвистики как эмпирической науки 
диктует необходимость использования новых, объективных методов исследования. Корпусная лингвистика является одним из разделов науки о языке, который предоставляет такие возможности. 
Как ими воспользоваться — об этом авторы постарались рассказать 
в учебнике.

Предисловие  
к первому и второму изданиям

Предлагаемый вашему вниманию учебник является своего рода обобщением многочисленных разрозненных материалов, опубликованных за последние два десятилетия в России и за рубежом. Данные 
материалы легли в основу лекционных курсов по дисциплине «Корпусная лингвистика», читаемых кандидатом филологических наук, 
доцентом Виктором Павловичем Захаровым в Санкт-Петербургском 
государственном университете и доктором филологических наук, 
профессором Светланой Юрьевной Богдановой в Иркутском государственном лингвистическом университете. Материал, представленный в учебном пособии, также может быть использован в курсах 
лекций по дисциплинам «Информационные и коммуникационные 
технологии в науке и образовании», «Основы прикладной лингвистики», «Компьютерные методы в лингвистических исследованиях» и др. 
Цель учебника — познакомить студентов с концепциями корпусной лингвистики, помочь им освоить основы корпусных технологий, приобрести навыки работы с корпусами, определить место 
дисциплины и собственно корпусов в ряду информационно-лингвистических технологий.
Задачи учебного пособия:
• ознакомить студентов с новой парадигмой в лингвистических исследованиях;
• ознакомить студентов с историей корпусных исследований;
• ознакомить студентов с языковыми и программными средствами корпусной лингвистики;
• сформировать у студентов навыки работы с программными 
средствами и информационными ресурсами корпусной лингвистики; 
• ознакомить студентов с конкретными лингвистическими исследованиями, основанными на корпусных данных.

 Предисловие к первому и второму изданиям 

Учебник состоит из трех частей. Первая часть — «Введение 
в корпусную лингвистику» — знакомит с основными понятиями 
и терминами корпусной лингвистики, историей ее становления 
как раздела языкознания, целями и задачами, типами существующих корпусов. Вторая часть — «Создание корпусов» — описывает 
в общих чертах технологические процессы, связанные с проектированием корпусов, отбором и обработкой языкового материала, 
способами разметки. Третья часть — «Использование корпусов» — 
включает три раздела. Раздел 3.1 «Корпусные менеджеры» посвящен 
описанию корпусных менеджеров, обеспечивающих поиск в корпусе. Раздел 3.2 «Обзор существующих корпусов различных типов» 
представляет собой обзор как зарубежных национальных корпусов, 
так и корпусов русского языка. Раздел 3.3 «Корпусные исследования» посвящен описанию конкретных исследований на базе корпусов разных типов, в нем приводятся результаты научных изысканий 
и дается их теоретическая интерпретация. 
В первую очередь авторы хотят показать, как можно, базируясь 
на корпусах, работать с реальным языковым материалом быстрее 
и эффективнее. В этом разделе приведены примеры исследований 
лишь в нескольких областях лингвистики — лексикографии, грамматике и анализе дискурса. Безусловно, сфера применения корпусных данных в лингвистике значительно шире. 
В приложении приведен краткий глоссарий терминов корпусной лингвистики.
Надеемся, что студенты направления «Лингвистика» заинтересуются использованием корпусов независимо от сферы их научных интересов, а каждый преподаватель найдет в учебнике то, о чем 
нужно говорить его аудитории. 

Авторы выражают искреннюю благодарность заведующему 
кафедрой математической лингвистики СПбГУ Александру Сергеевичу Герду за критические замечания и рекомендации, сделанные 
в процессе подготовки учебника.

Доступ онлайн
229 ₽
В корзину