Корпусная лингвистика
Покупка
Основная коллекция
Тематика:
Общие вопросы. Лингвистика
Издательство:
Санкт-Петербургский государственный университет
Год издания: 2020
Кол-во страниц: 234
Дополнительно
Вид издания:
Учебник
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-288-05997-1
Артикул: 754196.01.99
Учебник знакомит с концепциями корпусной лингвистики, дает возможность освоить азы корпусных технологий, приобрести навыки работы с корпусами, определить место дисциплины и собственно корпусов в ряду информационных технологий. Базой для создания учебника послужили исследовательская работа и преподавательская деятельность авторов.
Предназначен для студентов, магистрантов и аспирантов филологических и педагогических специальностей, а также для всех интересующихся вопросами корпусной лингвистики.
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
3-е издание, переработанное В. П. Захаров, С. Ю. Богданова КОРПУСНАЯ ЛИНГВИСТИКА ИЗДАТЕЛЬСТВО САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
УДК 81.32 ББК 81.1-923 З-38 Авторы: канд. филол. наук, доцент В. П. Захаров (С.-Петерб. гос. ун-т); д-р филол. наук, профессор С. Ю. Богданова (Иркутский гос. ун-т) Рецензенты: д-р филол. наук С. А. Крылов (ИВ РАН); д-р филол. наук, профессор Л. Н. Беляева (РГПУ им. А. И. Герцена); канд. филол. наук, доцент М. В. Хохлова (СПбГУ) Рекомендовано к публикации Учебно-методической комиссией УГСН 45.00.00 Языкознание и литературоведение Санкт-Петербургского государственного университета З-38 Захаров В. П., Богданова С. Ю. Корпусная лингвистика: учебник. 3-е изд., перераб. — СПб.: Изд-во С.-Петерб. ун-та, 2020. — 234 с. ISBN 978-5-288-05997-1 Учебник знакомит с концепциями корпусной лингвистики, дает возможность освоить азы корпусных технологий, приобрести навыки работы с корпусами, определить место дисциплины и собственно корпусов в ряду информационных технологий. Базой для создания учебника послужили исследовательская работа и преподавательская деятельность авторов. Предназначен для студентов, магистрантов и аспирантов филологических и педагогических специальностей, а также для всех интересующихся вопросами корпусной лингвистики. УДК 81.32 ББК 81.1-923 © Санкт-Петербургский государственный университет, 2020 ISBN 978-5-288-05997-1 © В. П. Захаров, С. Ю. Богданова, 2020
Оглавление Предисловие к третьему изданию.............................................................. 7 Предисловие к первому и второму изданиям ......................................... 9 ЧАСТЬ 1. ВВЕДЕНИЕ В КОРПУСНУЮ ЛИНГВИСТИКУ Глава 1. Основные понятия корпусной лингвистики ....................... 11 1.1. Определение корпусной лингвистики ............................... — 1.2. Предмет корпусной лингвистики ........................................ 13 1.3. Терминология корпусной лингвистики ............................. 15 1.4. Направления в лингвистике, предвосхитившие появление корпусной лингвистики ................................... 17 1.5. Основные характеристики корпусов.................................. 21 1.5.1. Репрезентативность корпусов ........................................ — 1.5.2. Прагматическая ориентированность ........................... 22 1.6. История создания лингвистических корпусов ................ 24 Глава 2. Стандартизация в корпусной лингвистике.......................... 26 2.1. Объекты стандартизации ...................................................... — 2.2. Международные стандарты корпусной лингвистики .... 27 2.3. Разметка корпусов в проекте (стандарте) TEI ................. 28 Глава 3. Разметка корпусов ........................................................................ 34 3.1. Понятие разметки ................................................................... — 3.2. Лингвистическая разметка ................................................... 36 3.2.1. Морфологическая разметка ........................................... 37 3.2.1.1. XML формат (формат с ключевыми словами) ..... — 3.2.1.2. Позиционный формат кодирования данных разметки ......................................................... 40 3.2.1.3. Гибридный формат кодирования данных разметки ........................................................................ 43 3.2.2. Синтаксическая разметка ............................................... 45 3.2.3. Семантическая разметка ................................................. 50 3.3. Экстралингвистическая разметка ....................................... 54 Глава 4. Типология корпусов ..................................................................... 56 4.1. Классификация корпусов по различным основаниям .. — 4.2. Особенности корпусов отдельных типов .......................... 61
Оглавление 4.2.1. Параллельные корпусы .................................................... 61 4.2.2. Корпусы устной речи ....................................................... 64 4.2.3. Учебные корпусы текстов ............................................... 67 Вопросы и задания для самоконтроля ...................................... 69 ЧАСТЬ 2. СОЗДАНИЕ КОРПУСОВ Глава 5. Традиционная технология создания корпусов ................... 70 5.1. Проектирование и технологический процесс создания корпусов .................................................................. — 5.2. Отбор источников. Критерии отбора ................................ 72 5.3. Основные процедуры обработки входных текстов ........ 74 5.4. Как создать собственный корпус? ....................................... 77 Глава 6. Создание корпусов на базе веба............................................... 79 6.1. Поисковые системы Интернета как корпусы ................... — 6.2. Веб как корпус .......................................................................... 80 6.3. Технология WaC ....................................................................... 83 Глава 7. Обзор существующих корпусов различных типов ............ 85 7.1. Зарубежные корпусы .............................................................. — 7.2. Корпусы русского языка ........................................................ 95 7.2.1. Первые корпусы русского языка ................................... — 7.2.2. Современные корпусы русского языка ....................... 99 7.2.2.1. Национальный корпус русского языка ................. — 7.2.2.2. Хельсинкский аннотированный корпус (ХАНКО) ....................................................................... 101 7.2.2.3. Корпусы университета г. Лидс ................................. 102 7.2.2.4. Другие текстовые корпусы русского языка .......... 103 7.2.2.5. Устные корпусы русского языка .............................. — 7.2.2.6. Мультимедийные корпусы русского языка .......... 105 7.3. Специальные корпусы ........................................................... 107 Вопросы и задания для самоконтроля ...................................... 109 ЧАСТЬ 3. ПОЛЬЗОВАНИЕ КОРПУСАМИ Глава 8. Корпусные менеджеры ................................................................ 110 8.1. Корпус как поисковая система ............................................. — 8.2. Функциональные возможности корпусных менеджеров ................................................................................... 115
Оглавление 8.3. Языки запросов корпусных менеджеров........................... 116 8.4. Язык запросов корпусного менеджера Sketch Engine .... 118 8.5. Язык регулярных выражений RegEx .................................. 121 8.6. Сервисные функции ............................................................... 127 Глава 9. Способы использования корпусов ......................................... 132 9.1. Пользователи корпусов .......................................................... — 9.2. Что можно получить из корпуса? ........................................ 133 9.2.1. Эмпирическая поддержка ............................................... — 9.2.2. Статистическая информация ......................................... 135 9.2.3. Метаинформация .............................................................. 135 Вопросы и задания для самоконтроля ...................................... — ЧАСТЬ 4. ЛИНГВИСТИЧЕСКИЕ ИССЛЕДОВАНИЯ НА БАЗЕ КОРПУСОВ Глава 10. Лексикографические исследования, основанные на корпусах ................................................................................... 137 10.1. Пример одного лексикографического исследования ... 138 10.1.1. Распределение deal по регистрам ............................ 140 10.1.2. Распределение смыслов (значений) по регистрам ................................................................ 143 10.1.3. Слово deal как глагол ................................................. 148 10.2. Анализ использования слов, кажущихся синонимами ......................................................................... 149 10.2.1. Распределение по регистрам синонимичных английских прилагательных big, large и great ....... 149 10.2.2. Удаленные коллокаты large ..................................... 156 Глава 11. Грамматические исследования, основанные на корпусах ......................................................................... 158 11.1. Распределение и функции номинализаций ................. 159 11.1.1. Анализ распределения номинализаций по регистрам ................................................................ — 11.1.2. Распределение и функция суффиксов номинализаций ........................................................... 161 11.2. Распределение грамматических категорий .................. 163 11.2.1. Частотность грамматических категорий .............. 164 11.2.2. Сравнение соотношения «существительное/ глагол» по регистрам ................................................. 166
Оглавление Глава 12. Исследования дискурса, основанные на корпусах ......... 167 12.1. Характеристики референциальных выражений ........... 169 12.1.1. Распределение референциальных выражений по регистрам ................................................................ 169 12.1.2. Техника интерактивного анализа: кодирование характеристик референциальных выражений .... 173 12.2. Распределение обращений в неформальной беседе ... 175 12.3. Пример исследования дискурса на материале речевого корпуса ................................................................. 176 Глава 13. Корпусные методы исследования ......................................... 179 13.1. Применение корпусных методов сбора, обработки и аннотирования текстового материала ....................... 180 13.1.1. Корпусы делового языка ........................................... — 13.1.2. Корпусы диалектов ..................................................... 182 13.1.3. Корпус устной речи «Один речевой день» ........... 183 13.1.4. Учебный прагматический корпус ........................... 185 13.2. Применение корпусных методов извлечения информации из русскоязычных корпусов текстов .... 186 13.2.1. Корпусы и переводная лексикография ................. — 13.2.2. Веб-корпусы: pro et contra ........................................ 190 13.3. Применение статистических методов в корпусных исследованиях...................................................................... 193 13.3.1. Корпусный анализ фразеологии ............................. 194 13.3.2. Диахронические исследования грамматики ........ 198 13.4. Выделение коллокаций статистическими методами ... 200 Вопросы и задания для самоконтроля ................................... 204 Заключение ...................................................................................................... 205 Темы докладов, рефератов, курсовых работ ........................................... 207 Рекомендуемая литература .......................................................................... 211 Список цитируемых источников ............................................................... 214 Глоссарий ......................................................................................................... 226 Список сокращений ...................................................................................... 230 Предметный указатель .................................................................................. 231
Предисловие к третьему изданию Предлагаемый учебник является результатом научной и педагогической деятельности авторов, а также обобщением многочисленных материалов по корпусной лингвистике, опубликованных в России и за рубежом, естественно, малой их части. На его основе построены лекционные курсы по корпусной лингвистике и смежным с ней дисциплинам, читаемые на протяжении многих лет В. П. Захаровым в Санкт-Петербургском государственном университете и С. Ю. Богдановой в Иркутском государственном университете. Материал, представленный в учебнике, также может быть использован в курсах лекций по дисциплинам «Информационные и коммуникационные технологии в науке и образовании», «Основы прикладной лингвистики», «Квантитативная лингвистика», «Корпусы при автоматической обработке текста», «Компьютерные методы в лингвистических исследованиях», «Корпусы и переводоведение» и др. По сравнению со вторым изданием главные изменения следующие: • переработаны многие прежние и добавлены новые разделы, в частности раздел 5.4. «Как создать собственный корпус?», глава 6 «Создание корпусов на базе веба», глава 13 «Корпусные методы исследования» и др.; • добавлена или исправлена информация о корпусах, существовавших на момент подготовки второго издания, и новых; • добавлена информация о новых корпусных инструментах, появившихся или претерпевших изменения после выхода второго издания; • отражены некоторые новые публикации; • изменена структура учебника.
Предисловие к третьему изданию В данном издании учебник состоит из 13 глав, разбитых на 4 части: «Введение в корпусную лингвистику», «Создание корпусов», «Пользование корпусами» и «Лингвистические исследования на базе корпусов». Современное развитие лингвистики как эмпирической науки диктует необходимость использования новых, объективных методов исследования. Корпусная лингвистика является одним из разделов науки о языке, который предоставляет такие возможности. Как ими воспользоваться — об этом авторы постарались рассказать в учебнике.
Предисловие к первому и второму изданиям Предлагаемый вашему вниманию учебник является своего рода обобщением многочисленных разрозненных материалов, опубликованных за последние два десятилетия в России и за рубежом. Данные материалы легли в основу лекционных курсов по дисциплине «Корпусная лингвистика», читаемых кандидатом филологических наук, доцентом Виктором Павловичем Захаровым в Санкт-Петербургском государственном университете и доктором филологических наук, профессором Светланой Юрьевной Богдановой в Иркутском государственном лингвистическом университете. Материал, представленный в учебном пособии, также может быть использован в курсах лекций по дисциплинам «Информационные и коммуникационные технологии в науке и образовании», «Основы прикладной лингвистики», «Компьютерные методы в лингвистических исследованиях» и др. Цель учебника — познакомить студентов с концепциями корпусной лингвистики, помочь им освоить основы корпусных технологий, приобрести навыки работы с корпусами, определить место дисциплины и собственно корпусов в ряду информационно-лингвистических технологий. Задачи учебного пособия: • ознакомить студентов с новой парадигмой в лингвистических исследованиях; • ознакомить студентов с историей корпусных исследований; • ознакомить студентов с языковыми и программными средствами корпусной лингвистики; • сформировать у студентов навыки работы с программными средствами и информационными ресурсами корпусной лингвистики; • ознакомить студентов с конкретными лингвистическими исследованиями, основанными на корпусных данных.
Предисловие к первому и второму изданиям Учебник состоит из трех частей. Первая часть — «Введение в корпусную лингвистику» — знакомит с основными понятиями и терминами корпусной лингвистики, историей ее становления как раздела языкознания, целями и задачами, типами существующих корпусов. Вторая часть — «Создание корпусов» — описывает в общих чертах технологические процессы, связанные с проектированием корпусов, отбором и обработкой языкового материала, способами разметки. Третья часть — «Использование корпусов» — включает три раздела. Раздел 3.1 «Корпусные менеджеры» посвящен описанию корпусных менеджеров, обеспечивающих поиск в корпусе. Раздел 3.2 «Обзор существующих корпусов различных типов» представляет собой обзор как зарубежных национальных корпусов, так и корпусов русского языка. Раздел 3.3 «Корпусные исследования» посвящен описанию конкретных исследований на базе корпусов разных типов, в нем приводятся результаты научных изысканий и дается их теоретическая интерпретация. В первую очередь авторы хотят показать, как можно, базируясь на корпусах, работать с реальным языковым материалом быстрее и эффективнее. В этом разделе приведены примеры исследований лишь в нескольких областях лингвистики — лексикографии, грамматике и анализе дискурса. Безусловно, сфера применения корпусных данных в лингвистике значительно шире. В приложении приведен краткий глоссарий терминов корпусной лингвистики. Надеемся, что студенты направления «Лингвистика» заинтересуются использованием корпусов независимо от сферы их научных интересов, а каждый преподаватель найдет в учебнике то, о чем нужно говорить его аудитории. Авторы выражают искреннюю благодарность заведующему кафедрой математической лингвистики СПбГУ Александру Сергеевичу Герду за критические замечания и рекомендации, сделанные в процессе подготовки учебника.