Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Моделирование в корпусной лингвистике: специализированные корпусы русского языка

Покупка
Основная коллекция
Артикул: 733821.01.99
Доступ онлайн
249 ₽
В корзину
Монография содержит описание средств и методов, принципов и процедур создания корпусов языков для специальных целей, в том числе для исследования языка и решения практических лексикографических, учебных и других задач. В книге рассмотрены основные параметры специальных корпусов текста, возможности их варьирования и взаимосвязь с типами лингвистических задач. Проведен анализ существующих стандартов корпусной лингвистики, разработаны программные средства морфологической разметки. Книга предназначена для специалистов по корпусной лингвистике, а также для лингвистов, использующих корпусы в своей работе. Может стать подспорьем в преподавании дисциплин, относящихся к автоматизированной обработке текста.
Моделирование в корпусной лингвистике: специализированные корпусы русского языка : монография / В. П. Захаров, И. В. Азаров, О. А. Митрофанова [и др.]. - СПб : Изд-во С.-Петерб. ун-та, 2019. - 208 с. - ISBN 978-5-288-05902-5. - Текст : электронный. - URL: https://znanium.com/catalog/product/1080953 (дата обращения: 22.11.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
Ответственный редактор В. П. Захаров

МОДЕЛИРОВАНИЕ  
В КОРПУСНОЙ ЛИНГВИСТИКЕ 

Специализированные корпусы  
русского языка

ИЗДАТЕЛЬСТВО САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

УДК 81-33
ББК 81.1
 
М74

Реценз ен ты:  д-р филол. наук C. А. Кузнецов,  
 
(С.-Петерб. гос. ун-т);
 
д-р техн. наук А. А. Карпов 
 
(С.-Петерб. ин-т информат. и автоматиз. РАН)

Рекомендовано к публикации научной комиссией  
в области наук о языках и литературе  
Санкт-Петербургского государственного университета

М74
Моделирование в корпусной лингвистике: специализированные корпусы русского языка / В. П. Захаров, И. В. Азарова, О. А. Митрофанова, А. М. Попов, М. В. Хохлова; отв. ред. 
В. П. Захаров. — СПб.: Изд-во С.-Петерб. ун-та, 2019. — 208 с. 
ISBN 978-5-288-05902-5

Монография содержит описание средств и методов, принципов и процедур создания корпусов языков для специальных целей, в том числе для 
исследования языка и решения практических лексикографических, учебных и других задач. В книге рассмотрены основные параметры специальных корпусов текста, возможности их варьирования и взаимосвязь с типами лингвистических задач. Проведен анализ существующих стандартов 
корпусной лингвистики, разработаны программные средства морфологической разметки. 
Книга предназначена для специалистов по корпусной лингвистике, 
а также для лингвистов, использующих корпусы в своей работе. Может 
стать подспорьем в преподавании дисциплин, относящихся к автоматизированной обработке текста.

УДК 81-33
ББК 81.1

Работа выполнена по проекту «Модель программно-лингвистического 
комплекса для создания и использования специализированных корпусов 
русского языка» в рамках мероприятия «Проведение фундаментальных научных 
исследований по приоритетным направлениям Программы развития СПбГУ»

  
© Санкт-Петербургский 
 
 
государственный университет, 2019
ISBN 978-5-288-05902-5 
© Авторы, 2019

ОГЛАВЛЕНИЕ

Предисловие  ................................................................................................... 
7

Введение  ......................................................................................................... 
9

Глава 1.  КОРПУСЫ СПЕЦИАЛЬНЫХ ТЕКСТОВ ............................ 
11
1.1.  Понятие «язык для специальных целей»  
и «специальный текст» .......................................................... 
11
1.2.  Создание специальных корпусов  
как многокритериальная теоретическая задача ............. 
12
1.3.  Варьирование объема и баланс корпуса  .......................... 
12
1.4.  Варьирование тематических и жанровых  
характеристик корпуса.......................................................... 
15
1.5.  Структура и текстовые единицы корпуса ........................ 
15
1.6.  Специальная обработка текстов корпуса ......................... 
16
1.7.  Разметка текстов корпуса ..................................................... 
18

Глава 2.  СЕРВИС КОРПУСНОГО МЕНЕДЖЕРА  ............................ 
19
2.1.  Функции корпусных менеджеров....................................... 
19
2.2.  Выбор корпусного менеджера ............................................. 
23

Глава 3. 
ВАРЬИРОВАНИЕ ОСНОВНЫХ ПАРАМЕТРОВ 
ПРИМЕНИТЕЛЬНО К РАЗЛИЧНЫМ 
ТИПАМ СПЕЦИАЛЬНЫХ КОРПУСОВ  ............................ 
28
3.1.  Корпус терминологических текстов  ................................. 
28
3.2.  Корпус современных текстов для использования 
в качестве фонового  .............................................................. 
31

Оглавление

Глава 4. 
РАЗМЕТКА КОРПУСОВ .......................................................... 
33
4.1.  Стандартизация в корпусной лингвистике ..................... 
33
4.2.  Международные стандарты корпусной лингвистики ... 
34
4.3.  Разработка наборов метаданных ........................................ 
35
4.4.  Рекомендации проекта Text Encoding Initiative  .............. 
36
4.5.  Структура текста TEI............................................................. 
37
4.6.  Рекомендации TEI по созданию языковых корпусов .... 
38

Глава 5. 
ФОРМАТЫ ЛИНГВИСТИЧЕСКОЙ РАЗМЕТКИ ............. 
48
5.1.  Лингвистическая разметка .................................................. 
48
5.2.  Форматные средства разметки ............................................ 
48
5.3.  Металингвистичеcкое наполнение форматов ................. 
62

Глава 6. 
ОПТИМИЗАЦИЯ ПАРАМЕТРОВ 
МОРФОСИНТАКСИЧЕСКОЙ АННОТАЦИИ ................ 
76
6.1.  Система грамматических классов  
и подклассов слов в русском языке  ................................... 
76
6.2.  Оптимизация синтаксической аннотации в корпусах 
текстов ....................................................................................... 
82
6.3.  Соотношение значений параметров морфологической 
и синтаксической аннотации .............................................. 
84

Глава 7. 
ПРОГРАММНЫЕ СРЕДСТВА  
МОРФОЛОГИЧЕСКОЙ РАЗМЕТКИ ................................... 
86
7.1.  Принцип работы систем морфологического анализа, 
основанных на правилах ...................................................... 
86
7.2.  Реализация компьютерной морфологии  
для русского языка ................................................................. 
87
7.3.  Разработка конверторов форматов .................................... 
89

Глава 8. 
СОЗДАНИЕ СПЕЦИАЛЬНЫХ КОРПУСОВ  
ТЕКСТОВ ..................................................................................... 
100
8.1.  Проектирование и технологический процесс создания 
корпуса ...................................................................................... 
100
8.2.  Установка системы NoSketch Engine .................................. 
102
8.3.  Загрузка корпусов в систему NoSketch Engine ................ 
105

Оглавление

8.4.  Выбор тематических подобластей и отбор текстов ....... 
107
8.5.  Подготовка данных для корпусов специальных 
текстов ....................................................................................... 
109
8.6.  Альтернативные способы создания корпусов ................ 
111

Глава 9. 
СОЗДАНИЕ ФОРМАЛЬНОЙ МОДЕЛИ ВЫДЕЛЕНИЯ 
ТЕРМИНОВ И ТЕРМИНОЛОГИЧЕСКИХ 
СЛОВОСОЧЕТАНИЙ ИЗ КОРПУСОВ ............................... 
113
9.1.  Термины и специальные тексты ......................................... 
113
9.2.  Методы выделения прототипов терминов в корпусах 
специальных текстов ............................................................. 
114

Глава 10. АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ КЛЮЧЕВЫХ 
СЛОВ И СЛОВОСОЧЕТАНИЙ В КОРПУСАХ 
СПЕЦИАЛЬНЫХ ТЕКСТОВ .................................................. 
119
10.1. Постановка задачи ................................................................. 
119
10.2. Основные результаты автоматической обработки 
корпусов специальных текстов ........................................... 
120

Глава 11. ЭКСПЕРИМЕНТЫ ПО АВТОМАТИЧЕСКОМУ 
ВЫЯВЛЕНИЮ ТЕРМИНОЛОГИЧЕСКИХ 
СЛОВОСОЧЕТАНИЙ С ИСПОЛЬЗОВАНИЕМ 
СТАТИСТИЧЕСКИХ МЕТОДОВ 
И СРАВНИТЕЛЬНОГО КОРПУСА....................................... 
124
11.1. Терминологическая грамматика в Sketch Engine ............ 
125
11.2. Эксперименты и их оценка  ................................................. 
129

Глава 12. СОЗДАНИЕ ПОДКОРПУСА С СЕМАНТИЧЕСКОЙ 
РАЗМЕТКОЙ НА БАЗЕ ДАННЫХ НКРЯ ДЛЯ 
ПРОВЕДЕНИЯ ПРОЦЕДУРЫ АВТОМАТИЧЕСКОГО 
ВЫДЕЛЕНИЯ КОНСТРУКЦИЙ  ........................................... 
135

Заключение ...................................................................................................... 
139
Литература ....................................................................................................... 
141
References  ......................................................................................................... 
148

Приложение 1. Глоссарий............................................................................. 
156

Приложение 2. Список словосочетаний по теме «терроризм», 
выделенных по текстам сайтов  северокавказских 
сепаратистов ................................................................................ 
167

Оглавление

Приложение 3. Список словосочетаний по теме «терроризм», 
выделенных по текстам официальной печати ..................... 
175

Приложение 4. Корпус по энергетике в вертикальном формате 
(фрагмент) .................................................................................... 
184

Приложение 5. Грамматика лексико-синтаксических шаблонов  
для русского языка ..................................................................... 
192

Приложение 6. Термины и терминологические сочетания, 
выделенные автоматически из корпуса  
по энергетике ............................................................................... 
197

ПРЕДИСЛОВИЕ 

Монография содержит описание принципов и процедур создания 
корпусов языков для специальных целей. Специализированные 
подъязыки (языки для специальных целей) являются функциональными разновидностями языка, призванными обеспечить адекватное и эффективное общение специалистов в определенной предметной области. Особо важное место они занимают в системах автоматической обработки текста. 
Методология исследования базируется на декомпозиции корпусной технологии на отдельные блоки и выработку требований 
к программно-лингвистическому обеспечению каждого из них 
с учетом существующих стандартов и типовых проектных решений. 
В работе со специальными корпусами применяются констраcтивный 
анализ, дистрибутивно-статистические методы. Материал и инструмент исследования — существующие и специально создаваемые 
корпусы с лингвистической разметкой и корпусные лингвистические процессоры.
В исследовании рассмотрены основные параметры специальных корпусов текста, возможности их варьирования и взаимосвязь 
с типами лингвистических задач. Проведен анализ существующих 
международных стандартов корпусной лингвистики, разработаны программные средства морфологической разметки. Выделены 
и описаны формальные признаки научного термина, адаптированы 
рекомендации проекта Text Encoding Initiative (TEI) для работы со 
специальными корпусами, выработаны подходы к аналитико-лингвистической разметке, используемой в различных языковых исследованиях. Разработаны автоматизированные процедуры выделения 
терминов и терминологических словосочетаний из специальных 
корпусов, процедуры автоматического построения каталога русских 
конструкций. Предложенная методология может применяться при 
создании корпусов текстов и исследовании лексики и семантики 
языков для специальных целей.

Предисловие 

Собраны коллекции текстов по разным предметным областям. 
Отработана технология предварительной обработки и унификации 
текстов. На основе отдельных подмножеств этой библиотеки созданы корпусы под управлением корпусных менеджеров NoSketch Engine, Sketch Engine и AntConc и ведутся работы в области компьютерной терминологии. Частично эти исследования описаны в данной монографии.
Монография написана сотрудниками кафедры математической 
лингвистики СПбГУ и является результатом работы над научно-исследовательским проектом СПбГУ «Модель интегрированного программно-лингвистического комплекса для создания специализированных корпусов русского языка». 
Монография состоит из предисловия, введения, 12 глав, заключения, списка литературы (87 названий) и 6 приложений. В число 
приложений входит глоссарий терминов. Авторский вклад в написание текста монографии распределяется следующим образом: 
В. П. Захаров — главы 1, 2, 3, 4, 5, 8, 9, Глоссарий терминов; И. В. Азарова — главы 1, 3, 6, 9; О. А Митрофанова — главы 2, 10, 12; А. М. Попов — главы 5, 7; М. В. Хохлова — главы 2, 11. В написании главы 8 
принимал участие А. В. Добров.
Монография предназначена для широкого круга специалистов 
по корпусной лингвистике, а также для лингвистов, использующих 
корпусы в своей работе. Может быть использована как учебное пособие в преподавании дисциплин, относящихся к автоматизированной обработке текста.

ВВЕДЕНИЕ

Основная тема монографии — моделирование источниковедческой 
базы исследований языков для специальных целей. В настоящее время огромное развитие получили корпусы текстов как инструменты 
лингвистического анализа и корпусная лингвистика как особое 
направление в фундаментальной и прикладной лингвистике. Все 
современные лингвистические исследования и работы по составлению словарей и грамматик так или иначе ориентированы на использование представительных корпусов текстов. Развитие корпусной лингвистики совпало с развитием современных интеллектуальных программных систем, предназначенных для обработки текстов 
на естественном языке и требующих большой экспериментальной 
лингвистической базы. 
Поиск в корпусе текстов позволяет по любому слову построить 
конкорданс — список всех употреблений данного слова в контексте 
со ссылками на источник. Корпусы могут использоваться для получения разнообразных справок и статистических данных о языковых и речевых единицах. Например, на основе корпусов можно 
получить данные о частоте словоформ, лексем, грамматических 
категорий, проследить изменение частот и контекстов в различные 
периоды времени, получить данные о совместной встречаемости 
лексических единиц. Корпусы призваны служить также источником и инструментом многоаспектных лексикографических работ по 
подготовке разнообразных исторических и современных словарей. 
Данные корпусов могут быть использованы для построения и уточнения грамматик и в целях обучения языку. 
Важное место в лингвистике и в информационных технологиях занимают специализированные подъязыки (по-другому — языки 
для специальных целей). Это понятие используется для обозначения функциональной разновидности языка, призванной обеспечить 
адекватное и эффективное общение специалистов в определенной 
предметной области [The Encyclopedia… 2004, p. 2011]. Однако в на
Введение

стоящее время это понятие должно быть расширено и на область 
систем автоматической обработки текста. Понятие языка для специальных целей родственно с такими понятиями, как «подъязык», 
«функциональный стиль», «регистр», «жанр» и др. С лингвистической точки зрения эти языки, с одной стороны, понимаются как 
ограниченный набор лексических и грамматических конструкций, 
с другой стороны, они имеют свои особенности по синтаксису, семантике, формальным характеристикам, которые требуют особого 
изучения, и своего экспериментального материала — корпусов текстов. Практика разработки и применения электронных корпусов 
текстов показала, что невозможно создать универсальный корпус, 
обеспечивающий решение всех задач. Задачи и цели любого исследования определяют тип корпуса, правила отбора текстов и способ 
и степень их обработки. Корпусы всегда создаются под определенную задачу или круг задач. Эта задача определяет как наполнение 
корпуса текстами, так и разметку корпуса. Идея специализации корпуса (в противоположность универсализации) как подстройки его 
параметров под определенную задачу в свое время была сформулирована А. С. Гердом и В. П. Захаровым [Герд, Захаров 2004а; 2004б].
Среди специальных текстов можно выделить ядерные и периферийные. Ядерные — это прежде всего научные тексты, насыщенные 
специфической лексикой, отсутствующей в общих словарях. Сюда 
же относятся специфические виды научно-технических документов, 
такие как патенты, стандарты и т. п. К периферийным текстам можно отнести научно-популярные тексты c меньшей концентрацией 
специфической лексики, тексты юридического характера и различные тексты так называемой деловой прозы. И те, и другие имеют 
свою специфику. 
При проектировании корпуса должен быть решен ряд вопросов, касающихся наполнения и структуры корпуса. Создание корпуса предполагает средства подготовки и загрузки текстов в корпус. 
Характерная особенность современных корпусов — наличие в текстах специальной разметки, которая заключается в приписывании 
текстам и их компонентам дополнительной информации (метаданных), записанной в определенном формате. Корпус текстов предполагает специализированную систему управления данными — корпусный менеджер, обеспечивающий функциональные возможности использования корпуса. Все эти и другие вопросы освещаются 
в данной монографии.

Доступ онлайн
249 ₽
В корзину