Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Корпусная лингвистика

Покупка
Артикул: 618189.02.99
Доступ онлайн
165 ₽
В корзину
Учебное пособие «Корпусная лингвистика» адресовано студентам-бакалаврам, обучающимся по программе «Прикладная филология» в рамках направления 032700 «Филология». Издание содержит развёрнутую программу лекционного курса и краткие конспекты лекции, задания для самостоятельной работы, глоссарий, списки рекомендованной литературы, а также приложение, в которое вошли труднодоступные в силу разных причин тексты. Основная цель пособия - помочь учащимся в усвоении лекционного курса по корпусной лингвистике и в организации самостоятельной работы. Пособие может оказаться полезным студентам, обучающимся по другим программам в рамках направления «Филология», а также аспирантам, преподавателям и всем тем, кого интересуют новые технологии в работе с языковым материалом и текстами, а также в целом новые направления в современной лингвистике.
Грудева, Е.В. Корпусная лингвистика : учеб. пособие / Е.В. Грудева. - 3-е изд., стер. - Москва : ФЛИНТА, 2017. - 165 с. - ISBN 978-5-9765-1497-3. - Текст : электронный. - URL: https://znanium.com/catalog/product/1032488 (дата обращения: 26.06.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Е.В. Грудева 

Корпусная
лингвистика

Учебное пособие

3-е издание, стереотипное

Москва

Издательство «ФЛИНТА»

2017

УДК 81(075.8)
ББК  81.1

Г90  

Рецензенты :

Л.Н. Чурилина, д-р филол. наук, проф. (Магнитогорский государственный

университет);

Е.М. Иванова, канд. филол. наук, доцент (ГОУ ВПО ЧГУ)

Н а уч н ы й редактор :  Л.Н. Чурилина, д-р филол. наук, проф. 

Грудева Е.В.

Г90      Корпусная лингвистика [Электронный ресурс] : учеб. пособие /        
Е.В. Грудева. – 3-е изд., стер. – М. : ФЛИНТА, 2017. – 165 с. 

ISBN 978-5-9765-1497-3

Учебное пособие «Корпусная лингвистика» адресовано студентамбакалаврам, обучающимся по программе «Прикладная филология» в 
рамках направления 032700  «Филология». Издание содержит развёрнутую 
программу лекционного курса и краткие конспекты лекций, задания для 
самостоятельной работы, глоссарий, списки рекомендованной литературы, 
а также приложение, в которое вошли труднодоступные в силу разных 
причин тексты. Основная цель пособия – помочь учащимся в усвоении 
лекционного курса по корпусной лингвистике и в организации 
самостоятельной работы.  

Пособие может оказаться полезным студентам, обучающимся по 
другим программам в рамках направления «Филология», а также 
аспирантам, преподавателям и всем тем, кого интересуют новые 
технологии в работе с языковым материалом и текстами, а также в целом 
новые направления в современной лингвистике.

УДК 81(075.8)
ББК 81.1

ISBN 978-5-9765-1497-3
© Е.В. Грудева, 2017
© Издательство  «ФЛИНТА», 2017

Оглавление 

Предисловие  .............................................................................................    4 
Учебная программа дисциплины «Корпусная лингвистика»  . .............    9 
Итоговая домашняя контрольная работа  . ..............................................  14 
Вопросы к зачёту  ......................................................................................  15 
Рекомендуемая литература  .....................................................................  16 
Тематика лекционных занятий  ...............................................................  25 
Тема 1. Корпусная лингвистика: объект, предмет, метод  . ..................  25 
Тема 2. Корпусная лингвистика и смежные дисциплины  . ..................  28 
Тема 3. Корпус и Web: сходства и различия  . ........................................  32 
Тема 4. История создания электронных языковых корпусов  . .............  34 
Тема 5. Типология языковых корпусов  . ................................................  39 
Тема 6. Национальный корпус и требования к его созданию  . ............  42 
Тема 7. Метатекстовая разметка  .............................................................  43 
Тема 8. Виды лингвистического аннотирования  . .................................  47 
Тема 9. Различные технологии разметки  . ..............................................  49 
Тема 10. Многокомпонентные единицы в аннотированном корпусе: 
корпусный и психолингвистический подходы  . ..........................................  51 
Тема 11. Морфологическое аннотирование: проблемы и решения  . ...  59 
Тема 12. Семантическая разметка  ..........................................................  60 
Тема 13. Синтаксическая разметка  .........................................................  72 
Тема 14. Словари, созданные на базе корпуса  . .....................................  73 
Тема 15. Возможные задачи и способы их решения путем обращения к имеющимся электронным языковым ресурсам (корпусам)  . ...........  76 
Глоссарий  ..................................................................................................  78 
Приложения  ..............................................................................................  82 

ПРЕДИСЛОВИЕ 
 
Главная цель дисциплины «Корпусная лингвистика» – научить 
специалистов в области прикладной филологии базовым технологиям работы с различными языковыми корпусами с целью быстрого получения необходимого языкового материала. Не секрет, что до 
сих пор многие начинающие и опытные лингвисты собирают языковой материал по старинке – путём фиксации «случайно» обнаруженного интересного факта, путём прочитывания с целью обнаружить и собрать необходимый для анализа языковой материал большого числа источников. При этом Национальный корпус русского 
языка, позволяющий по заданным лингвистическим – семантическим и грамматическим – параметрам в считанные минуты получить тысячи контекстов (в корпусе имеется возможность поиска и 
по заданной языковой единице разного формата), был открыт для 
широкого пользования ещё в 2004 году (адрес общедоступного 
бесплатного ресурса – http://www.ruscorpora.ru). 
В то же время неофиты, открывшие для себя возможность использования корпуса в профессиональной деятельности, нередко 
преувеличивают возможности последнего. Так, корпус крайне ненадёжен в работе с малочастотными явлениями. По этой же причине к нему нужно с осторожностью прибегать при работе с лексическим материалом (в отличие от грамматики).  
В настоящее время существует довольно большое число языковых корпусов, в том числе и корпусов русского языка, которые отличаются друг от друга по самым разным параметрам. Этот факт 
необходимо учитывать, поскольку многое в организации работы 
лингвиста с корпусом зависит от характеристик самого корпуса: его 
объёма; степени разнообразия и хронологических рамок текстов, 
вошедших в корпус; его соответствия критерию репрезентативности и т.п. При выборе того или иного корпуса для работы немаловажным представляется и учёт собственно лингвистического фак
тора: кто составлял корпус и на каких лингвистических основаниях 
он сделан, какая из конкурирующих в лингвистике теорий положена в основу, например, морфологической или синтаксической разметки корпуса.  
Наконец, для пользователя важной является информация о том, 
в соответствии с какими технологическими принципами выполнена 
разметка текстов. Так, если разметка корпуса проводится в автоматическом режиме, без так называемого «ручного» постредактирования (иначе – без снятия «вручную» оператором-лингвистом языковой омонимии в широком смысле), в корпусе заведомо будет определённое число ошибок, и пользователь должен быть заранее 
предупреждён об этом, чтобы выработать своё отношение к ним, 
чтобы правильно выстроить свои пользовательские ожидания и 
верно интерпретировать полученные результаты. 
Есть ещё один значимый аспект проблемы, связанный с созданием корпуса. Многие выдающиеся лингвисты-«корпусники», занимавшиеся 
разработкой 
корпуса 
«с 
нуля» 
(У.Н. Фрэнсис,  
Дж. М. Синклер и др.), с удивлением обнаружили и громогласно 
заявили, что благодаря корпусу мы узнаём нечто новое о языке; мы 
получаем такие факты, которые никогда не смогли бы получить в 
докорпусную эпоху; у нас открываются новые перспективы в отношении языка. Современные авторы корпусных исследований неоднократно подтверждают данный тезис. Так, в рецензии 
Э. Брокхойзена (Broekhuizen 2001) на издание трудов конференции 
«Корпусная лингвистика и лингвистическая теория: Труды 20-й 
Международной конференции по исследованию английского языка 
с использованием компьютерных корпусов – Фрайбург-имБрайсгау, 1999» утверждается: «Лингвистический анализ компьютеризированных текстовых корпусов, который [ещё недавно] был 
занятием маргинальных (и обычно именно так воспринимаемых) 
исследовательских групп, передвинулся [ныне] в центр исследований в области английского языка. В ходе этого процесса получены впечатляющие результаты, которые, помимо и 
«сверх» их интереса для англистов, вынуждают нас переосмыслить, причём кардинально и систематически, про
блемы лингвистической теории 1» (разрядка моя. – Е.Г.). 
Представляется, что для гуманитария-специалиста в области прикладной филологии эта составляющая корпусной лингвистики также важна. 
В нашей стране на сегодняшний день известен только один 
учебник в области корпусной лингвистики (Гвишиани 2008), посвящённый работе с «Международным корпусом английского языка: Великобритания»; имеется также несколько кратких учебнометодических пособий по корпусной лингвистике, изданных небольшими тиражами (например, Захаров 2005; Шаламова, Фильченко 2004). Ситуация, сложившаяся за рубежом (прежде всего в 
Великобритании), где корпусная лингвистика достаточно давно институализирована (существуют отделения корпусной лингвистики в 
университетах, издаются специализированные журналы, в частности «International Journal of Corpus Linguistics», регулярно проводятся конференции, создана соответствующая международная ассоциация), принципиально иная, поскольку там уже имеется богатая учебная литература по корпусной лингвистике (см., например, 
Kennedy G. An Introduction to Corpus Linguistics. London, 1998; 
McEnery T., Wilson A. Corpus Linguistics. Edinburgh, 1997).  
Сказанное позволяет рассматривать предлагаемое учебное пособие как издание, отчасти заполняющее лакуну в области литературы, обеспечивающей учебный процесс по дисциплине «Корпусная 
лингвистика». 
Лекционный курс «Корпусная лингвистика» рассчитан на студентов бакалавриата, обучающихся по программе «Прикладная филология» в рамках специальности 032700 «Филология», он читается 
в пятом семестре и предполагает дополнение в шестом семестре 
соответствующим практикумом. Данное учебное пособие призвано 
обеспечить сопровождение лекционного курса. 
Программа и структура курса «Корпусная лингвистика» в целом 
были апробированы в рамках проводимых автором учебного посо
                                                 
1 Перевод дан по статье: Вербицкая Л.А., Казанский Н.Н., Касевич В.Б. 
Некоторые проблемы создания Национального корпуса русского языка // Научно-техническая информация. Сер. 2. 2003. № 6. С. 2. 

бия спецкурсов и спецсеминаров по корпусной лингвистике для 
студентов, обучающихся по направлению 031001 – Филология по 
программе «Русский язык и литература». Однако переход к двухуровневой подготовке специалистов позволил существенно расширить программу курса.  
Студенты, прослушавшие курс лекций «Корпусная лингвистика», должны овладеть прежде всего комплексом теоретических 
знаний: о предметной области «корпусная лингвистика»; о типологии языковых корпусов и истории их создания; о национальном 
корпусе и требованиях к созданию корпуса такого типа; о различных типах корпусного аннотирования – внешнего (метатекстовая 
разметка) и внутреннего, собственно лингвистического (акцентная, 
морфологическая, синтаксическая, семантическая и др. виды разметки). В ходе изучения курса у студентов должно сформироваться 
представление о задачах, которые можно решать с помощью языковых корпусов. Практические же навыки работы с конкретными 
корпусами предполагается сформировать на следующем этапе овладения курсом. 
На самостоятельную работу студентов согласно требованиям к 
подготовке бакалавров отводится примерно такое же количество 
часов, что и на работу в аудитории. Этим определяется большое 
внимание к организации самостоятельной работы студентов, нашедшее отражение в учебном пособии: в приложение включены 
фрагменты работ ведущих отечественных специалистов в области 
корпусных исследований, которые сопровождаются системой вопросов и специальных заданий. Такое решение продиктовано 
стремлением активизировать процесс усвоения лекционного материала и помочь студентам в организации процесса подготовки к 
итоговой аттестации. 
Композиция учебного пособия определена поставленными целями, оно состоит из трех частей. 
1. Первую часть составляет развёрнутая Программа курса, 
включающая списки рекомендуемой учебной и научной литературы (основной и дополнительной). 

2. Во вторую часть – Тематика лекционных занятий – включены учебно-методические материалы для подготовки к лекционным занятиям и задания для самостоятельной работы. 
3. В Приложение включены фрагменты наиболее значимых теоретических научных работ, в силу тех или иных причин малодоступных студентам. 
Кроме того, в пособии представлен Глоссарий, так называемый 
терминологический минимум, в котором студенты найдут толкование основных терминов, без знания которых невозможно осмысленно читать учебную и научную литературу по дисциплине. 
В заключение отметим, что корпусная лингвистика по сути своей является междисциплинарной областью исследования. Прежде 
всего здесь осуществляется связь между информационными, компьютерными технологиями и собственно лингвистикой. Создание 
национального корпуса предполагает проведение глубокой филологической, текстологической экспертизы текстов. Здесь лингвистика традиционно смыкается с литературоведением и текстологией. 
Таким образом, предлагаемое учебное пособие может оказаться полезным и для специалистов широкого круга, в той или иной степени связанных с исследованием текста. Сведения о языке, речи, тексте и коммуникации, полученные в ходе изучения традиционных 
дисциплин гуманитарного цикла, могут быть существенно дополнены благодаря использованию новых технологий получения и обработки информации.  
 
 
 
 
 
 
 
 
 
 
 

УЧЕБНАЯ ПРОГРАММА ДИСЦИПЛИНЫ 
«КОРПУСНАЯ ЛИНГВИСТИКА» 
 
Смежные дисциплины по учебному плану 
 
Введение в языкознание. Прикладная филология (теория и методика). Современная лингвистическая парадигма. Русский язык 
(теоретический курс). Информационная эвристика (компьютерные 
технологии в филологии). Практикум по корпусной лингвистике 
(компьютерные технологии в филологии). 
Количество часов на дисциплину: 4 единицы (144 часа). 
Количество аудиторных часов на дисциплину: 2 единицы  
(72 часа), из них лекционные – 2 единицы (72 часа). 
Количество внеаудиторных часов на дисциплину: 2 единицы  
(72 часа). 
Форма аттестации: зачёт. 
 
Цели дисциплины: 
 
– сформировать в сознании специалистов гуманитарного профиля необходимые для научной и педагогической деятельности базовые представления о корпусной лингвистике; 
– представить полученные ранее знания о языке, речи, тексте и 
коммуникации с точки зрения корпусной лингвистики; 
– привить осознанные навыки пользования корпусами русского 
языка; 
– освоить новейшие технологии быстрого получения необходимого языкового материала при учёте правильного формирования 
пользовательского запроса. 
 
Задачи дисциплины 
 
Формирование у гуманитариев-специалистов в сфере прикладной филологии научной и коммуникативной компетенции в области корпусной лингвистики, которая предполагает: 
– представление об основных типах корпусов и методах их создания; 

– овладение специальной терминологией, базовым понятийным 
аппаратом и основными технологиями работы с корпусом; 
– знание истории зарождения и развития корпусной лингвистики; 
– представление о различных видах информации, которую можно извлечь из языковых корпусов; 
– умение сопоставить различные корпусы с точки зрения базовых требований, предъявляемых к созданию языковых корпусов; 
– умение выбирать тот или иной электронный ресурс (корпус) 
для решения конкретной задачи; 
– использование полученных знаний в профессиональной филологической деятельности. 
 
Тематическое распределение лекций  
 
Количество часов 
Наименование разделов и тем 
Всего 
Лекционные

1. Корпусная лингвистика: объект, предмет, метод
4 
4 

2. Корпусная лингвистика и смежные дисциплины
4 
4 

3. Корпус и Web: сходства и различия 
4 
4 

4. История создания электронных языковых корпусов 
6 
6 

5. Типология языковых корпусов 
6 
6 

6. Национальный корпус и требования к его созданию 
4 
4 

7. Метатекстовая разметка  
4 
4 

8. Виды лингвистического аннотирования  
6 
6 

9. Различные технологии разметки 
4 
4 

10. Многокомпонентные единицы в аннотированном корпусе: корпусный и психолингвистический 
подходы 
6 
6 

11. Морфологическое аннотирование: проблемы и 
решения 
6 
6 

12. Семантическая разметка 
4 
4 

13. Синтаксическая разметка 
4 
4 

14. Словари, созданные на базе корпуса 
6 
6 

15. Возможные задачи и способы их решения путем обращения к имеющимся электронным языковым ресурсам (корпусам) 
4 
4 

Основные темы и краткое их содержание 
 
Корпусная лингвистика: объект, предмет, метод. Цели и задачи корпусной лингвистики. Лингвистический корпус (корпус текстов). Формирование корпуса текстов. Программное обеспечение: 
корпус-менеджер. Круг потенциальных пользователей лингвистических корпусов. Получение конкордансов и словников. Корпус 
данных. 
Корпусная лингвистика и смежные дисциплины. Корпусная 
лингвистика и традиционная лингвистика. Корпусная лингвистика 
и компьютерная лингвистика. Корпусная лингвистика и психолингвистика. 
Корпус и Web: сходства и различия. Корпус как репрезентативная выборка текстов. Web как несбалансированный набор текстов. Возможности Web’а в лингвистических исследованиях. 
История создания электронных языковых корпусов. Брауновский корпус: авторы, объём, принципы отбора материала. Ланкастерско-Осло-Бергенский корпус (LOB). Лондонско-Лундский 
корпус. Бирмингемский корпус. Британский национальный корпус. 
Упсальский корпус русского языка. Машинный фонд русского языка. Национальный корпус русского языка. Корпус русского литературного языка. Компьютерный корпус газетных текстов русского 
языка конца ХХ века. Хельсинкский аннотированный корпус русского языка. Фундаментальные корпусы других славянских языков: 
Чешский национальный корпус, Словацкий национальный корпус, 
Хорватский национальный корпус. 
Типология языковых корпусов. Корпус языка в целом (фундаментальный корпус). Корпус подъязыка. Исследовательские и 
иллюстративные корпусы. Динамические и статические корпусы 
текстов. Моноязычные корпусы. Корпусы параллельных текстов. 
Диахронические корпусы. 
Национальный корпус и требования к его созданию. Понятие 
«национальный» в терминологическом словосочетании «национальный корпус». Размер корпуса. Хронологический охват языка. 
Репрезентативность (представительность) корпуса. Филологическая 
экспертиза текстов. Типы аннотирования в национальном корпусе. 

Доступ онлайн
165 ₽
В корзину