Основы квантитативной лингвистики и новых информационных технологий
Покупка
Тематика:
Общие вопросы. Лингвистика
Издательство:
ФЛИНТА
Год издания: 2018
Кол-во страниц: 152
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-9765-2137-7
Артикул: 636398.04.99
Учебное пособие содержит теоретический и практический материал, задания для самостоятельной работы, глоссарий по дисциплине «Квантитативная лингвистика и новые информационные технологии». В теоретическую часть включен материал, связанный с особенностями использования квантитативных методов в лингвистических исследованиях. Практическая часть содержит задания, направленные на обобщение знаний, отработку умений и навыков, необходимых для проведения лингвостатистических исследований на базе новых информационных технологий.
Для студентов лингвистических факультетов высших образовательных учреждений, а также аспирантов и соискателей, работающих над проблемами лингвистики, преподавателей-филологов и лингводидактов.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 45.03.01: Филология
- 45.03.02: Лингвистика
- 45.03.03: Фундаментальная и прикладная лингвистика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
A.В. Гребенщикова ОСНОВЫ КВАНТИТАТИВНОЙ ЛИНГВИСТИКИ И НОВЫХ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ Учебное пособие 3-е издание, стереотипное Рекомендовано Учебно-методическим объединением по образованию в области лингвистики Министерства образования и науки Российской Федерации в качестве учебного пособия для студентов, обучающихся по направлению подготовки магистров «Лингвистика» Москва Издательство «ФЛИНТА» 2018
УДК 81´32:81´33(075.8) ББК 81.1-5-923 Г79 Г79 Гребенщикова А.В Основы квантитативной лингвистики и новых информационных технологий : учеб. пособие / А.В. Гребенщикова. – 3-е изд., стер. –М. : ФЛИНТА, 2018. – 152 с. ISBN 978-5-9765-2137-7 Учебное пособие содержит теоретический и практический мате риал, задания для самостоятельной работы, глоссарий по дисциплине «Квантитативная лингвистика и новые информационные технологии». В теоретическую часть включен материал, связанный с особенностями использования квантитативных методов в лингвистических исследованиях. Практическая часть содержит задания, направленные на обобщение знаний, отработку умений и навыков, необходимых для проведения лингвостатистических исследований на базе новых информационных технологий. Для студентов лингвистических факультетов высших образова тельных учреждений, а также аспирантов и соискателей, работающих над проблемами лингвистики, преподавателей-филологов и лингводидактов. УДК 81´32:81´33(075.8) ББК 81.1-5-923 ISBN 978-5-9765-2137-7 © Издательство «ФЛИНТА», 2014 © Гребенщикова А.В., 2014 ОГЛАВЛЕНИЕ ВВЕДЕНИЕ . ........................................................................................................6 1. КВАНТИТАТИВНАЯ ЛИНГВИСТИКА КАК НАПРАВЛЕНИЕ ОБЩЕГО ЯЗЫКОЗНАНИЯ.. .................................................9 1.1. Понятие «квантитативная лингвистика» и взаимосвязь дисциплины с другими науками . .....................................9 1.2. История взаимодействия математики и лингвистики. Математическая (комбинаторная и квантитативная) лингвистика ....11 1.3. Характеристика квантитативных методов в лингвистике и их роль ...................................................................................................15 1.4. Основные области применения структурно-вероятностной модели языка ............................................................................................20 Вопросы для самоконтроля .....................................................................22 Основные теоретические аспекты для обсуждения .. ..........................22 Список рекомендуемой литературы . .....................................................23 Практические задания .............................................................................23 Задания для самостоятельной работы . . ................................................23 2. ПОНЯТИЕ И СУЩНОСТЬ ЛИНГВОСТАТИСТИЧЕСКОГО АНАЛИЗА. КЛЮЧЕВЫЕ ПОНЯТИЯ КВАНТИТАТИВНОЙ ЛИНГВИСТИКИ . ....24 2.1. Условия успешного осуществления лингвостатистического анализа .. . .................................................................................................24 2.2. Понятие статистического закона и вероятности . . . .............................26 2.3. Понятие цели и единицы лингвостатистического анализа .................29 2.4. Методика сбора информации для лингвостатистического анализа . ..................30 2.5. Минимально-необходимые статистические инструменты: частота, генеральная и выборочная совокупности .. ...........................31 Вопросы для самоконтроля .....................................................................34 Основные теоретические аспекты для обсуждения .. ..........................34 Список рекомендуемой литературы . . ...................................................35 Практические задания .............................................................................35 Задания для самостоятельной работы . . ................................................38 Р е ц е н з е н т: д-р филол. наук, профессор, академик Международной академии информатизации, директор Института прикладной и математической лингвистики Р.К. Потапова
ОГЛАВЛЕНИЕ ВВЕДЕНИЕ . ........................................................................................................6 1. КВАНТИТАТИВНАЯ ЛИНГВИСТИКА КАК НАПРАВЛЕНИЕ ОБЩЕГО ЯЗЫКОЗНАНИЯ ...................................9 1.1. Понятие «квантитативная лингвистика» и взаимосвязь дисциплины с другими науками ......................................9 1.2. История взаимодействия математики и лингвистики. Математическая (комбинаторная и квантитативная) лингвистика ....11 1.3. Характеристика квантитативных методов в лингвистике и их роль ...................................................................................................15 1.4. Основные области применения структурно-вероятностной модели языка ............................................................................................20 Вопросы для самоконтроля .....................................................................22 Основные теоретические аспекты для обсуждения .............................22 Список рекомендуемой литературы . .....................................................23 Практические задания .............................................................................23 Задания для самостоятельной работы . ..................................................24 2. ПОНЯТИЕ И СУЩНОСТЬ ЛИНГВОСТАТИСТИЧЕСКОГО АНАЛИЗА. КЛЮЧЕВЫЕ ПОНЯТИЯ КВАНТИТАТИВНОЙ ЛИНГВИСТИКИ ..........................................................................................25 2.1. Условия успешного осуществления лингвостатистического анализа ......................................................................................................25 2.2. Понятие статистического закона и вероятности ..................................27 2.3. Понятие цели и единицы лингвостатистического анализа .................30 2.4. Методика сбора информации для лингвостатистического анализа ......31 2.5. Минимально-необходимые статистические инструменты: частота, генеральная и выборочная совокупности ..............................32 Вопросы для самоконтроля .....................................................................35 Основные теоретические аспекты для обсуждения .............................35 Список рекомендуемой литературы . .....................................................36 Практические задания .............................................................................36 Задания для самостоятельной работы . ..................................................39
3. КЛЮЧЕВЫЕ ПОНЯТИЯ КВАНТИТАТИВНОЙ ЛИНГВИСТИКИ .........................................................................................40 3.1. Проблема репрезентативности лингвистической выборки .................41 3.2. Выборочная частота, средняя частота и отклонение от средней частоты .....................................................................................................42 3.3. Проблема определения рационального объема выборки ....................47 Вопросы для контроля ............................................................................49 Основные теоретические аспекты для обсуждения .............................50 Список рекомендуемой литературы ......................................................50 Практические задания ............................................................................51 Задания для самостоятельной работы ...................................................51 4. КВАНТИТАТИВНЫЕ ИССЛЕДОВАНИЯ ЛЕКСИКИ. ЗАКОН ЦИПФА — МАНДЕЛЬБРОТА ....................................................54 4.1. Значение количественных и статистических методов в исследовании лексики .........................................................................54 4.2. Частота как характеристика употребительности слова в тексте. Частотные словари, модель «ранг-частота» .........................................56 4.3. Закон Ципфа. Уточнение закона Ципфа: закон Ципфа — Мандельброта ..........................................................................................58 4.4. Другие закономерности в функционировании лексики ......................63 Вопросы для контроля ............................................................................65 Основные теоретические аспекты для обсуждения .............................65 Список рекомендуемой литературы ......................................................66 Практические задания ............................................................................66 Задания для самостоятельной работы ...................................................67 5. КОРПУСНАЯ ЛИНГВИСТИКА. НАЦИОНАЛЬНЫЕ КОРПУСЫ ТЕКСТОВ .....................................................................................................72 5.1. Корпусная лингвистика как наука. Понятие «корпус текста» ............72 5.2. Классификация корпусов........................................................................74 5.3. Особенности применения корпусов текстов ........................................78 5.4. Национальные корпусы текстов ............................................................80 Вопросы для контроля ............................................................................84 Основные теоретические аспекты для обсуждения .............................84 Список рекомендуемой литературы ......................................................85 Практические задания ............................................................................85 Задания для самостоятельной работы ...................................................90
6. НАПРАВЛЕНИЯ ЛИНГВИСТИКИ, ИСПОЛЬЗУЮЩИЕ СТАТИСТИЧЕСКИЙ АНАЛИЗ ТЕКСТА. АТРИБУЦИЯ ......................94 6.1. Понятие стилеметрии и атрибуции. Область их применения .............95 6.2. История развития автороведения и стилеметрии .................................97 6.3. Основные аспекты процесса атрибуции текста ..................................101 6.4. Обзор программного обеспечения для идентификации авторства текстов ....................................................................................................102 Вопросы для контроля ..........................................................................104 Основные теоретические аспекты для обсуждения ...........................104 Список рекомендуемой литературы ....................................................105 Практические задания ..........................................................................105 7. ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В ОБРАБОТКЕ ТЕКСТОВ. АВТОМАТИЧЕСКОЕ РЕФЕРИРОВАНИЕ И АННОТИРОВАНИЕ ТЕКСТОВ ...................................................................................................110 7.1. Обработка текстов на естественных языках и искусственный интеллект ...............................................................................................110 7.2. Реферат и аннотация текста. Общие понятия .....................................114 7.3. Автоматическое реферирование и аннотирование ............................116 7.4. Системы автоматического реферирования и аннотирования текстов ....................................................................................................121 Вопросы для контроля ..........................................................................122 Основные теоретические аспекты для обсуждения ...........................122 Список рекомендуемой литературы ....................................................123 Практические задания ..........................................................................123 Задания для самостоятельной работы .................................................129 ЗАКЛЮЧЕНИЕ ..............................................................................................139 ГЛОССАРИЙ .................................................................................................140 БИБЛИОГРАФИЯ..........................................................................................147
ВВЕДЕНИЕ Учебное пособие опирается на теоретико-практический курс «Квантитативная лингвистика и новые информационные технологии» и представляет собой синтез существующей, но не описанной в достаточной мере информации в области квантитативной лингвистики, стоящей на стыке общей и частных лингвистик, лексикостатистики и прикладного языкознания. Пособие дает целостное представление об основных понятиях квантитативной лингвистики, целях и способах применения новых информационных технологий в процессе изучения иностранного языка, а также осуществления профессиональной переводческой деятельности. В нем рассматриваются проблемы использования новых информационных технологий в лингвистических исследованиях, раскрываются особенности применения вероятностных и статистических методов для обработки текстовой информации, приводятся примеры перспективных направлений лингвостатистического анализа, что позволит будущим лингвистам эффективно осуществлять профессиональную деятельность в условиях информационного общества. Целью настоящей работы является формирование лингвоинформационной компетентности студентов, а именно: ознакомление с основами применения количественных методов в лингвистической практике в условиях информационной среды, развитие умений и навыков использования новых информационных технологий в профессиональной переводческой деятельности. В рамках поставленной цели можно выделить ряд следующих задач: – ознакомить студентов с новой парадигмой в лингвистических исследованиях, сущностью предмета квантитативной линг- вистики и историей развития квантитативной лингвистики как науки; – дать представление о принципах построения частотных словарей, особенностях их использования в переводческой и исследовательской деятельностях, обеспечить развитие навыков построения частотных списков на основе программно-сетевых ресурсов,
а также навыков работы с существующими электронными частотными словарями; – ознакомить студентов с концепциями корпусной лингвистики, дать им возможность освоить основы корпусных технологий, приобрести навыки работы с корпусами, определить место дисциплины и собственно корпусов в ряду информационных технологий; – систематизировать знания студентов в области автоматической обработки текстовой информации, дать представление об основах стилеметрии и атрибуции, отработать типичные операции по использованию экспертных программ в области психолингвистики; – ознакомить студентов с конкретными лингвостатистическими исследованиями, основанными на применении новых информационных технологий. Учебное пособие состоит из введения, семи глав, заключения, глоссария и библиографического списка. Материал отсортирован по тематическому принципу. Каждая глава знакомит с основными понятиями и терминами определенного раздела квантитативной лингвистики, историей его становления, его целями и задачами. В учебном пособии раскрываются особенности организации лингвостатистического анализа, применения корпусов текстов в учебных и исследовательских целях. Отдельное внимание уделяется вопросам построения и использования частотных словарей, основам автороведческой экспертизы, освещаются базовые процедуры автоматической обработки текста. Практические задания, представленные в учебном пособии, дают возможность обобщить знания, отработать отдельные практические умения и навыки в области применения квантитативных методов в лингвистических исследованиях, а также использования новых информационных технологий в рутинных переводческих действиях. В каждой главе представлены теоретические вопросы для обсуждения, список рекомендуемой литературы, практические задания, а также задания для самостоятельной работы. Глоссарий содержит подборку основополагающих понятий квантитативной лингвистики и представляет собой эффективный инструмент систематизации полученных в ходе изучения курса знаний.
Особенностью данного пособия является анализ современных программных продуктов в области обработки лингвистических данных, в результате знакомства с которыми студенты смогут самостоятельно применять их в научно-исследовательской и дальнейшей профессиональной деятельности. В общем смысле учебное пособие должно способствовать расширению представлений студентов об особенностях лингвостатистических исследований, совершенствованию умений самостоятельного научного поиска, анализа языкового материала, развитию навыков использования новых информационных технологий в условиях типовых лингвистических исследовательских задач.
1. КВАНТИТАТИВНАЯ ЛИНГВИСТИКА КАК НАПРАВЛЕНИЕ ОБЩЕГО ЯЗЫКОЗНАНИЯ 1.1. Понятие «квантитативная лингвистика» и взаимосвязь дисциплины с другими науками Существует достаточно большое число определений понятия «лингвистика». В самом общем смысле термин происходит от латинского слова «lingua», что означает «язык» и понимается как наука о языке. Синонимами термина «лингвистика» являются языкознание, языковедение. В «Лингвистическом энциклопедическом словаре» лингвистика определяется как «наука о естественном человеческом языке вообще и обо всех языках мира как индивидуальных его представителях» [27]. Рассматривая понятие «лингвистика», Ю.С. Маслов пишет, что она «исследует сущность и природу языка, проблему его происхождения и общие законы его развития и функционирования» [32. С. 4]. Лингвистика изучает не только существующие (существовавшие или возможные в будущем) языки, но и человеческий язык вообще. Так как язык представляет собой весьма разнообразное и сложное явление, в лингвистике как науке о языке выделяется множество направлений, одним из которых является «квантитативная лингви- стика». Название «квантитативная лингвистика» достаточно условно, хотя и довольно широко используется в современной научной литературе. Сам термин происходит от английского «quantitative linguistics» и часто понимается как количественная лингвистика. Обратимся к рассмотрению сущности данного термина. Толковый переводоведческий словарь дает следующее определение термину: «Квантитативная лингвистика — это направление лингвистики, в рамках которого изучаются и эксплицируются лингвистиче
ские явления с помощью методов “количественной” математики (теория вероятностей, математическая статистика, теория информации, математический анализ и др.)». Одним из синонимов слова «квантитативная лингвистика» данный источник называет термин «статистическая лингвистика» или «лингвостатистика» [47]. Согласно большому энциклопедическому словарю Ю.С. Степанова, лингвистическая статистика, лингвостатистика — раздел языкознания, занимающийся статистическими методами количественных закономерностей в языке и речи [45]. Обращаясь к работам Р.Г. Пиотровского, мы видим, что квантитативная лингвистика рассматривается как «раздел общей лингвистики и, в частности, математической лингвистики. Квантитативная лингвистика занимается изучением процесса изучения языка, его изменения и сферы применения, а также структуры естественных языков» [37. С. 18]. К.Б. Бектаев, Р.Г. Пиотровский, анализируя данный термин, утвер- ждают, что в целом квантитативная лингвистика может рассматриваться как: 1) техника лингвистического наблюдения и описания, обработки данных наблюдения; 2) метод исследования языка и речи, не обязательно противополагаясь сопоставленному, сравнительно-историческому и другим методам языкознания; 3) концепция, система количественных идей и представлений об объекте лингвистической науки [37. С. 25]. Вместе с тем А.Н. Баранов отмечает, что квантитативная лингвистика как наука имеет прикладной характер и находится в тесном взаимодействии с другими смежными дисциплинами. Так, автор считает, что квантитативная лингвистика эмпирически основывается на результатах языковой статистики, которая, в свою очередь, может интерпретироваться как статистика языков или статистика лингвистического объекта. Таким образом, мы видим, что квантитативная лингвистика рассматривается в этом случае как направление лингвистики, отличное от лингвостатистики. Кроме того, А.Н. Баранов подчеркивает взаимосвязь прикладной, корпусной, компьютерной и квантитативной лингвистик, отмечая, что корпусная и компьютерная лингвистики вносят свой вклад в квантитативную лингвистику, поставляя важные эмпирические данные [9. С. 26].