Сетевые лингвистические технологии
Покупка
Тематика:
Общие вопросы. Лингвистика
Год издания: 2019
Кол-во страниц: 111
Дополнительно
Вид издания:
Монография
Уровень образования:
ВО - Магистратура
ISBN: 978-5-8064-2701-5
Артикул: 745259.01.99
Современные лингвистические технологии являются необходимым условием решения многих задач, относящихся к поддержке открытого образования и самообразования в области филологии, их применение предполагает выработку у студентов навыков и умений работы с различными источниками информации в одно- и многоязычной среде.
В монографии рассмотрены типы систем, словарей и инструментарий для их получения, рекомендуемые авторами для использования в исследовательской и методической работе.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Магистратура
- 44.04.01: Педагогическое образование
- 45.04.02: Лингвистика
- 45.04.03: Фундаментальная и прикладная лингвистика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Российский государственный педагогический университет им. А. И. Герцена Л. Н. Беляева, О. Н. Камшилова, К. Р. Пиотровская СЕТЕВЫЕ ЛИНГВИСТИЧЕСКИЕ ТЕХНОЛОГИИ Коллективная монография Санкт-Петербург Издательство РГПУ им. А. И. Герцена 2019
УДК 801 ББК 81.1я73 Б 44 Рецензенты: д-р пед. наук, профессор Л. К. Гейхман (Пермский национальный исследовательский политехнический университет); д-р филол. наук, профессор Н. Л. Шубина (РГПУ им. А. И. Герцена) Беляева Л. Н., Камшилова О. Н., Пиотровская К. Р. Б 44 Сетевые лингвистические технологии: коллективная монография. — СПб.: Изд-во РГПУ им. А. И. Герцена, 2019. — 111 с. ISBN 978–5–8064–2101–5 Современные лингвистические технологии являются необходимым условием ре шения многих задач, относящихся к поддержке открытого образования и самообразования в области филологии, их применение предполагает выработку у студентов навыков и умений работы с различными источниками информации в одно- и многоязычной среде. В монографии рассмотрены типы систем, словарей и инструментарий для их получения, рекомендуемые авторами для использования в исследовательской и методической работе. ISBN 978–5–8064–2101–5 УДК 801 ББК 81.1я73 © Л. Н. Беляева, О. Н. Камшилова, К. Р. Пиотровская, 2019 © С. В. Лебединский, дизайн обложки, 2019 © Издательство РГПУ им. А. И. Герцена, 2019
СОДЕРЖАНИЕ Предисловие...............................................................................................................4 1. Сетевые лингвистические ресурсы и потенциал информационной образовательной среды......................................................................................7 1.1. Общие положения.........................................................................................7 1.2. Лексикографические базы и банки данных...............................................11 1.3. Словарь WordNet и возможности его использования...............................31 1.4. Корпуса текстов: назначение и использование.........................................43 2. Количественные методы в филологии..........................................................67 2.1. Общие замечания........................................................................................67 2.2. Методика анализа результатов количественного анализа текста ............68 2.3. Коэффициенты и метрики количественного анализа текста....................72 3. Лингвистические средства обработки текстов.............................................78 3.1. Общие замечания........................................................................................78 3.2. Частотные словари и инструменты их получения ....................................81 3.3. Решение задач выбора материала ..............................................................92 3.4. Решение задач анализа с помощью программы AntConc .........................96 Заключение ............................................................................................................104 Список литературы...............................................................................................105
ПРЕДИСЛОВИЕ Современные лингвистические технологии являются необходи мым условием решения многих задач, относящихся к поддержке открытого образования и самообразования в области филологии, их применение предполагает выработку у студентов навыков и умений работы с различными источниками информации в одно- и многоязычной среде. Огромное количество информации, хранящейся и постоянно пополняющейся в системе Интернет, требует критического подхода к тому, что можно из нее извлечь, и специальных приемов работы с хорошо структурированными и ответственными материалами. Монография посвящена анализу существующих сетевых источников лингвистической информации, рекомендациям и способам работы с ними. Деятельность лингвиста в современном мире является основой оперативного извлечения и анализа информации [Климзо 2006; Кривых, Рябичкина, Смирнова 2008; Сальмон 2007]. Особенно важными в этом случае являются характеристики скорости обработки текстов на естественном языке, их классификация, реферирование и перевод, поскольку результаты этой деятельности, выполненной поздно или некорректно, приводят к критическим последствиям. Современным средством поддержки работы лингвиста являются информационные технологии (ИТ) и созданные с их помощью лингвистические ресурсы и системы осуществления и/или поддержки перевода. Однако именно лингвист, воспринимающий компьютер как реальную угрозу своему существованию в профессии, часто оказывается в ситуации, когда ему не известны или недостаточно известны возможности применения информационных технологий для решения собственных задач. Незнание этих возможностей (или, что еще хуже, знание неполное и/или некорректное) приводит к тому, что лингвист не умеет оценивать и выбирать нужные именно ему средства и, сле
довательно, не способен их адекватно использовать. В результате, сталкиваясь с некорректным использованием ИТ и не умея получить с их помощью желаемый результат, именно лингвист часто просто отвергает саму идею использования информационных технологий в своей профессиональной деятельности. В последнее время появился новый английский термин language worker, который можно приблизительно перевести как специалист в области переработки текстов, этим термином объединяются лингвисты: терминологи, переводчики, те, кто создает научные, учебные и технические материалы (технические писатели — technical authors, technical writers, специалисты по передаче технической информации — technical communicators) [Беляева 2016]. В предлагаемой вашему вниманию монографии они все будут называться лингвистами, поскольку лингвистические технологии разного уровня и назначения предназначены именно для облегчения и ускорения их работы. Под лингвистическими ресурсами принято понимать естествен ные или искусственные языки и средства их лингвистической поддержки, которые используются для представления информации об обрабатываемом естественном языке (словари, онтологии, тезаурусы и пр.) [Большакова, Клышинский и др. 2011: 97–99], для представления ресурсов в системе обработки информации, для решения задач извлечения эмпирической информации, а также собственно языковые ресурсы (тексты), собранные в обширные базы данных и представляющие собой источник знаний о языках [Рычкова 2010]. Использование лингвистических ресурсов возможно как в «ручном» режиме, так и при решении задач автоматической обработки текста, в последнем случае следует учитывать: многовариантность результатов автоматического синтаксиче ского анализа предложения, определяемую лексической и синтаксической омонимией, снятие которой вызывает затруднения даже при «ручном» анализе; синтаксическую и семантическую многозначность структур предложения в целом и структур именных и глагольных групп, составляющих функциональные компоненты предложения; особенности реализации процедур трансфера с учетом сопо ставительного анализа структурных характеристик исходного языка и языка перевода (ср. Козеренко и др. 2009: 120). Особое место в комплексе лингвистических ресурсов занимают ресурсы лексикографические, представляющие для лингвиста воз
можность оперативного извлечения терминологической информации из текстов различных областей знаний. Инструментарий, предназначенный для работы с текстами на естественном языке, включает два комплекса: набор систем семантического анализа текстов (системы информационного поиска, реферирования, машинного перевода и т. п.) и набор систем для выполнения предварительных количественных и качественных исследований текстов, которые можно считать системами формальной обработки текста или вспомогательными средствами анализа. К системам формальной обработки текстов, предназначенных для решения задач лингвистического анализа, относятся: прикладные программы получения частотных словарей для предварительного анализа лексического спектра текста; прикладные программы получения комбинаторных словарей — конкордансов для анализа лексических и синтаксических особенностей текста. В монографии рассмотрены типы систем, словарей и инструмен тарий для их получения, рекомендуемые авторами для использования в исследовательской и методической работе.
1. СЕТЕВЫЕ ЛИНГВИСТИЧЕСКИЕ РЕСУРСЫ И ПОТЕНЦИАЛ ИНФОРМАЦИОННОЙ ОБРАЗОВАТЕЛЬНОЙ СРЕДЫ 1.1. ОБЩИЕ ПОЛОЖЕНИЯ В современном мире в условиях открытой и многоязычной науч ной коммуникации и развития средств непрерывного и открытого обучения возникает целый ряд задач, решение которых связано с качеством и практической применимостью различных информационных технологий, реализующих анализ текстов на естественном языке и звучащей речи. К таким задачам в самом общем виде относятся: автоматический поиск, извлечение и обогащение информации и знаний, получаемых из различных мультимедийных многоязычных источников и источников, связанных с коммуникацией различных участников; межъязыковое или многоязычное извлечение, презентация и распространение информации; автоматическое обнаружение и «отслеживание» новой факто графической информации из неструктурированных мультимедийных данных; использование источников знаний для того, чтобы облегчить разметку знаний и доступ к ним (в качестве таких структурированных источников знаний могут выступать одно- и многоязычные лексиконы, толковые и энциклопедические словари, тезаурусы, энциклопедии и т. д.); поддержка вопросно-ответного взаимодействия человека и компьютера, а также людей между собой с помощью компьютера как посредника для извлечения знаний из источников различной природы, структуры и состава;
поддержание дистанционного обучения в системах открытого образования, включая автоматизированное тестирование уровня знаний, разработку электронных учебников и диалоговых обучающих систем; создание интеллектуальных средств поддержки автоматизиро ванного ведения библиографической работы, анализа и понимания документов для того, чтобы обеспечить возможности доступа к информации различных экспертов или групп экспертов; моделирование знаний, потребностей и намерений пользовате лей на основе анализа их запросов к различным системам, созданных ими продуктов и взаимодействия с компьютером; обеспечение возможности устного диалога с компьютером и поддержки анализа и порождения звучащей речи. Все это определяет необходимость создания и использования (в том числе обучения использованию) специализированных систем обработки многоязычной информации, в частности, систем компьютерной поддержки обучения в условиях традиционного и открытого образования, а также систем автоматической переработки текстов (АПТ), предназначенных для специалиста в конкретной области знаний. Образовательная среда как совокупность условий реализации учебного процесса является инновационной лишь тогда, когда в ней обеспечивается полноценная поддержка самостоятельной работы обучающихся и профессиональной и научной деятельности преподавателей. Следовательно, при создании такой среды особое внимание должно уделяться именно средствам, обеспечивающим поиск информации, ее извлечение из различных носителей, а также хранение в базах данных и знаний. Специалист, работающий в системе открытого образования, дол жен иметь возможность выбора конкретной информационной системы. Он может переходить от использования «простых» терминологических ресурсов, к которым можно отнести всевозможные учебные пособия, фонетические и обучающие системы, словари и глоссарии, находящиеся как в памяти компьютера, так и в сети, к привлечению более сложных систем, таких как системы поиска и обработки информации, машинного перевода и т. д. При подобной информационной поддержке можно создать ком плекс средств обучения и самообразования для пользователя любого уровня. Кроме того, наличие подобных средств дает возможность любому преподавателю, организующему работу студента, выбирать те виды деятельности, которые могут осуществляться студентом само
стоятельно, и те, которые требуют контакта с преподавателем. Тем самым обучение превращается в осознанно направляемый процесс, допускающий контроль результатов на любом этапе и управление скоростью обучения в зависимости от успехов и интересов конкретного обучающегося. В зависимости от целей анализа и решаемых задач принято выде лять три класса систем автоматической переработки текста. К системам I класса относят системы, в которых целью анализа являются лингвистические операции над текстовой информацией, к ним относятся системы, осуществляющие машинный перевод, информационный поиск, аннотирование и реферирование, системы текстологического анализа, различные корпус-менеджеры. Результат работы оформляется в виде текста. К системам II класса относят системы, в которых целью анализа является вычисление нового знания из данных, извлеченных из текста или базы знаний, к ним относятся экспертные системы, автоматизированные словари, системы извлечения терминологии. Результат оформляется в виде текста или в виде таблицы. К системам III класса относят системы, в которых целью анализа является совершение определенных действий на основе данных, извлеченных из текста или базы знаний, роботы-манипуляторы, системы управления, графические системы. Результат оформляется в виде инструкции, схемы действий, чертежа. Большинство систем автоматической переработки текста можно найти в системе Интернет, в которой хранятся: ‒ информация общего характера на серверах сети, ‒ базы словарных и терминологических данных и средства их создания и ведения, ‒ базы данных библиотек, научных издательских и учебных цен тров, ‒ базы данных персональных сайтов, ‒ учебная информация университетов и издательств, ‒ оперативная информация, передаваемая по электронной почте. Ресурсы системы Интернет, которые можно использовать для решения практических и исследовательских задач, зависят от типа области знаний. В «известных», традиционных областях знаний в сети есть: ‒ архивы переведенных материалов разных фирм, так, хранили ще переводов Translation memory (Память переводов) содержит пере
воды элементов графического интерфейса пользователя различных систем, например, Microsoft Glossary и OpenOffice; ‒ коллекции терминов, например, TaaS (Terminology as a Service), http://www.taas-project.eu, созданные для непосредственного доступа и поиска по многоязыковой терминологической базе; ‒ наборы текстов, относящихся к узким предметным областям или из субъективно подобранной художественной литературы, см. ниже информацию о сетевых версиях публицистики и художественной литературы. В новых областях знаний ситуация более сложная, здесь имеется: ‒ небольшое количество переведенных текстов, ‒ недостаточное количество словарей, глоссариев, терминологи ческих банков, ‒ большое количество одноязычных текстов. В общем случае при анализе текстов на естественном языке ре шаются задачи, направленные на извлечение знаний и поддержку исследовательской и учебной деятельности: ‒ поиск, извлечение и обогащение информации и знаний, полу чаемых из различных источников; ‒ межъязыковое или многоязычное извлечение, презентация и распространение информации; ‒ обнаружение и «отслеживание» новой фактографической ин формации; ‒ использование источников знаний для того, чтобы облегчить разметку знаний и доступ к ним; ‒ поддержка диалогового взаимодействия человека и компьюте ра, а также людей с помощью посредника-компьютера; ‒ поддержка дистанционного обучения в системах открытого образования; ‒ создание интеллектуальных средств ведения библиографиче ской работы, анализа и понимания документов; ‒ моделирование знаний, потребностей и намерений; ‒ решение задач текстологического и литературоведческого ана лиза; ‒ обеспечение возможности устного диалога с компьютером и поддержки анализа и порождения звучащей речи. Рассмотрим возможности использования наиболее популярных и проверенных систем доступа к лингвистическим технологиям.