Компьютерная лингвистика и интеллектуальные технологии. Том II
Бесплатно
Основная коллекция
Тематика:
Общие вопросы. Лингвистика
Издательство:
Российский государственный гуманитарный университет
Ответственный редактор:
Ульянова Анна Вячеславовна
Год издания: 2022
Кол-во страниц: 195
Дополнительно
Вид издания:
Материалы конференций
Уровень образования:
ВО - Магистратура
ISBN: 978-5-7281-3206-6
Артикул: 802340.01.99
Сборник включает 17 докладов международной конференции по компьютерной лингвистике и интеллектуальным технологиям «Диалог 2022», представляющих широкий спектр теоретических и прикладных исследований в области компьютерного моделирования естественного языка и создания новых лингвистических технологий.
Для специалистов в области теоретической и прикладной лингвистики и интеллектуальных технологий.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Магистратура
- 45.04.03: Фундаментальная и прикладная лингвистика
- 45.04.04: Интеллектуальные системы в гуманитарной сфере
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Компьютерная лингвистика и интеллектуальные технологии По материалам ежегодной международной конференции «Диалог» (2022) Выпуск 21 Дополнительный том Computational Linguistics and Intellectual Technologies Papers from the Annual International Conference “Dialogue” (2022) Issue 21 Supplementary volume ONLINE: ISSN 2075-7182
УДК 81’322(063) ББК 81.1я431 К63 Редакционная коллегия: В. П. Селегей (главный редактор), В. И. Беликов, И. М. Богуславский, Б. В. Добров, Д. О. Добровольский, Л. Л. Иомдин, И. М. Кобозева, Н. В. Лукашевич, Д. Маккарти, П. Наков, Й. Нивре, А. Ч. Пиперски, В. Раскин, Э. Хови, Т. О. Шаврина, С. А. Шаров, Т. Е. Янко К63 Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Вып. 21, дополнительный том. Москва: РГГУ, 2022. C. 1001–1190. ISBN 978-5-7281-3204-2 ISBN 978-5-7281-3206-6 (доп. том) Сборник включает 17 докладов международной конференции по компьютерной лингвистике и интеллектуальным технологиям «Диалог 2022», представляющих широкий спектр теоретических и прикладных исследований в области компьютерного моделирования естественного языка и создания новых лингвистических технологий. Для специалистов в области теоретической и прикладной лингвистики и интеллектуальных технологий. УДК 81’322(063) ББК 81.1я431 ISBN 978-5-7281-3204-2 ISBN 978-5-7281-3206-6 (доп. том) © Оформление. Российский государственный гуманитарный университет, 2022
Предисловие Дополнительный том по материалам ежегодной международной конференции «Диалог» (2022) содержит избранные материалы, отобранные рецензентами для представления на конференции в рамках стендовых и специальных сессий, но не вошедшие в ежегодник «Компьютерная лингвистика и интеллектуальные технологии». Как и статьи основного сборника данные статьи представляют все направления «Диалога» (могут представлять результаты продолжающихся исследований, вводить в обращение новые ресурсы) и отражают те направления исследований в области компьютерного моделирования и анализа естественного языка, которые по традиции представляются на конференции: • Компьютерные лингвистические ресурсы; • Компьютерный анализ документов (классификация, перевод, поиск, саммаризация, генерация, анализ тональности и аргументации и т. д.); • Глубокое обучение в компьютерной лингвистике (методики применения, содержательная лингвистическая интерпретация); • Компьютерный анализ Social Media; • Корпусная лингвистика и корпусометрия (методики создания, использования и оценки корпусов и датасетов); • Компьютерная семантика (от аналитических до дистрибуционных моделей); • Лингвистические онтологии и автоматическое извлечение знаний; • Мультимодальные подходы к анализу языка (на стыке NLP и Computer Vision); • Мультиканальная коммуникация (включая лингвистический анализ речи); • Лингвистические модели общения и диалоговые агенты; • Лингвистический анализ текста (морфология, синтаксис, семантика); • Компьютерная лексикография; • Полевая компьютерная лингвистика (методы создания и переноса языковых моделей для малоресурсных языков). В сборнике представлены и статьи технологических соревнований между разработчиками систем лингвистического анализа русскоязычных текстов — Dialogue Evaluation, которые проводились по следующим направлениям: • RUSSE Detox: Соревнование по автоматической детоксификации текстов; • RuATD: Соревнование по распознаванию сгенерированных текстов; • RuArg: Соревнование по анализу аргументации; • RuNNE: Соревнование по извлечению вложенных именованных сущностей в few-shot режиме. С 2019 года Оргкомитет конференции «Диалог» принял решение объединить статьи раздела «Статьи, публикуемые на сайте» в сборник «Дополнительный том». Сборник индексируется РИНЦ. Программный комитет конференции «Диалог» Редколлегия сборника «Компьютерная лингвистика и интеллектуальные технологии» III
Организаторы Ежегодная конференция «Диалог» проводится при организационной поддержке компании ABBYY. Учредителями конференции являются: • Институт лингвистики РГГУ • Институт проблем передачи информации РАН • Компания ABBYY • Филологический факультет МГУ • Школа прикладной математики и информатики МФТИ Международный программный комитет Богуславский Игорь Михайлович ИППИ РАН, Россия; Мадридский политехнический университет, Испания Буате Кристиан Университет Джозефа Фурье — Гренобль 1, Франция Гельбух Александр Феликсович Национальный политехнический институт, Мексика Иомдин Леонид Лейбович ИППИ РАН им. А.А. Харкевича, Россия Кобозева Ирина Михайловна МГУ им. М. В. Ломоносова, Россия Корбетт Гревил Университет Суррея, Великобритания Кронгауз Максим Анисимович НИУ «Высшая школа экономики», Россия Лукашевич Наталья Валентиновна НИВЦ МГУ им. М. В. Ломоносова, Россия Маккарти Диана Кембриджский университет, Великобритания Мельчук Игорь Александрович Монреальский университет, Канада Нивре Йоаким Уппсальский университет, Швеция Ниренбург Сергей Университет Мэриленда, Балтимор, США Райгородский Андрей Михайлович МФТИ, Россия Раскин Виктор Университет Пердью, США Селегей Владимир Павлович Компания ABBYY, МФТИ, Россия Хови Эдуард Университет Карнеги — Меллон, США Шаров Сергей Александрович Университет Лидса, Великобритания Организационный комитет Селегей Владимир Павлович, председатель Компания ABBYY, Россия Беликов Владимир Иванович Институт русского языка им. В. В. Виноградова РАН, Россия Браславский Павел Исаакович Уральский федеральный университет, Россия Добров Борис Викторович НИВЦ МГУ им. М. В. Ломоносова, Россия Захаров Леонид Михайлович МГУ им. М. В. Ломоносова, Россия Иомдин Леонид Лейбович Институт проблем передачи информации РАН им. А. А. Харкевича, Россия Кобозева Ирина Михайловна МГУ им. М. В. Ломоносова, Россия Козеренко Елена Борисовна Институт проблем информатики РАН, Россия Кутузов Андрей Борисович Университет Осло, Норвегия Ляшевская Ольга Николаевна Институт русского языка им. В. В. Виноградова РАН, Россия Пиперски Александр Чедович РГГУ, Россия Толдова Светлана Юрьевна НИУ «Высшая школа экономики», Россия Шаврина Татьяна Олеговна СберТех, Россия Шаров Сергей Александрович Университет Лидса , Великобритания IV
Секретариат Родионова Ольга Игоревна, координатор оргкомитета Компания ABBYY, Россия Ульянова Анна Вячеславовна, секретарь оргкомитета РГГУ, Россия Рецензенты Азарова Ирина Владимировна Андрианов Андрей Иванович Антонова Александра Александровна Артемова Екатерина Леонидовна Баранов Анатолий Николаевич Беликов Владимир Иванович Богданов Алексей Владимирович Богданова-Бегларян Наталья Викторовна Богуславский Игорь Михайлович Бочаров Виктор Владиславович Бурцев Михаил Сергеевич Васильев Виталий Геннадьевич Гусев Илья Олегович Добров Борис Викторович Добровольский Владимир Андреевич Добровольский Дмитрий Олегович Зализняк Анна Андреевна Захаров Леонид Михайлович Иванов Владимир Владимирович Ивойлова Александра Михайловна Иомдин Леонид Лейбович Инькова Ольга Юрьевна Катинская Анисья Юрьевна Кибрик Андрей Александрович Клышинский Эдуард Станиславович Клячко Елена Леонидовна Князев Сергей Владимирович Кобозева Ирина Михайловна Копотев Михаил Вячеславович Коротаев Николай Алексеевич Котельников Евгений Вячеславович Котов Артемий Александрович Куратов Юрий Михайлович Кутузов Андрей Борисович Лапошина Антонина Николаевна Левонтина Ирина Борисовна Лобанов Борис Мефодьевич Лукашевич Наталья Валентиновна Малафеев Алексей Юрьевич Митрофанова Ольга Александровна Мичурина Мария Александровна Недолужко Анна Новицкий Валерий Игоревич Орлов Евгений Анатольевич Переверзева Светлана Игоревна Петрова Мария Владимировна Пиперски Александр Чедович Подлесская Вера Исааковна Рыгаев Иван Петрович Селегей Владимир Павлович Слюсарь Наталия Анатольевна Смирнов Иван Валентинович Смуров Иван Михайлович Татевосов Сергей Георгиевич Толдова Светлана Юрьевна Федорова Ольга Викторовна Феногенова Алена Сергеевна Хохлова Мария Владимировна Циммерлинг Антон Владимирович Шаврина Татьяна Олеговна Шаров Сергей Александрович Янко Татьяна Евгеньевна V
Computational linguistics and intellectual technologies 2022 Contents1 Басина П., Гойко В., Петров Е., Бакулин В. Классификация публикаций сообществ «ВКонтакте» для оценки качества жизни населения .... 1001 Блинова О., Тарасов Н. Метрики сложности русских правовых текстов: отбор, использование, первичная оценка эффективности ............................................................................................................................................ 1017 Buzanov A., Toldova S., Budilova Z., Slioussar N. Non-canonical constructions with reflexive possessives in Russian: u-possessor constructions ............... 1029 Гладилин С. А., Сизов В. Г., Казенников А. О., Морозов Д. А., Дяченко П. В., Дон О. Р., Козеренко А. Д., Пискунова С. В., Махова А. А., Буйлова Н. Н. Прототип корпусной платформы нового поколения для НКРЯ .......................................................... 1043 Iriskhanova O., Kiose M., Leonteva A., Agafonova O. Staged and natural gesturing in argumentation and description ................................................................ 1055 Хохлова М. В. О некоторых типах ошибок в русскоязычном Интернет-корпусе ...................................................... 1068 Khusainova A., Romanov V., Khan A. Automatic Bilingual Phrase Dictionary Construction from GIZA++ Output .............................................. 1077 Kiose M., Rzheshevskaya A., Izmalkova A. Gaze behavior in single-page monomodal and cross-modal switches as affected by Event construal ....... 1087 Konodyuk N. Prompt Tuning for Text Detoxification .......................................................................................................... 1098 Lepekhin M., Sharoff S. Experiments with adversarial attacks on text genres ................................................................................... 1106 Летучий А. Б. Императив в роли главного предиката ................................................................................................... 1118 Lozovskaya A. I., Pitolin D. V. , Bessonov S. A. Setting Up A Complex Model Of Speech Analysis: Pilot Study Of Late Bilingual Speech ............................ 1131 Ostyakova L., Molchanova M., Petukhova K., Smilga N., Kornev D., Burtsev M. Corpus with Speech Function Annotation: Challenges, Advantages, and Limitations ................................ 1138 Potekhin A. Lexical and Syntactic Features for Reader Rating Prediction ....................................................................... 1149 Слюсарь Н. А., Гурков И. Е., Чернова Д. А. Одни ошибки вреднее других: роль типа и частотности орфографических ошибок в обработке слов .......................................................................................................................................... 1158 Totmina E. V. Detoxification of Russian texts based on combination of controlled generation using pretrained ruGPT3 and the Delete method ..................................................................................................................... 1167 Верещагина А. Д. Корпусные исследования возрастных распределений лексических паремий ................................. 1175 Abstracts ........................................................................................................................................................ 1186 Авторский указатель .................................................................................................................................. 1189 Author Index .................................................................................................................................................. 1189 * The reports of each section are ordered by the surname of the first author in compliance with the English alphabet. VI
Classification community publications of the «VKontakte» for assessing the quality of life of the population Polina Basina TSU Tomsk, Russia basina@data.tsu.ru Vyacheslav Goiko TSU Tomsk, Russia goiko@data.tsu.ru Evgeny Petrov TSU Tomsk, Russia petrov@data.tsu.ru Vyacheslav Bakulin TSU Tomsk, Russia slava38710505@gmail.com Abstract Social networks are an everyday tool for users to express their opinions and preferences. User digital trace are a valuable source of data for understanding the problems of the population in various spheres of life. The focus of this work is aimed at developing an algorithm for automatic classification of text content «VKontakte» according to the selected categories of quality of life. This social network is one of the most popular platforms among users. The categories of quality of life are «education», «healthcare», «security», «social security», «work of authorities», «ecology» and «accessibility of goods and services». The paper uses static and contextualized models for creating vector representations and effective algorithms for classifying Russian-language content of social networks (LSTM, BiLSTM, GRU, RuBERT). We prefer the RuBERT -tiny model due to the best completeness indicators in most categories. Keywords: quality of life, digital trace, VKontakte, natural language processing, text classification, RuBERT DOI: 10.28995/2075-7182-2022-21-1001-1016 Классификация публикаций сообществ «ВКонтакте» для оценки качества жизни населения Полина Басина НИ ТГУ Томск, Россия basina@data.tsu.ru Вячеслав Гойко НИ ТГУ Томск, Россия goiko@data.tsu.ru Евгений Петров НИ ТГУ Томск, Россия petrov@data.tsu.ru Вячеслав Бакулин НИ ТГУ Томск, Россия slava38710505@gmail.com Аннотация Сегодня социальные сети — это повседневный инструмент пользователя для выражения своих мнений и предпочтений. Цифровые следы, создаваемые в сети, являются ценным источником данных для выделения проблем населения в различных сферах жизнедеятельности. Фокус данной работы сосредоточен на разработке алгоритма, позволяющего автоматически классифицировать текстовый контент социальной сети «ВКонтакте», являющейся одной из популярных платформ среди пользователей, по категориям качества жизни: «образование», «здравоохранение», «безопасность», «социальное обеспечение», «работа органов власти», «экология» и «доступность товаров и услуг». Для реализации поставленной задачи в рамках работы 1001
использованы статичные и контекстуализированные модели создания векторных представлений и эффективные алгоритмы классификации русскоязычного контента социальных сетей (LSTM, BiLSTM, GRU, RuBERT). На сегодняшний день мы отдаем предпочтение модели RuBERT-tiny за счет лучших показателей полноты в большинстве категорий. Ключевые слова: качество жизни, цифровые следы, «ВКонтакте», обработка естественного языка, классификация текстов, RuBERT 1 Введение В современном мире социальные сети являются повседневным инструментом пользователей для выражения своих мнений и предпочтений. Согласно данным отчета «We Are Social» и «Kepios» в РФ за 2021 год количество пользователей1 социальных сетей увеличилось на 7 млн и на начало 2022 года составляет 106 млн. Ежедневно среднестатистический пользователь проводит в социальных сетях 2 часа 27 минут; в качестве популярных причин использования выделяют — «поддержание связей», «заполнение свободного времени», «чтение новостей», «поиск контента», «обмен мнениями». Самую многочисленную ежемесячную аудиторию собирают платформы «WhatsApp», «ВКонтакте» и «Instagram» 2 . Согласно последней официальной информации «ВКонтакте»3, социальная сеть фиксирует резкий рост активности аудитории и количества пользователей — «к примеру, на неделе с 21 по 27 февраля средняя ежедневная аудитория платформы в России выросла на 200 000 пользователей»4. Цифровые следы, создаваемые в социальных сетях, являются ценным источником для различных приложений — анализ мнений и настроений, обобщение и категоризация текстов, обнаружение фейковых новостей и другие [Abbas 2021]. Одним из популярных направлений выступает оценка качеств жизни населения. То, как люди оценивают различные области своей жизни (субъективное благополучие), имеет важное значение для управленческого сектора и научных исследований. В качестве традиционного подхода оценки качества жизни выступают опросы, являющиеся дорогостоящей и трудоемкой процедурой, которая имеет определенные ограничения. Однако, сегодня пользователи склоны открыто делиться своими настроениями и мнениями в виде постов и реакций в социальных сетях, представляя тем самым ценную информацию для оценки их благополучия с применением алгоритмов машинного обучения [Hao et al. 2014]. Последние несколько лет на факультете психологии Санкт-Петербургского государственного университета проводится проект «Стресс, здоровье и психологическое благополучие в социальных сетях: кросс-культурное исследование». Исследователи выявляют лексические паттерны психологического благополучия, анализируя поведение пользователей социальных сетей [Bogolyubova et al. 2018, Bogolyubova et al. 2017]. При этом важно отметить, что эффективность работы алгоритмов по обработке естественного языка, в частности для задач классификации, зависит от многих факторов, где одними из значимых являются язык и источник данных. Например, новостные статьи и посты в социальных сетях будут написаны разными стилями речи. В качестве особенностей текстов социальных сетей исследователи отмечают: использование жаргонизмов, неологизмов и диалектов; неполные предложения; речевые и орфографические ошибки; символы эмодзи, как средства придания сообщениям эмоциональной окраски [Moshkin et al. 2019]. М. Абрахам и П. Набенде провели эксперименты по классификации твитов, написанных на различных языках, для эпидемиологического надзора с использованием нейросетевых архитектур CNN, RNN, LSTM и BERT. Исследователи отметили разную производительность алгоритмов в зависимости от того языка, на котором написаны тексты [Abraham et al. 2021]. Е. В. Михалкова и др. для решения задачи определения интересов пользователей сравнили применимость алгоритмов классификации на данных русскоязычных текстов «ВКонтакте» и англоязычных постов «Twitter». Они использовали несколько алгоритмов машинного обучения — метод опорных векторов, наивный Байесовский классификатор, логистическая регрессия, деревья решений и k-ближайших соседей. В ходе экспериментов ис 1 Важно отметить, что под пользователями не следует понимать уникальных людей. 2 Digital 2022: THE RUSSIAN FEDERATION https://datareportal.com/reports/digital-2022-russian-federation 3 Актуальная информация на момент написания статьи. 4 ВКонтакте фиксирует резкий всплеск аудитории и просмотра контента https://vk.com/press/users-activity Basina P., Goiko V., Petrov E., Bakulin V. 1002
следователи сделали вывод, что выбор социальной сети является важным фактором для разработки модели, а языковые различия не влияют на результаты классификации при должной нормализации данных [Mikhalkova et al. 2018]. С. Ватерлоо и др. изучили нормы выражения эмоций в социальных сетях — «Facebook», «Twitter», «Instagram» и «WhatsApp». Авторы обнаружили различия в платформах с точки зрения проявляемых там реакций [Waterloo et al. 2018]. Цифровые следы, создаваемые в социальной сети, с одной стороны, являются ценными источником данных для выделения проблем населения в различных сферах жизнедеятельности; с другой — представляют собой большие данные, изучение которых невозможно традиционными методами. Данные факторы обуславливают необходимость разработки автоматизированных решений. При этом учитывая разнообразие контента социальной сети, возникает необходимость его категоризации с применением экспертных мнений, что подразумевает под собой использование контролируемых методов машинного обучения. Результаты автоматической классификации в дальнейшем применяются для расчета индекса актуальности темы, который выражает то, насколько актуальна определенная тема (категория) в конкретном регионе в заданный временной промежуток. Индекс рассчитывается на основе цифровых следов анализируемого контента — лайки, комментарии, репосты. Фокус данной работы сосредоточен на разработке алгоритма, позволяющего автоматически классифицировать текстовый контент социальной сети «ВКонтакте», являющейся одной из популярных платформ среди пользователей, по категориям качества жизни. Статья состоит из 5 разделов: изучения практик применения алгоритмов машинного обучения для оценки благополучия пользователей социальных медиа, описания данных, описания экспериментов и методов оценки, результатов экспериментов и дальнейших путей развития. 2 Изучение практик применения алгоритмов машинного обучения для оценки благополучия пользователей социальных медиа Е.В. Щекотин и др. условно выделяют три направления исследований, связанных с социальными медиа и благополучием: информационные технологии как инструмент изучения; социальные медиа как фактор влияния на благополучие; социальные сети как самодостаточный источник данных [Shchekotin, Myagkov et al. 2020]. Мы сосредоточимся на практиках оценки качества жизни на основе текстовых данных социальных сетей с применением алгоритмов машинного обучения. В одной из работ предлагается единый подход к построению профиля субъективного благополучия на основе языка социальных сетей в обновлениях статуса «Facebook». Исследователи применяют анализ настроений для оценки аффективных характеристик пользователей («счастья») и обучают модель случайного леса для прогнозирования субъективного благополучия с использованием полученных оценок и других языковых функций обновлений статуса [Chen et al. 2017]. К. Джайдка и др. сравнили оценки благополучия на уровне округов США, основанные на данных «Twitter», с показателями индекса Гэллапа, рассчитанными на материалах телефонных опросов. Они обнаружили, что методы на уровне слов дали противоречивые измерения на уровне округа из-за региональных, культурных и социально-экономических различий в использовании языка. Однако, удаление всего лишь трех наиболее часто встречающихся слов привело к заметному улучшению результатов прогноза. Методы, основанные на данных, позволили получить надежные оценки, приближенные к индексу Гэллапа [Jaidka et al. 2020]. Другие авторы, используя данные социальных сетей 1785 пользователей с метками субъективного благополучия, обучают модели машинного обучения, которые способны «распознавать» индивидуальные оценки для пользователей [Hao et al. 2014]. М. Бхасин и др. анализируют аффективные и внутренние состояния пользователей. Они создали модель состояний счастья людей: G (длительное счастье), P (мерцание) и I (разочарование). Исследователи использовали XGBoost для классификации 54 066 пользователей «Twitter» на основе их твитов. Авторы утверждают, что, анализируя результаты классификации, могли бы повторно подтвердить характеристики, упомянутые в определении трех состояний (G, P, I), а также выявить дополнительные черты [Bhasin et al. 2021]. Многие исследователи акцентируют внимание на качестве жизни пользователей в период пандемии, когда социальные медиа позволяют получить уникальные данные. Ю. Хан и др. проанализировали с помощью алгоритмов классификации субъективное благополучие пользователей на основе сообщений в популярной в Китае социальной сети «Weibo» во время и после вспышки пандемии COVID-19. Результаты показывают тенденцию к снижению, а затем тенденцию к росту Classification community publications of the «VKontakte» for assessing the quality of life of the population 1003
уровня субъективного благополучия пользователей во время пандемии в целом [Han et al. 2022]. Ю. Ванг и др. изучили влияние изоляции на субъективное благополучие людей в Китае во время пандемии COVID-19 на материалах аналогичной социальной сети. Выборка состояла из двух групп: пользователи, проживающие в городах самоизоляции, и пользователи без ограничений на социальные контакты. Для каждой группы были рассчитаны показатели благополучия с помощью прогностических моделей машинного обучения в течение 2 недель до и после даты введения в действие блокировки жилых помещений, используя оригинальные сообщения пользователей в «Weibo» [Wang et al. 2020]. 3 Описание данных Рассматриваемый в рамках данной работы алгоритм обучен и применяется для контента социальной сети «ВКонтакте». Выбор сети обусловлен, с одной стороны, ее популярностью среди аудитории, что подтверждают статистические данные; с другой — возможностями самой платформы. Данные «ВКонтакте» обладают рядом преимуществ: публичный API; детализация контента во времени и по территориальным единицам; выражение собственного мнения пользователем (посты) и его открытое взаимодействие с контентом посредством различных реакций (лайки, комментарии, репосты); относительно низкие временные затраты. Среди недостатков отмечают смещение выборочной совокупности; технические трудности сбора данных; специфичность текстов социальной сети [Shchekotin, Kovarzh et al. 2020]. Для получения репрезентативных данных, позволяющих учесть территориальные особенности, которые могут проявляться в текстовом контенте как содержательно, так и с точки зрения языковых особенностей, в качестве источников были выбраны региональные сообщества. Важным критерием такого сообщества является территориальная принадлежность аудитории — не менее 50% подписчиков, указавших свое местоположение, должны быть из 1 региона, указанного пользователем как место проживания. Другие значимые характеристики, которые были использованы для отбора сообществ, представлены в работе [Shchekotin, Myagkov et al. 2020]. Полный список расположен в репозитории Github5. Каждый объект базы данных (далее — БД) «ВКонтакте» имеет числовой идентификатор, позволяющий с помощью API получить о нем информацию и связанные объекты. Например, при помощи идентификаторов сообществ могут быть выгружены их публикации, комментарии к ним (с указанием ID автора комментария), списки пользователей, которым понравилась публикации. Поскольку при создании нового объекта «ВКонтакте» ему присваивается идентификатор, являющийся результатом инкрементации идентификатора ранее созданного объекта, можно сгенерировать необходимый список идентификаторов для выгрузки без обращения к «ВКонтакте». Программное обеспечение для сбора данных реализовано на скриптовом языке Python, имеет ряд модулей, в частности, для работы с API «ВКонтакте», записи результатов в хранилище и обеспечения параллелизма при выгрузке. Для хранения выгрузок используется СУБД PostgreSQL. Для обучения и оценки алгоритма классификации был сформирован набор размеченных данных — 84 000 постов «ВКонтакте». Были использованы случайные посты, опубликованные в региональных сообществах в период с января по июль 2021 года. Авторами публикаций могли выступать как участники сообществ, так и сами сообщества; при отборе постов не учитывались социолингвистические параметры авторов. В выборку могли попасть любые сообщения вне зависимости от количества их цифровых следов (лайки, комментарии, репосты, просмотры). Учитывая специфику контента социальных сетей, необходимо было очистить данные от неинформативных сообщений, к которым относятся: развлекательный контент, спортивные события, рекламные и коммерческие сообщения, заметки фан-клубов и др. Отфильтрованные сообщения были размечены согласно выделенным категориям качества жизни: «образование», «здравоохранение», «безопасность», «социальное обеспечение», «работа органов власти», «экология» и «доступность товаров и услуг». Каждое сообщение могло быть отнесено только к 1 категории. На предыдущем этапе исследования было выделено 19 категорий [Shchekotin, Myagkov et al. 2020]. 5 Methodology of formation of the register of regional communities of the Vkontakte social network https://github.com/datacentr/Methodology-of-formation-of-the-register-of-regional-communities-of-the-Vkontakte-social-network Basina P., Goiko V., Petrov E., Bakulin V. 1004