Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Программные продукты и системы, 2025, том 38, № 1

международный научно-практический журнал
Бесплатно
Новинка
Основная коллекция
Артикул: 857473.0001.99
Программные продукты и системы : международный научно-практический журнал. – Тверь : НИИ Центрпрограммсистем, 2025. - Т. 38, № 1. – 179 с. – ISSN 0236-235X. - Текст : электронный. - URL: https://znanium.ru/catalog/product/2206778 (дата обращения: 16.04.2025)
Фрагмент текстового слоя документа размещен для индексирующих роботов


Научно-исследовательский институт 
«Центрпрограммсистем» 
 
 
 
Программные 
продукты и системы 
 
 
НАУЧНЫЙ ЖУРНАЛ 
 
 
 
2025, том 38, № 1  
(год издания тридцать восьмой) 
 
 
 
 
Главный редактор 
Г.И. САВИН, академик РАН 
 
 
 
 
 
 
 
 
 
 
 
 
SOFTWARE & SYSTEMS 
 
 
 
 
 
Research Journal 
 
 
 
 
2025, vol. 38, no. 1 
 
 
 
 
 
Editor-in-Chief  
G.I. SAVIN, Academician of the Russian Academy of Sciences 
 
 
 
 
 
 
Research Institute CENTERPROGRAMSYSTEM 
 
 


© ПРОГРАММНЫЕ ПРОДУКТЫ И СИСТЕМЫ 
Научный журнал  
2025. Т. 38. № 1  
DOI: 10.15827/0236-235X.149 
Главный редактор  
Г.И. САВИН, академик РАН 
Научные редакторы номера: 
Н.А. СЕМЕНОВ, д.т.н., профессор 
Т.М. ТАТАРНИКОВА, д.т.н., профессор 
Издатель НИИ «Центрпрограммсистем»
(г. Тверь, Россия)
Учредитель В.П. Куприянов
Журнал зарегистрирован в Роскомнадзоре
3 марта 2020 г.
Регистрационное свидетельство ПИ № ФС 77-77843
Подписной индекс в каталоге
Урал-Пресс 70799
ISSN 0236-235X (печатн.)
ISSN 2311-2735 (онлайн)
 
РЕДАКЦИОННАЯ КОЛЛЕГИЯ 
 
Семенов Н.А. – заместитель главного редактора, д.т.н., профессор Тверского государственного технического  
университета (г. Тверь, Россия) 
Сотников А.Н. – заместитель главного редактора, д.ф.-м.н., профессор, главный научный сотрудник  
НИЦ «Курчатовский институт» (г. Москва, Россия) 
Афанасьев А.П. – д.ф.-м.н., профессор Московского физико-технического института (г. Москва, Россия) 
Баранов А.В. – к.т.н., доцент, начальник отдела НИЦ «Курчатовский институт» (г. Москва, Россия) 
Борисов В.В. – д.т.н., профессор филиала Национального исследовательского университета «МЭИ»  
в г. Смоленске (г. Смоленск, Россия) 
Голенков В.В. – д.т.н., профессор Белорусского государственного университета информатики и радиоэлектроники  
(г. Минск, Беларусь) 
Елизаров А.М. – д.ф.-м.н., профессор Института математики и механики им. Н.И. Лобачевского Казанского  
федерального университета (г. Казань, Россия) 
Еремеев А.П. – д.т.н., профессор Национального исследовательского университета «МЭИ» (г. Москва, Россия) 
Кольчугина Е.А. – д.т.н., профессор Пензенского государственного университета (г. Пенза, Россия) 
Кузнецов О.П. – д.т.н., профессор Института проблем управления РАН (г. Москва, Россия) 
Мамросенко К.А. – к.т.н., доцент, руководитель Центра визуализации  
и спутниковых информационных технологий НИИСИ (г. Москва, Россия) 
Палюх Б.В. – д.т.н., профессор Тверского государственного технического университета (г. Тверь, Россия) 
Рыбаков А.А. – к.ф.-м.н., начальник отдела НИЦ «Курчатовский институт» (г. Москва, Россия) 
Сулейманов Д.Ш. – д.т.н., академик АН Республики Татарстан, профессор Казанского государственного технического  
университета (г. Казань, Россия) 
Татарникова Т.М. – д.т.н., профессор Санкт-Петербургского государственного  
электротехнического университета «ЛЭТИ» им. В.И. Ульянова (Ленина) (г. Санкт-Петербург, Россия) 
Ульянов С.В. – д.ф.-м.н., профессор, ведущий научный сотрудник Объединенного института ядерных исследований  
(г. Дубна, Россия) 
Хорошевский В.Ф. – д.т.н., профессор Московского физико-технического института (г. Москва, Россия) 
Шабанов Б.М. – д.т.н., чл.-корр. РАН, заместитель директора НИЦ «Курчатовский институт» (г. Москва, Россия) 
Язенин А.В. – д.ф.-м.н., профессор Тверского государственного университета (г. Тверь, Россия) 
 
АССОЦИИРОВАННЫЕ ЧЛЕНЫ РЕДАКЦИИ 
 
Национальный исследовательский университет «МЭИ», г. Москва, Россия 
Технологический институт Южного федерального университета, г. Таганрог, Россия 
Тверской государственный технический университет, г. Тверь, Россия 
 
АДРЕС ИЗДАТЕЛЯ И РЕДАКЦИИ  
г. Тверь, просп. Николая Корыткова, д. 3а,  
170024, Россия 
Телефон: (482-2) 39-91-49 
Факс: (482-2) 39-91-00 
E-mail: red@cps.tver.ru 
Сайт: www.swsys.ru 
Дата выхода в свет 16.03.2025 г. 
Отпечатано ИПП «Фактор и К» 
г. Тверь, ул. Крылова, д. 26, 170100, Россия  
Выпускается один раз в квартал  
Год издания тридцать восьмой 
Формат 6084 1/8. Объем 176 стр. 
Заказ № 2. Тираж 1000 экз. Цена 550,00 руб. 
 
 


© SOFTWARE & SYSTEMS  
Research Journal  
2025, vol. 38, no. 1 
DOI: 10.15827/0236-235X.149 
Editor-in-chief  
G.I. SAVIN, Academician of RAS 
Science editors of the issue: 
N.A. SEMENOV, Dr.Sci. (Engineering), Professor 
T.M. TATARNIKOVA, Dr.Sci. (Engineering), Professor 
Publisher Research Institute 
CENTERPROGRAMSYSTEM (Tver, Russian Federation)
Founder V.P. Kupriyanov
The journal is registered with the Federal Service 
for Supervision of Communications, Information Technology 
and Mass Communications (Roskomnadzor) 
March 3rd, 2020
Registration certificate ПИ № ФС 77-77843
ISSN 0236-235X (print)
ISSN 2311-2735 (online)
 
EDITORIAL BOARD 
 
Semenov N.A. – Deputy Editor-in-Chief, Dr.Sci. (Engineering), Professor of the Tver State Technical University  
(Tver, Russian Federation) 
Sotnikov A.N. – Deputy Editor-in-Chief, Dr.Sci. (Physics and Mathematics), Professor, Chief Researcher  
of the National Research Centre Kurchatov Institute (Moscow, Russian Federation) 
Afanasiev A.P. – Dr.Sci. (Physics and Mathematics), Professor of the Moscow Institute of Physics and Technology,  
(Moscow, Russian Federation) 
Baranov A.V. – Cand. of Sci. (Engineering), Associate Professor, Head of Department  
of the National Research Centre Kurchatov Institute (Moscow, Russian Federation) 
Borisov V.V. – Dr.Sci. (Engineering), Professor of the MPEI Branch in Smolensk (Smolensk, Russian Federation) 
Golenkov V.V. – Dr.Sci. (Engineering), Professor of the Belarusian State University of Informatics and Radioelectronics  
(Minsk, Republic of Belarus) 
Elizarov A.M. – Dr.Sci. (Physics and Mathematics), Professor of the N.I. Lobachevsky Institute of Mathematics  
and Mechanics of the Kazan Federal University (Kazan, Russian Federation) 
Eremeev A.P. – Dr.Sci. (Engineering), Professor of the National Research University Moscow Power Engineering  
Institute (Moscow, Russian Federation) 
Kol’chugina E.A. – Dr.Sci. (Engineering), Professor of the Penza State University (Penza, Russian Federation) 
Kuznetsov O.P. – Dr.Sci. (Engineering), Professor of the Institute of Control Sciences of the Russian Academy  
of Sciences (Moscow, Russian Federation) 
Mamrosenko K.A. – Cand. of Sci. (Engineering), Associate Professor,  
Head of the Center of Visualization and Satellite Information Technologies SRISA (Moscow, Russian Federation) 
Rybakov A.A. – Cand. of Sci. (Physics and Mathematics), Head of Department of the National Research Centre  
Kurchatov Institute (Moscow, Russian Federation) 
Palyukh B.V. – Dr.Sci. (Engineering), Professor of the Tver State Technical University (Tver, Russian Federation) 
Suleimanov D.Sh. –Dr.Sci. (Engineering), Academician of TAS, Professor of the Kazan State Technical University  
(Kazan, Russian Federation) 
Tatarnikova T.M. – Dr.Sci. (Engineering), Associate Professor, Professor of the St. Petersburg Electrotechnical  
University LETI (St. Petersburg, Russian Federation) 
Ulyanov S.V. – Dr.Sci. (Physics and Mathematics), Professor of the Dubna International University for Nature,  
Society and Man (Dubna, Russian Federation) 
Khoroshevsky V.F. – Dr.Sci. (Engineering), Professor of the Moscow Institute of Physics and Technology  
(Moscow, Russian Federation) 
Shabanov B.M. – Dr.Sci. (Engineering), Corresponding Member of RAS, Deputy Director  
of National Research Center “Kurchatov Institute” (Moscow, Russian Federation) 
Yazenin A.V. – Dr.Sci. (Physics and Mathematics), Professor of the Tver State University (Tver, Russian Federation) 
 
ASSOCIATED EDITORIAL BOARD MEMBERS 
 
National Research University Moscow Power Engineering Institute, Moscow, Russian Federation 
Technology Institute at Southern Federal University, Taganrog, Russian Federation 
Tver State Technical University, Tver, Russian Federation 
 
EDITORIAL BOARD AND PUBLISHER OFFICE ADDRESS  
Nikolay Korytkov Ave, 3а, Tver, 170024, Russian Federation 
Phone: (482-2) 39-91-49  Fax: (482-2) 39-91-00 
E-mail: red@cps.tver.ru 
Website: www.swsys.ru 
Release date 16.03.2025
Printed in printing-office Faktor i K
Krylova St. 26, Tver, 170100, Russian Federation
Published quarterly. 38th year of publication
Format 6084 1/8. Wordage 176 pages
Prod. order № 2. Circulation 1000 copies. Price 550,00 rub. 


Вниманию авторов 
 
Журнал «Программные продукты и системы» публикует материалы научного и научно-практического 
характера по новым информационным технологиям, результаты академических и отраслевых исследований 
в области использования средств вычислительной техники. Практикуются выпуски тематических номеров 
по искусственному интеллекту, системам автоматизированного проектирования, по технологиям разработки 
программных средств и системам защиты, а также специализированные выпуски, посвященные научным 
исследованиям и разработкам отдельных вузов, НИИ, научных организаций.  
Журнал «Программные продукты и системы» внесен в Перечень ведущих рецензируемых научных журналов и изданий, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученых степеней кандидата и доктора наук. 
Информация об опубликованных статьях по установленной форме регулярно предоставляется в систему 
РИНЦ, в CrossRef и в другие базы и электронные библиотеки. 
Журнал «Программные продукты и системы» включен в ядро коллекции РИНЦ, размещенное на платформе Web of Science в виде базы данных RSCI. 
Автор статьи отвечает за подбор, оригинальность и точность приводимого фактического материала.  
При перепечатке ссылка на журнал обязательна. Статьи публикуются бесплатно. 
 
Условия публикации 
 
К рассмотрению принимаются оригинальные материалы, отвечающие редакционным требованиям и соответствующие тематике журнала. Группы научных специальностей:  
1.2. Компьютерные науки и информатика  
1.2.1. Искусственный интеллект и машинное обучение (физико-математические науки).  
1.2.2. Математическое моделирование, численные методы и комплексы программ (физико-математические науки, технические науки). 
2.3. Информационные технологии и телекоммуникации 
2.3.1. Системный анализ, управление и обработка информации, статистика (технические науки, физикоматематические науки).  
2.3.2. Вычислительные системы и их элементы (технические науки). 
2.3.3. Автоматизация и управление технологическими процессами и производствами (технические 
науки).  
2.3.5. Математическое и программное обеспечение вычислительных систем, комплексов и компьютерных сетей (технические науки, физико-математические науки). 
2.3.6. Методы и системы защиты информации (технические науки, физико-математические науки). 
2.3.7. Компьютерное моделирование и автоматизация (технические науки, физико-математические науки). 
2.3.8. Информатика и информационные процессы (технические науки). 
Работа представляется в электронном виде в формате Word. Объем статьи вместе с иллюстрациями – не 
менее 10 000 знаков. Диаграммы, схемы, графики должны быть доступными для редактирования (Word, 
Visio, Excel). Заголовок должен быть информативным; сокращения, а также терминологию узкой тематики 
желательно в нем не использовать. Количество авторов на одну статью – не более четырех, количество статей одного автора в номере, включая соавторство, – не более двух. Список литературы, наличие которого 
обязательно, должен включать не менее 10 пунктов. 
Необходимы также содержательная структурированная аннотация (не менее 200 слов), ключевые слова 
(7–10) и индекс УДК. Название статьи, аннотация и ключевые слова должны быть переведены на английский 
язык (машинный перевод недопустим), а фамилии авторов, названия и юридические адреса организаций 
(если нет официального перевода) – транслитерированы по стандарту BGN/PCGN.  
Вместе со статьей следует прислать экспертное заключение о возможности открытого опубликования 
материала и авторскую справку. Обзательно соблюдение автором договора (публичной оферты). 
 
Порядок рецензирования 
 
Все статьи, поступающие в редакцию (соответствующие тематике и оформленные согласно требованиям 
к публикации), подлежат двойному слепому рецензированию в течение месяца с момента поступления, рецензия отправляется авторам.  
В редакции сформирован устоявшийся коллектив рецензентов, среди которых члены редколлегии журнала, эксперты из числа крупных специалистов в области информатики и вычислительной техники ведущих 
вузов страны, а также ученые и специалисты НИИСИ РАН, МСЦ РАН, НИЦ «Курчатовский институт»  
(г. Москва) и НИИ «Центрпрограммсистем» (г. Тверь). 
Редакция журнала «Программные продукты и системы» в своей работе руководствуется сводом правил 
Кодекса этики научных публикаций, разработанным и утвержденным Комитетом по этике научных публикаций (Committee on Publication Ethics – COPE). 
 
 


Программные продукты и системы / Software & Systems  
 
 
 
 
 
 
 
 
 
 
 
 
 
  38(1), 2025 
 
5 
УДК 519.688; 004.89  
 
 
 
doi: 10.15827/0236-235X.149.005-016  
 
 
 
 2025. Т. 38. № 1. С. 5–16 
 
Методы и средства извлечения терминов из текстов  
для терминологических задач 
 
Е.И. Большакова 1, В.В. Семак 1 
 
1 Московский государственный университет им. М.В. Ломоносова,  
г. Москва, 119991, Россия 
 
Ссылка для цитирования 
Большакова Е.И., Семак В.В. Методы и средства извлечения терминов из текстов для терминологических задач // 
Программные продукты и системы. 2025. Т. 38. № 1. С. 5–16. doi: 10.15827/0236-235X.149.005-016  
Информация о статье 
Группа специальностей ВАК: 1.2.3 
Поступила в редакцию: 18.08.2024 
 
    После доработки: 14.09.2024  
    Принята к публикации: 29.09.2024 
 
 
Аннотация. В статье рассматривается современное состояние области автоматического извлечения терминов из 
специализированных текстов на естественном языке, включая научно-технические документы. К числу актуальных практических приложений методов и средств извлечения терминов из текстов относятся создание терминологических словарей, тезаурусов и глоссариев предметных областей, а также выявление ключевых слов и построение 
предметных указателей для узкоспециализированных документов. Представлен обзор подходов к автоматическому распознаванию и извлечению терминологических слов и словосочетаний, охватывающих традиционные 
статистические методы, а также методы на основе машинного обучения, включая обучение по признакам терминов 
и с применением современных нейросетевых языковых моделей. Проводится сравнение подходов, в том числе 
оценки качества распознавания и извлечения терминов, указываются наиболее известные программные средства 
для автоматизации извлечения терминов в рамках статистического подхода и обучения по признакам. Описываются исследования, проведенные авторами для распознавания терминов на базе нейросетевых языковых моделей 
применительно к обработке научных текстов по математике и программированию на русском языке. Кратко характеризуется набор данных с терминологической разметкой, созданный для обучения программных моделей распознавания терминов и охватывающий данные семи близких предметных областей. Программные модели разработаны на основе предобученной нейросетевой модели BERT c ее дообучением двумя способами: как бинарного 
классификатора терминов-кандидатов (предварительно извлеченных из текстов) и как классификатора для последовательной разметки терминологических слов в обрабатываемых текстах. Для разработанных моделей экспериментально определены оценки качества распознавания терминов, проведено сравнение со статистическим методом. Лучшие результаты продемонстрировали модели бинарной классификации, существенно превосходя остальные рассмотренные подходы. Проведенные эксперименты показывают применимость обученных моделей и для 
текстов близкой научной области. 
Ключевые слова: автоматическая обработка текстов специализированных областей, терминологические слова  
и словосочетания, автоматическое извлечение терминов, машинное обучение для распознавания терминов, извлечение терминов на базе языковой модели BERT 
 
Введение. Автоматическое извлечение терминов из текстов (Automatical Term Extrac- 
tion, ATE, или Automatical Term Recognition, 
ATR) – одна из традиционных задач в области 
автоматической обработки текстов [1, 2]. Ее актуальность обусловлена стремительным развитием науки и техники и появлением в связи с 
этим новых терминов – слов и словосочетаний, 
обозначающих понятия разных предметных 
областей. Хотя задача ATE изучается более 
трех десятилетий, ее решения не достигают высокого качества, как во многих других задачах 
автоматической обработки текстов. Прежде 
всего это объясняется сложностью и неоднозначностью критерия терминологичности, который относится к области семантики и трудно 
формализуется и применяется на практике  
человеком. 
В то же время терминология специальных 
предметных областей представляет собой важ- 
ный пласт знаний, необходимых при решении 
многих прикладных задач. Методы ATE применяются для автоматизированного построения 
− терминологических словарей, тезаурусов и онтологий предметных областей по коллекциям специализированных текстов [3];  
− глоссариев – перечней терминов с их оп- 
ределениями для проблемно-ориентированных 
областей и узкоспециализированных документов [4, 5];  
− предметных указателей для научно-технических книг и документов [6]. 
Задача ATE также важна для улучшения методов машинного перевода специализированных текстов [7].  
К настоящему моменту известны следующие подходы к автоматическому распознаванию и извлечению терминов: 
− ставший традиционным статистический 
подход, основанный на ранжировании терми- 


Программные продукты и системы / Software & Systems  
 
 
 
 
 
 
 
 
 
 
 
 
 
  38(1), 2025 
 
6 
нов-кандидатов по терминологичности с по- 
мощью статистических мер и применяемый  
в основном для обработки текстовых коллекций [8–10]; 
− подход на основе машинного обучения 
бинарного классификатора термин/нетермин 
(для предварительно выделенных кандида- 
тов) [11, 12], позволяющий выявить наилучшую комбинацию признаков (лингвистических 
и статистических) для распознавания терминов; 
− подход последовательной разметки слов 
текста, при котором на базе машинного обучения строится модель для распознавания терминов прямо в тексте, путем выявления и разметки входящих в термины слов [13];  
− подход с применением современных ней- 
росетевых трансформерных языковых моделей 
(например, BERT [14]) для машинного обучения, при котором вместо набора признаков для 
обучения выступает контекстная информация, 
воплощенная в векторах слов (эмбеддингах) 
применяемой языковой модели [15–18].  
Последний подход применяется либо для 
бинарной классификации термин/нетермин, 
либо для последовательной разметки терминов 
в обрабатываемых текстах. В ряде работ он 
продемонстрировал лучшие результаты решения задачи ATE (предположительно, за счет 
глубокого предобучения применяемых нейро- 
сетевых языковых моделей на больших массивах неразмеченных текстов), однако требует 
дальнейшего исследования, поскольку эксперименты были относительно немногочисленны 
и проводились лишь для некоторых языков 
текста (преимущественно английского). Одна 
из возникающих проблем связана с недостатком отрытых текстовых корпусов с эталонной 
терминологической разметкой, необходимых 
для проведения экспериментов по обучению 
моделей ATE и их оценки. Особенно острая ситуация сложилась для русского языка, работ по 
применению указанного подхода практичес- 
ки нет. 
Отдельной темой для исследований является применимость моделей ATE, обученных 
для текстов определенной предметной области, 
для извлечения терминов в текстах из другой 
области без потери качества, которая обычно 
бывает при машинном обучении на признаках. 
В настоящей работе задача ATE рассматривается применительно к русскому языку в рамках подхода на базе нейросетевых языковых 
моделей. Основная цель – экспериментально 
оценить и сравнить два способа распознавания 
терминов на основе нейросетевой модели BERT:  
− бинарный классификатор для распознавания терминов с использованием контекста  
в виде объемлющего предложения; 
− машинный классификатор, распознающий термины в тексте путем последовательной 
разметки входящих в них слов. 
Обучение классификаторов, их оценка и срав- 
нение проводились на одном и том же размеченном наборе данных, созданном для данной 
задачи из русскоязычных учебно-научных текстов. Набор данных включал термины из нескольких областей математики и программирования, что позволило оценить качество моделей при переходе от одной области к другой  
(от математики к программированию и наоборот). Дополнительно сопоставлялось качество 
извлечения терминов указанными классификаторами (стандартные метрики точности, полно- 
ты, F-меры) и методом статистического подхода. Показано, что подход на базе модели BERT 
как бинарного классификатора термин/нетермин достигает 73 % F1-меры и по качеству распознавания терминов превосходит модель последовательной разметки, а также статистический метод. 
 
Статистический подход  
к извлечению терминов 
 
Традиционные статистические методы  
ATE [8–10] хорошо изучены и основаны на 
предположении, что термины часто встречаются в текстах в определенных грамматических 
формах, для распознавания которых используются статистические и лингвистические свойства (признаки) терминов.  
К лингвистическим признакам в первую 
очередь относятся грамматические образцы 
многословных терминов, например, прилагательное + существительное + существительное 
(спектральный коэффициент излучения) и др. 
Лингвистические свойства могут учитывать 
употребление терминов в определенных контекстах (например, «...будем называть сюръекцией такое отображение...»), а также списки 
стоп-слов − слов и словосочетаний, которые  
не могут быть терминами или входить в них.  
К ним относятся некоторые слова общей лексики (другой, схема и т.п.) и оценочные слова 
(плохой и т.д.).  
Статистические признаки (меры) основаны 
на частотах употребления слов в текстах и оценивают вероятность того, что те или иные 
слова и словосочетания на самом деле будут 
терминами. Одним из наиболее эффективных 


Программные продукты и системы / Software & Systems  
 
 
 
 
 
 
 
 
 
 
 
 
 
  38(1), 2025 
 
7 
критериев этой группы является C-value [19] − 
мера терминологичности для многословных 
терминов, учитывающая частоту словосочетания, число входящих в него слов, частоту вложенных в него словосочетаний и поощряющая 
словосочетания, не входящие в состав других, 
более длинных. 
Общая схема всех статистических методов 
извлечения терминов из текста включает следующие этапы: 
− распознавание слов и словосочетаний по 
заданным грамматическим образцам и контекстам; извлечение из текста распознанных единиц в качестве терминов-кандидатов; 
− ранжирование этих кандидатов по значению выбранной статистической меры с целью 
получения истинных терминов в верхней части 
ранжированного списка; 
− фильтрация (удаление) некоторых терминов-кандидатов с учетом заданного списка 
стоп-слов; 
− извлечение первых K элементов из ранжированного и отфильтрованного списка, которые и считаются терминами. 
Оценка качества извлечения терминов в рам- 
ках рассматриваемого подхода обычно осуществляется с использованием метрик точности и средней точности. Точность равна доле 
истинных терминов среди всех извлеченных 
элементов (Precision@K – точность на K кандидатах), а средняя точность (Average Precision, 
AP) оценивает, насколько истинные термины 
находятся ближе к началу ранжированного 
списка:  
1
( )
=
,
k
i
rel i
Precision@K
k
=
 
1
,
@
( )
n
k
A
Precision
K
rel k
P
R
=

= 
 
где rel(i) = 1, если термин-кандидат под номером 
i действительно является термином, и rel(i) = 0 
в противном случае; R – число истинных терминов среди извлеченных. 
Эффективность статистических методов 
ATE зависит от предметной области обрабатываемых текстов, размера текстовой коллекции 
и параметров метода (в частности, от набора 
грамматических образцов), на практике это 
обычно 30–60 % средней точности. В силу 
своей статистической природы такие методы 
лучше работают для объемных текстов и обыч- 
но применяются для извлечения терминологии 
из коллекций проблемно-ориентированных текс- 
тов, хотя могут быть применимы и для отдельных текстов [20], например, для построения 
глоссариев и предметных указателей [21]. Для 
повышения качества извлечения терминов в рам- 
ках статистического подхода применяются 
сложные эвристические и зависящие от области текстов стратегии фильтрации, например, 
такая стратегия представлена в работе [6], где 
средняя точность извлечения терминов достигала 70 %. Преимущество подхода в том, что 
статистические методы не требуют каких-либо 
размеченных данных. 
В рамках рассмотренного подхода созданы 
программные инструменты, например [22, 23], 
отличающиеся языком программирования  
(в частности, Java в [24], Scala в [25, 26]) и позволяющие задавать параметры реализуемого 
статистического метода – статистические меры, 
набор грамматических образцов, список стопслов, а также вычислять значения выбранных 
мер на заданных текстовых коллекциях. 
 
Машинное обучение на основе  
набора признаков терминов 
 
При этом подходе для задачи ATE применяется традиционное машинное обучение (байесовский метод, логистическая регрессия, метод 
опорных векторов, градиентный бустинг и др.) 
и за счет обучения на размеченных данных 
определяется значимость признаков, по которым выносится решение, является ли слово или 
словосочетание термином [3, 11, 12]. 
Общая схема извлечения терминов из текста включает три этапа. 
1. Формирование набора терминов-кандидатов. Как и в статистическом подходе, оно 
обычно выполняется с помощью грамматических образцов, но в качестве кандидатов могут 
выступать и всевозможные N-граммы слов текста. 
2. Вычисление значений признаков этих 
кандидатов: орфографических (регистр букв, 
наличие небуквенных символов и др.), статистических (статистические меры), лингвистических и контекстных (наличие определенных 
слов в самом кандидате или в его контексте  
и др.). 
3. Обучение (а затем и применение) машинного классификатора для распознавания 
терминов на основе вычисленных признаков.  
К примеру, на этапах 1 и 2 в работе [11] учитывались N-граммы (N от 1 до 5), за исключением стоп-слов, и такие их признаки, как частотность и С-value, а в работе [3] применялись 


Программные продукты и системы / Software & Systems  
 
 
 
 
 
 
 
 
 
 
 
 
 
  38(1), 2025 
 
8 
грамматические образцы и несколько статистических признаков. 
Машинное обучение позволяет выявить оптимальную комбинацию признаков терминов  
и тем самым повысить качество их извлечения. 
Качество традиционно оценивается как точность (доля истинных терминов среди найденных), полнота (доля истинных терминов среди 
всех терминов текста) и F1-мера (среднее значение гармонической полноты и точности). 
Для обучения классификатора необходим 
корпус с терминологической разметкой, что дол- 
гое время составляло проблему из-за малочисленности и отсутствия общепринятых корпусов  
с ручной (эталонной) разметкой. В исследовательских работах последних лет из немногих 
доступных ныне корпусов с ручной размет- 
кой терминов преимущественно используется 
ACTER [27] – недавно созданный мультиязычный корпус, включающий тексты на трех языках (английском, французском, голландском) 
для четырех предметных областей (ветровая 
энергетика, сердечная недостаточность, коррупция, выездка лошадей). Кроме размеченных текстов, корпус содержит списки терминов для каждого языка и каждой области.  
В работе [12] на основе корпуса ACTER 
проведено сравнение статистического метода 
TermoStat (грамматические образцы и статистические меры) с моделью машинного обучения HAMLET. При обучении HAMLET был 
применен метод случайного леса и рассмотрены более 130 различных признаков терминов. 
Для различных комбинаций языков и предметных областей обучены отдельные классификаторы, усредненное значение F1-меры для них 
оказалось в пределах 46.7–54.9 % , что значительно выше, чем полученные 28 % F1-меры, 
продемонстрированной моделью TermoStat. 
Хотя в ряде работ показано, что машинное 
обучение на признаках достигает лучших результатов при извлечении терминов для заданной предметной области, ценность подхода 
ограничена, поскольку качество работы обучен- 
ных классификаторов обычно падает (и даже 
существенно) на текстах из другой области, где 
термины могут иметь другие значимые признаки. Одна из причин связана с тем, что набор 
признаков слабо отражает семантику текста, 
аналогичная причина действует и для статистического подхода. Еще одним слабым местом 
машинного обучения на признаках является 
необходимость ручного (экспертного) подбора 
признаков.  
Распознавание терминов  
на основе языковых моделей 
 
C появлением в практике обработки текстов 
нейросетевых языковых моделей архитектуры 
Transformer, таких как BERT [14], в ряде работ 
по ATE [15–18] было предложено использовать 
для машинного обучения вместо наборов признаков терминов (лингвистических, статистических, контекстных) векторные представления слов из предобученных языковых моделей 
− контекстуализированные эмбеддинги, сохраняющие контекст применения слов. 
В работах [15, 16] предобученные модели 
BERT дообучались как бинарные классификаторы предсказывать для заданной пары из 
предложения и N-граммы из него (рассматриваемой как кандидат в термины), является ли 
N-грамма термином или нет. Дообучение (finetuning) проводилось на размеченных данных по 
аналогии с задачей предсказания следующего 
предложения: если N-грамма являлась термином в контексте предложения, этот пример 
пары являлся положительным, в противном 
случае − отрицательным. При таком подходе 
обучающие данные должны содержать набор 
пар вида <предложение текста + термин-кандидат из него> и термины-кандидаты заранее извлекаются из текста (как и в вышеописанных 
подходах к ATE). 
В статье [15] проведено сравнение дообученных как бинарные классификаторы моделей BERT (RoBERTa для английского языка  
и CamemBERT для французского) с классифика- 
тором на основе метода XGBoost, обученным 
на наборе признаков терминов (лингвистических и статистических). Положительные приме- 
ры обучающего набора были построены с использованием данных корпуса ACTER, тогда 
как отрицательные пары (N-граммы, которые 
не являются терминами) были сгенерированы 
случайным образом. В экспериментах обученная модель XGBoost показала высокую точность распознавания терминов, но низкую полноту, в итоге дав около 27 % F1-меры, в то 
время как модель классификации на основе 
BERT существенно превзошла этот результат, 
показав 48 % F1-меры. 
Отметим, что, хотя описанный подход к бинарной классификации термин/нетермин на 
базе моделей BERT не требует ручного подбора признаков, у него есть существенный недостаток: для получения обучающего набора 
данных необходима генерация пар с участием 
всех возможных N-грамм, что вычислительно 
затратно. 


Программные продукты и системы / Software & Systems  
 
 
 
 
 
 
 
 
 
 
 
 
 
  38(1), 2025 
 
9 
Машинное обучение 
для распознавания терминов  
на основе последовательной разметки 
 
Другой способ распознавания терминов на 
базе нейросетевых языковых моделей, представленный в работах [13, 17], не требует предварительного извлечения кандидатов в термины, вместо этого термины распознаются 
прямо в текстах моделью машинного обучения. Модель обучается на тексте с размеченными терминами и затем выполняет последовательную разметку слов-токенов текста, действуя аналогично таким известным задачам 
разметки последовательностей, как определение части речи слов и распознавание именованных сущностей. Точнее, обучается модель клас- 
сификации, которая для каждого слова-токена 
текста предсказывает, является ли токен частью какого-либо термина или нет. Для этого 
используется разметка токенов BIO или IO  
(B помечает начальное слово термина, I − его 
внутренние слова, O − слова текста, не являющиеся частью никакого термина). Обученный 
классификатор проставляет эти метки словам 
текста, после чего предсказанные метки могут 
быть использованы для извлечения терминов 
из размеченного текста и формирования из них 
списка.  
В работе [13] для обучения классификаторов применялись данные из мультиязычного 
корпуса ACTER, сравнивались несколько методов машинного обучения: часто применяемый для последовательной разметки метод 
CRF (Conditional Random Field), выполняющий 
обучение на признаках, рекуррентные нейронные сети (RNN) с векторными представлениями слов (эмбеддингами) и дообучение модели 
BERT как классификатора токенов. При этом 
рассматривались мультиязычные и одноязычные эмбеддинги моделей BERT для представленных в корпусе языков. Эксперименты показали, что модель RNN с одноязычными эмбеддингами достигает 47−57 % F1-меры для 
распознавания терминов (в зависимости от 
предметной области текстов), превосходя таковые оценки CRF-модели и дообученных моделей BERT. Мультиязычные эмбеддинги могут 
даже улучшить F1-меру до 75 %, если дополнительно к обучающим данным для целевой 
предметной области берутся данные на другом 
языке, но для той же области (однако на практике наборы данных с терминологической разметкой на нескольких языках встречаются 
крайне редко). 
Исследование подхода к ATE на основе последовательной разметки, но для словенского 
языка описано в работе [17], в ней применялись 
несколько моделей семейства BERT и недавно 
созданный размеченный корпус RSDO5 с терминами четырех предметных областей (биомеханика, химия, ветеринария, лингвистика). Были 
реализованы 12 моделей распознавания терминов с обучением на текстах одной области и тестированием на другой, результаты показали 
высокое значение F1-меры − 64−71 % , что доказывает возможность переноса обученных 
моделей с одной области на другую. 
В статье [16] проведено сравнение двух 
подходов на базе нейросетевых языковых моделей: последовательной разметки токенов 
текста и бинарной классификации для предсказания термин/нетермин по парам <предложение + термин-кандидат>. На данных корпуса 
ACTER были проведены эксперименты с кроссязыковым обучением мультиязычной модели 
XML-RoBERTa (семейства BERT), то есть  
с обучением на одном языке и тестированием 
на другом, при этом рассматривались разные 
варианты смены области текста для обучения  
и тестирования. Для разных пар языков и пар 
областей обученный бинарный классифика- 
тор показал невысокие результаты: 40−58 %  
F1-меры, в то время как классификатор для последовательной разметки продемонстрировал 
44−69 %. 
Похожее исследование представлено в [18], 
где также описаны эксперименты в условиях 
смены предметной области текста для обучения и тестирования для текстов и предметных 
областей корпуса ACTER. Однако обученные 
классификаторы BERT как для последовательной разметки, так и для бинарной классификации термин/нетермин показали довольно низкие результаты: в пределах 34−43 % F1-меры  
в зависимости от конкретной пары областей  
и рассматриваемого языка текста. 
Таким образом, в рассмотренных работах  
в области ATE на основе нейросетевых языковых моделей оценки качества распознавания 
терминов обученными моделями отличаются, 
варьируясь в зависимости от языка текстов  
и применяемых для обучения данных, что требует дальнейшего изучения. Тем не менее качество распознавания превосходит таковое для 
статистических методов, а ряд обученных  
моделей показал довольно высокое значение 
F1-меры распознавания терминов. Для русского языка подобные модели бинарной клас-