Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Прикладная информатика, 2015, том 10, № 4 (58)

Покупка
Основная коллекция
Артикул: 660655.0001.99
Прикладная информатика, 2015, Том 10, № 4 (58) / Прикладная информатика, Том 10, № 4 (58), 2015. - Текст : электронный. - URL: https://znanium.com/catalog/product/896185 (дата обращения: 30.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
С 19 февраля 2010 года журнал включен в Перечень ведущих периодических изданий, 
рекомендованных ВАК для публикации результатов диссертационных исследований.

Том 10. №4 (58). 2015 
Июль–август

Московский финансово-промышленный университет «Синергия»

Главный редактор

Емельянов А. А., докт. экон. н., проф., Национальный исследовательский университет «МЭИ»; Национальное общество имитационного моделирования, 
Санкт-Петербург

Сопредседатели редакционного 
совета

Рубин Ю. Б., докт. экон. н., проф., чл.-корр. РАО, 
ректор МФПУ «Синергия», зав. кафедрой Теории 
и практики конкуренции

Мешалкин В. П., докт. техн. н., проф., чл.-корр. РАН, 
директор Института логистики ресурсосбережения 
и технологической инноватики, РХТУ им. Д. И. Менделеева

Члены редакционного совета

Брекис Эдгарс, докт. экон. н., oec., ассоциированный 
проф., зав. кафедрой Эконометрики и бизнес-информатики, Латвийский Университет, Рига, Латвия

Волкова В. Н., докт. экон. н., проф., кафедра Системного анализа и управления Института информационных технологий и управления, СПбГПУ

Дик В. В., докт. экон. н., проф., зав. кафедрой Информационного менеджмента и электронной коммерции 
МФПУ «Синергия»

Дли М. И., докт. техн. н., проф., зав. кафедрой МИТЭ, 
зам. директора Филиала НИУ «МЭИ» в Смоленске

Козлов В. Н., докт. техн. н., проф., зав. кафедрой 
Системного анализа и управления Института информационных технологий и управления, СПбГПУ

Сухомлин В. А., докт. техн. н., проф., зав. лабораторией Открытых информационных технологий, факультет ВМК, МГУ им. М. В. Ломоносова

Халин В. Г., докт. экон. н., проф., зав. кафедрой 
Информационных систем в экономике, Экономический факультет СПбГУ

Шориков А. Ф., докт. физ.-мат.н., проф., кафедра 
Прикладной математики УралЭНИН, Уральский Федеральный Университет им. Первого Президента 
России Б. Н. Ельцина

Штельцер Дирк, докт. техн. н., rer. pol. habil., проф., 
Глава Департамента информации и управления знаниями, Технологический Университет Ильменау, Тюрингия, Германия

Заместители главного редактора

Власова Е. А., научная редакция МФПУ «Синергия»

Прокимнов Н. Н., канд. техн. н., доцент, кафедра 
Информационных систем, МФПУ «Синергия»

Редакционный совет

Журнал выходит с 2006 г. Периодичность издания — 6 раз в год. 

Журнал индексируется в российских и зарубежных базах научной периодики 
eLIBRARY (РИНЦ), ВИНИТИ, Ulrich’s Periodicals Directory

Учредитель и издатель: Московский финансово-промышленный университет «Синергия»

Адрес редакции и издателя:
129090, Москва, ул. Мещанская, д. 9/14, стр.1 (юрид.)
125190, Москва, Ленинградский просп., д. 80, корп. Г, офис 612 (4)
Тел.: (495) 663-93-88 (доб.1839)

e-mail: edit@s-university.ru; www.appliedinformatics.ru

© Московский финансово-промышленный университет «Синергия»

Editor-in-Chief

А. Emelyanov, Dr of Economics, Professor, National Research University MPEI; Executive board member of NC 
«National Society for Simulation Modelling», St. Petersburg

Co-Chairs of the Editorial Board

Yu. Rubin, Dr of Economics, Professor, Corresponding Member of the Russian Education Academy, Head 
of the Theory and Practice of Competition Chair, Rector 
of the Moscow University for Industry and Finance 
«Synergy»

V. Meshalkin, Dr of Technique, Professor, Corresponding Member of Russian Academy of Sciences (RAS), 
Director of the Institute of Logistics and Resource Technology Innovation, D. Mendeleyev University of Chemical 
Technology of Russia, Moscow

Members of the Editorial Board

Edgars Brēķis, Dr. oec., Assoc. professor, Head of The 
Econometrics and Business Informatics Chair, Faculty of 
Economics and Management, Rīga, University of Latvia

V. Dick, Dr of Economics, Professor, Head of The Information Management and Electronic Commerce Chair, 
Moscow University for Industry and Finance «Synergy»

M. Dli, Dr of Technique, Professor, Head of The MITE 
Chair, Deputy Director of the National Research University MPEI Branch in Smolensk

V. Hulin, Dr of Economics, Professor, Head of The Economic Information Systems Department, St. Petersburg 
State University

V. Kozlov, Dr of Technique, Professor, Head of System 
analysis and management Chair, Institute of Information 
technologies and management, St. Petersburg State 
Polytechnical University

A. Shorikov, Dr. of Physics & Mathematics, Professor of 
The Applied Mathematics Chair, Ural Power Institute of 
El’cin Ural Federal University (Ekaterinburg)

V. Sukhomlin, Dr of Technique, Professor, Faculty of 
Computational Mathematics and Cybernetics, Lomonosov Moscow State University

Dirk Stelzer, Dr., rer. pol. habil., Professor, Head of The 
Information and Knowledge Management Department of 
Ilmenau University of Technology (TU Ilmenau), Germany

V. Volkova, Dr of Economics, Professor, System analysis 
and management Chair, Institute of Information technologies and management, St. Petersburg State Polytechnical University

Deputy Chief Editors

E. Vlasova, Scientific Edition Department, Moscow University for Industry and Finance «Synergy»

N. Prokimnov, PhD in Technique, Associate Professor, 
the Information Systems Chair, Moscow University for Industry and Finance «Synergy»

Peer-reviewed scientific journal 

Vol.10. No.4 (58). 2015 
July – August

Moscow University for Industry and Finance «Synergy»

EDITORIAL BOARD

Published since 2006. Periodicity: six times a year.

The journal is included into the Russian and international scientific databases:  
eLIBRARY (Russian Science Citation Index), VINITI (Russian Academy of Sciences),  
Ulrich’s Periodicals Directory

Publisher: Moscow University for Industry and Finance «Synergy»

Publisher address: 9/14 s.1, Meshchanskaya str., Moscow, 129090, Russia

Editorial Office address: 80G, Leningradskiy Avenue, Moscow, 125190, Russia

Tel: +7 (495) 663-93-88 (ext.1839) 

e-mail: edit@s-university.ru; www.appliedinformatics.ru

© Moscow University for Industry and Finance «Synergy»

ПРИКЛАДНАЯ ИНФОРМАТИКА / JOURNAL OF APPLIED INFORMATICS

Читайте в номере

Том 10. № 4(58). 2015

* Спонсор рубрики — компания «Доктор Веб», российский производитель антивирусных 
средств защиты информации под маркой Dr.Web.      

IT-бизнес

Анализ рынка

В. А. Яцко
Система автоматического анализа  
мнений покупателей  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  5

Информационные системы бизнеса

А. И. Волков
Интеграция хранилищ данных  
с открытыми и большими данными  
для решения задач финансовой организации: 
проблемы и подходы к решению  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .18

IT-менеджмент

Управление эффективностью

О. А. Смирнов, С. В. Харитонов
Формирование информационной  
системы управления знаниями  
в государственном регулировании  
развития аэропортовой сети  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .42

IT и образование

Образовательное пространство

В. М. Белый, А. Ю. Майданов
Информатизация Технологического университета  .  .50

Инструментальные средства*

Информационная безопасность

А. А. Гавришев, В. А. Бурмистров, Д. Л. Осипов
Оценка защищенности беспроводной сигнализации  
от несанкционированного доступа на основе  
понятий нечеткой логики  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .62

Лаборатория

Модели и методики

П. П. Олейник
Унифицированная метамодель  
объектной системы  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .70

И. Г. Фёдоров 
Адаптация онтологии Бунге–Ванда–Вебера  
к описанию исполняемых моделей  
бизнес-процессов  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .82

Исследование процессов и систем

В. А. Шакиров, А. Ю. Артемьев
Оценка ветроэнергетического потенциала  
района средствами компьютерного  
моделирования  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .93

Математические и инструментальные 
методы экономики

И. Ю. Выгодчикова
Алгоритм оценки параметров  
линейной множественной модели регрессии 
по минимаксному критерию .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .105

Системы поддержки принятия решений

А. И. Ажмухамедов
Управление антропогенными элементами 
в социотехнических системах (часть 2)  .  .  .  .  .  .  .  .  .  .117

Точка зрения

Искусственный интеллект

Л. С. Болотова, А. Н. Данчул, А. П. Новиков,  
М. А. Сурхаев, А. А. Никишина
Первичная идентификация 
в технологии информационного поиска (часть 1) .  .128

Contents

ПРИКЛАДНАЯ ИНФОРМАТИКА / JOURNAL OF APPLIED INFORMATICS
Vol.10. No.4(58). 2015

* Sponsor of the section Doctor Web Ltd, the Russian developer of Dr.Web anti-virus software

IT business

Market analysis

V. Yatsko
A system for automatic  
customers’ opinion mining  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .5

Business information systems

A. Volkov
Integration of data warehouses with open  
and big data for solving problems of financial 
institutions: problems and approaches to solving .  .  .  .  .18

IT management

Performance management

O. Smirnov, S. Kharitonov
System management formation  
in government regulation of airport network  
development  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .42

IT and education

Educational environment

V. Belyi, A. Mayidanov
Informatization of University of Technology  .  .  .  .  .  .  .  .  .50

Tools*

Information security

A. Gavrishev, V. Burmistrov, D. Osipov
Assessment the security of wireless alarm  
from unauthorized access based  
on the concepts of fuzzy logic .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .62

Laboratory

Models and methods

P. Oleynik
Unified object system metamodel  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .70

I. Fiodorov
Adaptation of Bunge-Wand-Weber ontology  
for business process modeling .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .82

Researching of processes and systems

V. Shakirov, A. Artemyev
Computer simulation in solving the problem  
of estimating the wind power potential  
of the region  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .93

Mathematical tools

I. Vygodchikova
Estimating the parameters  
of a multiple linear regression  
model according to the minimax criterion .  .  .  .  .  .  .  .  .  .105

Decision support systems

A. Azhmuhamedov
Managing human-made elements  
in social engineering systems (part 2)  .  .  .  .  .  .  .  .  .  .  .  .117

Point of view

Artificial intellect

L. Bolotova, A. Danchul, A. Novikov,  
M. Surkhaev, A. Nikishina
Initial identification in technology  
of informational search (part 1)  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .  .128

ПРИКЛАДНАЯ ИНФОРМАТИКА / JOURNAL OF APPLIED INFORMATICS

IT-бизнес 
Анализ рынка

Том 10. № 4(58). 2015

введение
Р

азвитие интернет-торговли в последнее десятилетие обусловило появление многочисленных социальных 
сетей, где публикуется информация о характеристиках коммерческих продуктов, 
а также отзывы покупателей о различных 
товарах. Например, Яндекс. Маркет1 содержит информацию о почти 63424598 товарах 
и 16008 магазинах, предоставляя покупателям возможность оставлять отзывы о товарах и магазинах, участвовать в обсуждении 
товаров и самого Яндекс. Маркета на форумах. Существуют и сети, специализирующиеся на одном виде товаров, например 
Автомаркет2 и Mobile-review3.
Информация, содержащая мнения покупателей о продуктах, по-разному представлена в разных социальных сетях. На Автомаркете данная информация структурирована в виде блога: пользователи обсужда
1
http://market.yandex.ru

2
http://avtomarket.ru/opinions

3
http://www.mobile-review.com

ют отзыв, и автор отзыва может участвовать 
в обсуждении. На Яндекс. Маркете информация содержится в отзывах покупателей 
и форумах, а на Mobile-review — в обзорах 
и форумах. Информация на таких интернетсайтах часто имеет определяющее значение 
для выбора покупателем того или иного товара. Вместе с тем мнения покупателей о товарах представляют интерес и для фирмпроизводителей. Анализ мнений пользователей позволяет выявить наиболее типичные 
недостатки или достоинства товаров, что 
оказывает существенное влияние на маркетинговую политику и рекламные кампании фирм-производителей, принятие решений о продвижении тех или иных продуктов.
В последнее десятилетие активно разрабатываются системы автоматического анализа мнений покупателей о продуктах и товарах, содержащиеся в блогах, 
форумах, обзорах и чатах. Такие системы, 
как Sentiment Metrics4, Nielsen NetRatings5, 

4
http://www.sentimentmetrics.com

5
http://en-us.nielsen.com/tab/product_families/nielsen_
netratings

В. А. Яцко, докт. филол. наук, профессор, Хакасский государственный университет им. Н. Ф. Катанова,  
г. Абакан, viatcheslav-yatsko@rambler.ru

система автоматического анализа  
мнений покупателей

Рассматриваются основные этапы создания и структура лингвистической онтологии и грамматики, предназначенных для системы автоматического анализа мнений покупателей 
о коммерческих продуктах . Онтология включает синтаксические и семантические термины, 
их подкатегории, группы и классы и позволяет вычислять весовые коэффициенты оценочных терминов, соотносящихся с именем коммерческого продукта, указанным в запросе 
пользователя . С помощью правил грамматики термины онтологии соотносятся с именами 
продуктов . На выходе системы — обобщенные коэффициенты, отражающие интенсивность 
положительных и отрицательных оценок продукта, а также конкретные оценочные термины 
с указанием их коэффициентов .

Ключевые слова: автоматический анализ мнений покупателей, онтология, линейная грамматика, оценка качества, коммерческий продукт .

IT-бизнес Анализ рынка
IT business   Market analysis

IT business
Market analysis

ПРИКЛАДНАЯ ИНФОРМАТИКА / JOURNAL OF APPLIED INFORMATICS
Vol.10. No.4(58). 2015

Biz3606, в результате анализа текста входного веб-документа/документов на выходе выдают пользователю список объектов (имен 
продуктов) и оценочных терминов, соотносящихся с каждым объектом, с приписанными коэффициентами интенсивности оценки.
Кроме того, обычно выдаются: 1) обобщенный коэффициент положительных оценок, извлеченных из данного текста; 2) 
обобщенный коэффициент отрицательных 
оценок; 3) обобщенный коэффициент для 
данного текста / группы текстов в целом; 4) 
оценки конкретного продукта, указанного 
в запросе пользователя. Пользователь также имеет возможность отследить динамику мнений о продукте (продуктах) в течение 
определенного периода времени. Некоторые системы предлагают в качестве дополнительного сервиса отслеживание новостей и уведомление по электронной почте 
об упоминании продукта. Кроме того, в настоящее время проводятся исследования, 
направленные на распознавание в тексте 
дополнительной демографической информации о пользователях (пол, возраст, уровень образования), что позволяет устанавливать распределение оценок и мнений 
по категориям пользователей/покупателей 
и соответственно ориентировать продажи 
данного продукта.
В основе функционирования систем этого типа лежит словарь оценочных терминов 
(subjectivity terms) с приписанными весовыми коэффициентами, выражающими интенсивность оценки, который является основным компонентом лингвистической онтологии. В Интернете размещено достаточно 
много списков оценочных английских терминов (см., например, General Inquirer7, MPQA 
Opinion Corpus8). Для английского языка 
разработано также программное обеспечение, позволяющее распознавать во входном тексте оценочные термины и автома
6
http://www.biz360.com

7
http://www.wjh.harvard.edu/~inquirer/homecat. htm

8
http://www.cs.pitt.edu/mpqa

тически начислять весовые коэффициенты 
(см.: OpinionFinder9, SentiWordNet10).
Функционирование систем автоматического анализа мнений покупателей основано на двух группах последовательно выполняемых алгоритмов: алгоритмах распознавания оценочных терминов и алгоритмах 
соотнесения найденных оценочных терминов с терминами, обозначающими объекты (товары, продукты), которые оцениваются. Первая группа алгоритмов выполняется 
на основе онтологии, вторая — на основе 
грамматики.
Ниже будут рассмотрены основные этапы создания и структура лингвистической 
онтологии и грамматики, разработанной нами для системы автоматического анализа 
мнений покупателей о коммерческих продуктах. Система разрабатывалась по заказу зарубежной фирмы, сформулировавшей 
следующие требования. На входе: 1) текст 
на английском языке, содержащий мнения 
покупателей; 2) запрос с именем продукта/
товара. На выходе: 1) обобщенный коэффициент отрицательных оценок продукта, 
указанного в запросе; 2) обобщенный коэффициент положительных оценок продукта, 
указанного в запросе; 3) конкретные оценочные термины (слова и словосочетания) 
с коэффициентами, приписанными каждому термину.

Лингвистическая онтология

Онтологией называется система понятий некоторой предметной области, которая представляется как набор сущностей, 
соединенных различными отношениями 
[1, с. 3]. В [2] было введено понятие лингвистической онтологии, главной характеристикой которой является то, что понятия онтологии связаны со значениями языковых терминов [2, с. 2]. В этой же работе рассматриваются этапы разработки онтологии.

9
http://www.cs.pitt.edu/mpqa/opinionfinderrelease

10 http://sentiwordnet.isti.cnr.it

ПРИКЛАДНАЯ ИНФОРМАТИКА / JOURNAL OF APPLIED INFORMATICS

IT-бизнес 
Анализ рынка

Том 10. № 4(58). 2015

1. Создание корпуса текстов, принадлежащего предметной области, для которой 
создается онтология.
2. Извлечение из корпуса значимых для 
данной предметной области слов и словосочетаний.
3. Анализ словаря и корпуса экспертами 
для определения понятийно-терминологической структуры онтологии, таксономических 
отношений и отношений онтологической зависимости.
В нашем проекте эксперт принимал участие во всех этапах создания онтологии.
1. Вначале экспертом была определена 
общая структура онтологии на основе изучения имеющейся литературы.
2. Из Интернета были загружены имеющиеся в свободном доступе списки оценочных терминов, изученных экспертом. Была 
уточнена структура онтологии.
3. Экспертом вручную были составлены 
примерные шкалы оценочных терминов, относящихся к разным частям речи, с приписанными положительными или отрицательными весовыми коэффициентами, отражающими интенсивность положительной или 
отрицательной оценки. Очевидно, что интенсивность оценки, выражаемой глаголом 
dislike (коэффициент –1), существенно ниже, чем интенсивность оценки, выражаемой 
глаголом hate (коэффициент –6).
4. К словам в шкалах были автоматически (с помощью специально разработанного программного обеспечения) добавлены 
синонимы из тезауруса WordNet и из списков, найденных в Интернете. В результате были получены списки, включающие 
26852 термина.
5. Эти списки были вручную отредактированы экспертом, исключившим термины, не выражающие оценочной информации, а также термины, выражающие оценки одушевленных объектов. Поскольку 
в задачи проекта входило распознавание 
оценок коммерческих продуктов, из списков были исключены термины, выражающие оценку человеческих качеств: ср., например, a courageous person и a courageous 

telephone. В результате в онтологии осталось 16723 термина, причем большинство 
весовых коэффициентов были изменены 
экспертом. Шкала интенсивности оценок 
изменялась от 1 до 9; было также проведено аннотирование тегами частей речи для 
того, чтобы разграничить омонимичные оценочные термины, относящиеся к разным частям речи и выражающие различные оценки. Аннотирование тегами частей речи также лежало в основе грамматики. Для входного текста выполнялся морфологический 
анализ (стемминг) с целью отождествления 
слов с одной основой. В табл. 1 приводится 
выборка оценочных терминов с коэффициентами, указывающими на интенсивность 
оценки.
Разработанная нами онтология включает две категории: семантические термины 
и синтаксические термины. К семантическим относятся термины, выражающие отрицательную или положительную семантику, 
к синтаксическим — термины, которые сами по себе не имеют оценочного значения, 
но могут изменять интенсивность оценки, 
выражаемой семантическими терминами. 
Соответственно, отношение между синтаксическими и семантическими терминами мы 
рассматриваем как бинарное, выделяя подкатегории с симметричным, асимметричным 
и обратным отношениями между ними.
Симметричное отношение реализуется 
следующими группами синтаксических терминов.

• Термины, увеличивающие интенсивность как положительной, так и отрицательной оценки. Ср.: very good и very bad. 
В данных фразах синтаксический термин 
very увеличивает интенсивность как положительной, так и отрицательной оценки, выражаемой семантическими терминами good 
и bad.

• Термины, снижающие интенсивность 
как положительной, так и отрицательной 
оценки. Ср.: almost perfect и almost worthless. 
В данных фразах синтаксический термин 
almost снижает интенсивность как положительной, так и отрицательной оценки, выра
IT business
Market analysis

ПРИКЛАДНАЯ ИНФОРМАТИКА / JOURNAL OF APPLIED INFORMATICS
Vol.10. No.4(58). 2015

жаемой семантическими терминами perfect 
и worthless.
Асимметричное отношение реализуется 
следующими группами синтаксических терминов:

• термины, усиливающие интенсивность 
отрицательной оценки и снижающие интенсивность положительной оценки. Ср.: too 
expensive и too modern. В данных фразах 
синтаксический термин too снижает интен
сивность положительной оценки, выражаемой семантическим термином modern, и усиливает интенсивность отрицательной оценки, выражаемой семантическим термином 
expensive;

• термины, усиливающие интенсивность 
положительной оценки и снижающие интенсивность отрицательной оценки. В процессе 
выполнения проекта не найдено примеров 
таких терминов, однако можно предполо
Таблица 1. Выборка оценочных терминов

Table 1. Sample subjectivity terms

Часть речи
Положительные 
термины
Оценочный 
коэффициент
Отрицательные 
термины
Оценочный 
коэффициент

Прилагательное
divine
9
flagrant
–9

gorgeous
8
futureless
–8

excellent
7
helpless
–7

flawless
6
incompetent
–6

glamorous
5
inconsistent
–5

graceful
4
listless
–4

helpful
3
lopsided
–3

hermetic
2
ludicrous
–2

individualized
1
maladaptive
–1

Существительное
delight
9
shit
–9

paragon
8
filth
–8

charm
7
ruffian
–7

rapture
6
rancor
–6

prize
5
poverty
–5

liking
4
outrage
–4

keepsake
3
obloquy
–3

support
2
nuisance
–2

backup
1
misalignment
–1

Глагол
adore
9
abhor
–9

admire
8
dilute
–8

marvel
7
fake
–7

enjoy
6
hate
–6

dignify
5
humiliate
–5

crave
4
irritate
–4

compensate
3
leer
–3

create
2
lose
–2

conform
1
meddle
–1

ПРИКЛАДНАЯ ИНФОРМАТИКА / JOURNAL OF APPLIED INFORMATICS

IT-бизнес 
Анализ рынка

Том 10. № 4(58). 2015

жить, что они обнаружатся в процессе дальнейших исследований или локализации для 
других языков.
Обратное отношение реализуется терминами, изменяющими оценочное значение 
семантического термина на противоположное: отрицательное значение — на положительное, а положительное — на отрицательное. Ср.: not good и not bad. В данных 
фразах синтаксический термин not меняет положительную семантику термина good 
на отрицательную, а отрицательную семантику термина bad — на положительную. Заметим, что not bad не равно good, а not good 
не равно bad: в обоих случаях имеет место 
снижение интенсивности оценочной семантики по сравнению с опорными терминами, 
что требует разработки специальных правил начисления весовых коэффициентов.
Следует подчеркнуть, что синтаксические термины учитывались только в том 
случае, если они встречались в одной клаузе с семантическими терминами, т.е. просматривались все клаузы исходного текста 
и выявлялись клаузы, содержащие семантические термины. Далее в этих же клаузах 
проводился поиск синтаксических терминов. Если они находились, то словосочетаниям с семантическими и синтаксическими 
терминами начислялся весовой коэффициент по сумме коэффициентов синтаксического и семантического терминов. Например, весовой коэффициент словосочетания 
too lopsided = (–2) + (–3) = –5, где –2 — коэффициент синтаксического термина too, 
–3 — весовой коэффициент семантического термина lopsided.
В некоторых случаях учитывалась совместная встречаемость синтаксического 
и семантического терминов не в рамках клаузы, а в определенном словосочетании. Например, синтаксический термин only учитывался только в составе конструкции с последующим числительным и семантическим 
термином, ср.: only one fault. Этот термин 
не учитывался, если он занимал позицию 
в одной клаузе с семантическим термином, 
но другой конструкции.

В качестве отдельного вида автором 
были выделены синтаксические термины 
с нулевым коэффициентом. Учитывалась 
совместная встречаемость этих терминов 
и семантических, но синтаксические термины с нулевым эффектом никак не влияли на коэффициент семантического термина. Смысл выделения этих терминов состоит 
в том, чтобы выводить их в результат в составе одной фразы с семантическим термином. Например, в тексте Nokia N95 is a nice 
device более адекватно распознать в качестве оценочного термина не отдельное слово nice, а словосочетание nice device, где 
device — синтаксический термин с нулевым 
коэффициентом. Заметим, что device — гипероним по отношению к имени оцениваемого объекта Nokia N95. В список синтаксических терминов с нулевым коэффициентом входят гипонимы и гиперонимы имен 
объектов.
Категория семантических терминов 
включает две подкатегории: термины с отрицательным значением и термины с положительным значением. Коэффициенты 
обеих подкатегорий изменяются от 1 до 9. 
В каждой из подкатегорий выделяются группы посессивных маркеров с положительным 
и отрицательным значением. Посессивными 
маркерами называют лексические единицы, 
указывающие на сознательное намерение 
приобрести (например, buy) или, наоборот, 
продать, избавиться от коммерческого продукта (sell, get rid of). В первом случае имеет 
место положительная, а во втором отрицательная оценка продукта. Выделение посессивных маркеров в отдельную группу объясняется тем, что они могут использоваться 
для поддержки функции отслеживания верности продукту (product loyalty).
Кроме того, несколько групп синтаксических терминов соотносились только с посессивными маркерами и не использовались с другими терминами онтологии. К ним 
относятся неопределенные, отрицательные 
местоимения, модальные, ментальные глаголы, модальные фразы, выражающие пожелание, рекомендацию. Для каждой из этих 

IT business
Market analysis

ПРИКЛАДНАЯ ИНФОРМАТИКА / JOURNAL OF APPLIED INFORMATICS
Vol.10. No.4(58). 2015

групп были разработаны специальные правила начисления весовых коэффициентов. Например, использование recommend/
should/ought в одной клаузе с посессивным термином повышает его коэффициент 
на 3 пункта (You should buy this laptop). Группа ментальных глаголов включает три класса глаголов, выражающих модусы: предположения, полагания, знания. Их позиция 
в клаузе, предшествующей клаузе с посессивным маркером, повышает его коэффициент на 1, 2, 3 пункта соответственно, ср.: 
I suppose/believe/am sure I’ll buy this laptop.
В качестве терминальных компонентов 
онтологии выступают экземпляры — кон-
кретные слова или словосочетания.
Для отождествления словоформ с одной 
семантикой авторами был проведен стемминг. Использовалась модифицированная 
версия стеммера, разработанного Д. Пейсом и Г. Хаском (Paice/Husk stemmer) [3] 
для отождествления терминов онтологии 
и терминов входного текста, различающихся по форме, но совпадающих по значению. 
Данный стемммер достаточно адекватно выделяет основы слов, однако не отождествляет формы неправильных глаголов, что 
для данного проекта было необходимо, ср. 
buy, buys, buying, bought. В этой связи авторы интегрировали в стемммер «списки 
неправильных глаголов», а также «списки 
существительных и местоимений, образующих множественное число не по правилам» (man — men, themselves — themselves 
и т.п.). Алгоритм стемминга был дополнен 
правилами отождествления форм глаголов 
по форме инфинитива.
Однако в ходе выполнения проекта были 
выявлены случаи, когда значение некоторых 
словоформ отличалось от значения однокоренных слов. Типичный пример — глагол try 
и прилагательное trying, совпадающее с отглагольным причастием. Глагол и производные формы используются как синтаксические термины с посессивными маркерами 
и могут выражать как положительное, так 
и отрицательное значение, ср.: I’ll try to get 
this laptop и I’ll try to sell this laptop. Прилага
тельное же выражает однозначно отрицательную семантику, ср.: trying to the health. 
В этой связи в онтологии специальными тегами были обозначены словоформы, по отношению к которым морфологический анализ не проводился, а для омонимичных 
форм разработаны специальные правила.
Обобщенная структура онтологии представлена на рис. 1.

Грамматика

Основная функция грамматики — связать термины онтологии с именами оцениваемых продуктов. Разработанная нами 
грамматика включала четыре группы правил: правила распознавания клауз; правила 
соотнесения оценочных терминов с именами продуктов; правила разрешения анафоры, которые выполнялись для местоимений 
one, it, they; правила генерации выходных 
словосочетаний. Центральную роль играли правила распознавания клауз, поскольку 
разрешение анафоры и соотнесение оценочных терминов с именами продуктов выполнялось на основе учета позиции терминов в составе клауз.
Под клаузой понималась элементарная 
предикативная структура, формальным признаком которой для утвердительных и отрицательных предложений является последовательность NP VP, а для повелительных 
предложений — последовательность VP NP, 
где NP — именное словосочетание, а VP — 
глагольное словосочетание. Вопросительные предложения не рассматривались, поскольку данный тип предложений, как правило, не информативен и выражает запрос 
на получение информации. Распознавание 
словосочетаний проводилось на основе тегов частей речи, которыми автоматически 
аннотировались слова входного текста. 
В табл. 2 приводятся возможные варианты 
структуры именных словосочетаний.
Поскольку структура именных словосочетаний достаточно разнообразна, для ее 
распознавания были разработаны оптимизирующие правила.

ПРИКЛАДНАЯ ИНФОРМАТИКА / JOURNAL OF APPLIED INFORMATICS

IT-бизнес 
Анализ рынка

Том 10. № 4(58). 2015

1. Правило подстановки именного компонента (теги NN, NNS, PN). В соответствии 
с эти правилом структура с одним именным 
компонентом, указанная в табл. 2, является 
действительной и для других именных компонентов. Например, структура PN POS NN 
предполагает, что могут также существовать структуры PN POS NNS, NNS POS NNS, 
NN POS NN, PN POS PN.
2. Правило расширения однородными 
членами. В соответствии с этим правилом 
количество повторов одного и того же тега 
не ограничивается. Наряду со структурой 
Det Det NNS, указанной в табл. 2, могут существовать структуры Det Det NNS NNS, Det 
Det Det NNS NNS, Det Det Det NNS NNS NNS.
Структура глагольных словосочетаний 
определялась по следующим правилам: 1) 
началом глагольного словосочетания явля
ются токены с тегами VBP (present simple 
verb), либо VBZ («s» present simple verb), либо VBD (past simple verb), либо VBM (modal 
verb); 2) концом глагольного словосочетания могут быть токены с тегами VBI (infinitive 
verb), либо VBN, либо VBG; 3) мeжду токеном, с которого начинается словосочетание, 
и токеном, которым оно заканчивается, может располагаться (в любой позиции) токен 
с тегом TO (particle), либо один или более 
идущих подряд токенов с тегом AV (general 
adverb). Этим тегом также обозначалась частица NOT, что позволяло распознавать отрицательные предложения.
Примеры глагольных словосочетаний, 
которые могут распознаваться по этим правилам, даны в табл. 3.
Можно отметить следующие особенности разработанной грамматики. В соот
Категории

Подкатегории

Группы

Экземпляры

Экземпляры

Экземпляры

Синтаксические термины

Бинарные 
термины
Нулевые
Для посессивных маркеров
Отрицательные

Симметр.
Асимм.
Обратные.
Отрицательные 
местоимения
Модальные 
глаголы

Глаголы знания
Полагания
Допущения

Ментальные 
глаголы
Посессивные маркеры

Положительные

Семантические термины

Подкатегории

Группы
Группы

Классы

Рис. 1. Структура лингвистической онтологии

Fig. 1. The ontology structure

IT business
Market analysis

ПРИКЛАДНАЯ ИНФОРМАТИКА / JOURNAL OF APPLIED INFORMATICS
Vol.10. No.4(58). 2015

ветствии с целью проекта распознавались 
только глагольные и именные словосочетания на основе линейной последовательности тегов частей речи. Адъективные, предложные, адвербиальные словосочетания 
не выделялись в качестве отдельных видов 

фраз и включались либо в именное, либо 
в глагольное словосочетание. Неличные 
формы глагола (причастия и инфинитивы) 
могут входить как в состав NP, так и VP в зависимости от их позиции. В составе глагольной фразы они всегда используются после 

Таблица 2. Структура именных словосочетаний

Table 2. The structure of noun phrases

Структура NP
Значение тегов
Пример

NNS
Plural noun
Fruits

PNP
Personal pronoun
I/they/we

PN
Proper noun
John

NN NN
NN = singular noun
Stone wall

Det N
Det = {articles, demonstrative and 
indefinite pronouns} 
My/his/John’s car

Det Det NNS
All the cars

Det PNS NNS
PNS = possessive pronoun
All our cars

Det NN NN
A stone wall

AJ NNS
AJ = adjective
Nice cars

AJ AJ NNS
Nice, speedy cars

AJ AJ CC AJ NNS
CC = coordinating conjunction
Nice, speedy, and spacious cars

AV AJ NNS
AV = adverb
Very badly broken cars

AV AV AJ NNS
Very badly broken cars

Det AJ NN
A nice car

Det AV AJ NN
A broken car

PN NNS
Mercedes cars

PN PN NNS
Mercedes Benz cars

Det PN NN
A Mercedes car

PN CC PN
Nokia and Sony

PN CC PN NNS
Nokia and Sony corporations

PN POS NN
POS = Possessive marker
Mary’s car

PN CC PN POS NN
John and Mary’s car

NN PRP CRD NNS
PRP = preposition

CRD = cardinal numeral

Distance of 70 miles

PN CRD NN
Mercedes 600 car

NNS VBN PRP NNS
VBN = past participle verb
Cars broken to pieces

Det NN VBN PRP N
The car broken to pieces

Det NNS VBG AV
VBG = gerund verb
The cars driving there

Det NN TO VBI
TO = particle

VBI = infinitive verb

The work to do

Det NN TO VBI AV
The work to do tomorrow