Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Введение в интеллектуальный анализ данных

Покупка
Артикул: 761279.01.99
Доступ онлайн
250 ₽
В корзину
В работе рассматриваются вопросы, связанные с набирающей популярность областью интеллектуального анализа данных (англ. Data Mining). Изучаются основные технологические тренды, сопровождающие Data Mining, вопросы терминологии. Рассматриваются основные методы и инструменты Data Mining, связанные с высокопроизводительной интеллектуальной аналитической обработкой данных, направленной на то, чтобы оперативно извлекать из значительных массивов накопленных и поступающих данных ценные экспертные знания, поддерживая эффективную управленческую деятельность. Для студентов университетов и втузов.
Замятин, А. В. Введение в интеллектуальный анализ данных : учебное пособие / А. В. Замятин. - Томск : Издательство Томского государственного университета, 2016. - 120 с. - ISBN 978-5-94621-531-2. - Текст : электронный. - URL: https://znanium.com/catalog/product/1663560 (дата обращения: 22.11.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
МИНИСТЕРСТВО ОБРАЗОВАНИЯ  
И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ  
НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ  
ТОМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ 
 
 
 
 
 
 
 
 
 
А.В. Замятин 
 
ВВЕДЕНИЕ  
В ИНТЕЛЛЕКТУАЛЬНЫЙ  
АНАЛИЗ ДАННЫХ 
 
Учебное пособие 
 
 
 
 
 
 
 
 
 
 
 
 
Томск  
Издательский Дом Томского государственного университета 
2016 
 

УДК 519.254 
ББК 32.81 
         З269 
 
 
Замятин А.В. 
З269 
Введение в интеллектуальный анализ данных : учеб. пособие. –  
Томск : Издательский Дом Томского государственного  
университета, 2016. – 120 с. 
 
ISBN 978-5-94621-531-2 
 
В работе рассматриваются вопросы, связанные с набирающей популярность областью интеллектуального анализа данных (англ. Data 
Mining). Изучаются основные технологические тренды, сопровождающие 
Data Mining, вопросы терминологии. Рассматриваются основные методы и 
инструменты Data Mining, связанные с высокопроизводительной интеллектуальной аналитической обработкой данных, направленной на то, чтобы оперативно извлекать из значительных массивов накопленных и поступающих данных ценные экспертные знания, поддерживая эффективную управленческую деятельность.  
Для студентов университетов и втузов. 
 
УДК 519.254 
ББК 32.81 
 
Рецензенты: 
С.П. Сущенко, доктор технических наук, профессор; 
Л.Г. Гагарина, доктор технических наук, профессор 
 
 
 
 
 
 
ISBN 978-5-94621-531-2 © Замятин А.В., 2016 
© Томский государственный университет, 2016 

ОГЛАВЛЕНИЕ 

  

ПРЕДИСЛОВИЕ ......................................................................................... 6 

1. АКТУАЛЬНОСТЬ ................................................................................... 7 

1.1. ЭВОЛЮЦИЯ ИНФОРМАЦИОННО-КОММУНИКАЦИОННЫХ 
ТЕХНОЛОГИЙ И ПОТЕНЦИАЛ ИНТЕЛЛЕКТУАЛЬНОГО  
АНАЛИЗА ДАННЫХ ............................................................................. 7 

1.2. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ В БИЗНЕСЕ ........ 11 

1.2.1. Розничная торговля ................................................................. 12 

1.2.2. Сфера развлечений .................................................................. 13 

1.2.3. Маркетинг, страхование, работа с персоналом....................... 13 

1.2.4. Примеры применения классификации,  
кластеризации и прогнозирования ................................................... 15 

1.3. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ В РЕШЕНИИ  
СЛОЖНЫХ ПРИКЛАДНЫХ ЗАДАЧ .................................................. 17 

2. ТЕРМИНОЛОГИЯ ................................................................................ 20 

2.1. DATA MINING ............................................................................... 23 

2.2. BIG DATA ...................................................................................... 26 

2.2.1. Основные понятия ................................................................... 28 

2.2.2. Свойства Big Data .................................................................... 29 

2.3. DATA MINING И BIG DATA ........................................................ 29 

2.4. ДЕДУКЦИЯ И ИНДУКЦИЯ .......................................................... 30 

3. ОСНОВНЫЕ ЗАДАЧИ И КЛАССИФИКАЦИЯ МЕТОДОВ  
АНАЛИЗА ДАННЫХ ............................................................................... 31 

3.1. ЭТАПЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ .......... 31 

3.2. ОБЩИЕ ТИПЫ ЗАКОНОМЕРНОСТЕЙ ПРИ АНАЛИЗЕ 
ДАННЫХ .............................................................................................. 31 

3.3. ГРУППЫ ЗАДАЧ АНАЛИЗА ДАННЫХ ...................................... 32 

3.4. КЛАССИФИКАЦИЯ МЕТОДОВ .................................................. 35 

3.5. СРАВНИТЕЛЬНЫЕ ХАРАКТЕРИСТИКИ  
ОСНОВНЫХ МЕТОДОВ ..................................................................... 37 

4. ОСНОВНЫЕ МЕТОДЫ АНАЛИЗА И ИНТЕРПРЕТАЦИИ  
ДАННЫХ .................................................................................................. 39 

4.1. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ДАННЫХ .......................... 39 

4.2. ОПТИМИЗАЦИЯ ПРИЗНАКОВОГО ПРОСТРАНСТВА ............. 45 

4.2.1. С трансформацией пространства признаков ........................... 46 

4.2.2. Без трансформации пространства признаков .......................... 48 

4.3. КЛАССИФИКАЦИЯ ...................................................................... 50 

4.3.1. Постановка задачи классификации ......................................... 50 

4.3.2. Контролируемая непараметрическая классификация ............. 54 

4.3.3. Контролируемая непараметрическая нейросетевая 
классификация .................................................................................. 56 

4.3.4. Классификация по методу машины опорных векторов .......... 60 

4.3.5. Деревья решений ..................................................................... 62 

4.3.6. Неконтролируемая классификация ......................................... 76 

4.4. РЕГРЕССИЯ ................................................................................... 80 

4.4.1. Понятие регрессии................................................................... 80 

4.4.2. Основные этапы регрессионного анализа ............................... 81 

4.4.3. Методы восстановления регрессии ......................................... 81 

4.5. АССОЦИАЦИЯ .............................................................................. 83 

4.5.1. Описание алгоритма ................................................................ 86 

4.5.2. Пример исполнения алгоритма ............................................... 87 

4.6. ПОСЛЕДОВАТЕЛЬНАЯ АССОЦИАЦИЯ .................................... 89 

4.6.1. Алгоритмы семейства «Априори» .......................................... 90 

4.6.2. Алгоритм GSP ......................................................................... 93 

4.7. ОБНАРУЖЕНИЕ АНОМАЛИЙ .................................................... 98 

4.8. ВИЗУАЛИЗАЦИЯ ........................................................................ 100 

5. ВЫСОКОПРОИЗВОДИТЕЛЬНАЯ ОБРАБОТКА ДАННЫХ ............ 101 

6. ИНСТРУМЕНТЫ DATA MINING ...................................................... 105 

6.1. ПРОГРАММНЫЕ ИНСТРУМЕНТЫ ДЛЯ 
ВЫСОКОПРОИЗВОДИТЕЛЬНОЙ ОБРАБОТКИ ДАННЫХ ........... 106 

6.1.1. Программная среда ................................................................ 106 

6.1.2. Базы данных .......................................................................... 107 

6.1.3. Языки программирования ..................................................... 108 

6.2. ПРИМЕРЫ ПРОГРАММНЫХ СИСТЕМ .................................... 108 

6.2.1. Примеры самостоятельных систем ....................................... 108 

6.2.2. Примеры облачных систем ................................................... 109 

ВОПРОСЫ И ТЕМЫ ДЛЯ САМОПРОВЕРКИ ...................................... 110 

ЛИТЕРАТУРА......................................................................................... 112 

 

 
 

ПРЕДИСЛОВИЕ 

Стремительная технологическая эволюция последних лет в 
сфере информационно-коммуникационных технологий позволила 
сформировать существенный задел в части развитой программноаппаратной инфраструктуры, поддерживающей накопление и постоянное пополнение архивов данных различной природы и 
назначения.  
Обостряющаяся конкурентная борьба в различных областях человеческой деятельности (бизнесе, медицине, корпоративном 
управлении и др.) и сложность внешней среды делают крайне востребованными подходы к экспертному использованию имеющихся 
данных для повышения обоснованности и оперативности принятия 
управленческих решений.  
При этом не всегда сегодня возможно непосредственное эффективное применение хорошо проработанного и известного аппарата 
теории вероятности или математической статистики без учета особенностей конкретной предметной области, компьютерных наук 
(включая детали хранения и обработки данных, алгоритмов машинного обучения и т.п.), специфики современных информационных технологий. 
Именно поэтому относительно недавно стала привлекать особое внимание область, связанная с высокопроизводительной интеллектуальной аналитической обработкой данных, направленная 
на то, чтобы оперативно извлекать из значительных массивов 
накопленных и поступающих данных ценные экспертные знания, 
поддерживая эффективную управленческую деятельность.  
Учитывая междисциплинарный характер этой предметной области, ее глубину и ярко выраженную прикладную направленность, до сих пор существует определенный дефицит систематизированных представлений о ней, на устранение которых в некоторой степени направлено данное пособие. 

1. АКТУАЛЬНОСТЬ 

1.1. ЭВОЛЮЦИЯ ИНФОРМАЦИОННОКОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ  
И ПОТЕНЦИАЛ ИНТЕЛЛЕКТУАЛЬНОГО  
АНАЛИЗА ДАННЫХ 

С 1960-х гг. информационно-коммуникационные технологии 
(ИКТ) последовательно эволюционировали от простых систем обработки файлов до сложных, мощных систем управления базами 
данных (БД). Исследования в области БД с 1970-х гг. смещались 
от ранних иерархических и сетевых баз данных к реляционным 
системам управления базами данных (СУБД), инструментам моделирования данных, а также к вопросам индексирования и организации данных. Пользователи получили гибкий и удобный интерфейс доступа к данным с помощью языков запросов (типа SQL), 
пользовательские интерфейсы, управление транзакциями и т.п. 
При этом создаваемые и поддерживаемые БД имели преимущественно ограниченный регистрирующий характер, поддерживая 
рутинные операции линейного персонала. Основными требованиями к таким системам были обеспечение транзакционности и оперативность выполнения всех изменений.  
Технология баз данных, начиная с середины 1980-х гг., характеризовалась популяризацией, широким внедрением и концентрацией исследовательских усилий на новые, все более мощные 
СУБД. Появились новые модели данных, такие как объектноориентированные, объектно-реляционные, дедуктивные модели. 
Возникали различные предметно-ориентированные базы данных и 
СУБД (пространственные, временные, мультимедийные, научные 
и пр.). Эффективные методы онлайновой обработки транзакций 
(on-line transaction processing – OLTP1) внесли большой вклад в 
                                                             
1 Способ организации БД, при котором система работает большим потоком с небольшими по размерам транзакциями при минимальном времени отклика системы. 

эволюцию и широкое внедрение реляционной технологии в качестве одного из главных универсальных инструментов эффективного хранения, извлечения и управления большими объемами структурированных данных реляционных СУБД.  
С развитием сети Интернет получили развитие и вопросы построения распределенных баз данных, создания распределенных 
глобальных информационных систем. Многократно возросла интенсивность формирования и архивирования различных данных, за 
которыми следовало развитие масштабируемых программноаппаратных комплексов, дорогостоящих мощных и недорогих 
пользовательских компьютеров и накопителей данных.  
Все это способствовало всплеску развития индустрии ИКТ и 
сделало огромное количество баз данных доступными для хранения 
разнородной информации в значительных объемах и управления 
транзакциями в них. При этом все больше возникала потребность 
анализа имеющихся данных в разновременном аспекте, с возможностью построения произвольных запросов, при условии обработки 
сверхбольших объемов данных, полученных, в том числе, из различных регистрирующих БД. Использование для этих задач традиционных регистрирующих систем и БД крайне затруднительно. 
Например, в регистрирующей системе информация актуальна исключительно на момент обращения к БД, а в следующий момент 
времени по тому же запросу можно ожидать другой результат. Интерфейс таких систем рассчитан на проведение определенных стандартизованных операций и возможности получения результатов на 
нерегламентированный произвольный запрос ограничены. Возможности обработки больших массивов данных также могут быть ограничены вследствие ориентации СУБД на нормализованные данные, 
характерные для стандартных реляционных регистрирующих БД. 
Ответом на возникшую потребность стало появление новой 
технологии организации баз данных – технологии хранилищ данных (англ. Data Warehouse2), предполагающей некоторую предва
                                                             
2 Предметно-ориентированная информационная база данных, главным образом 
предназначенная для поддержки принятия решений с помощью отчетов. 

рительную обработку данных и их интеграцию, а также онлайновую аналитическую обработку (англ. On-Line Analytical Processing, 
OLAP3).  
Несмотря на очевидную пользу такого инструмента анализа 
данных, он ориентирован на хорошо нормализованные табличные 
данные и не предполагает использование целого ряда дополнительного аналитического инструментария типа классификации, 
кластеризации, регрессионного анализа, моделирования, прогнозирования и интерпретации многомерных данных и т.п.  
Таким образом, сегодня наблюдается высокий уровень развития 
масштабируемой аппаратно-программной ИКТ инфраструктуры, 
позволяющей увеличивать и без того значительные архивы данных. Имеется достаточно существенный задел в области компьютерных наук и информационных технологий, разработаны теория 
и прикладные аспекты теории вероятности и математической статистики. Однако при этом следует признать, что присутствует заметный избыток данных 4 при дефиците информации5и знаний6. 
Быстро растущие объемы накопленных и пополняемых (автоматически, а не людьми – как это было когда-то) архивов данных пока 
существенно превышают способности человека в их практически 
полезной обработке. Для обострения этого тезиса иногда говорят, 
что «большие базы данных стали могилами, которые редко посещаются». Как следствие, важные решения порой принимаются не 
на основе аналитических выводов из информативных БД, а на основе интуиции человека, не имеющего подходящих инструментов 

                                                             
3  Технология анализа данных, предполагающая подготовку агрегированной 
структурированной многомерной информации на основе больших массивов данных (OLAP-куба), используемой в реляционной БД при построении сложных 
многотабличных запросов. 
4 Под данными будем понимать  представление некоторых фактов в формализованном виде, пригодном для хранения, обработки и передачи. 
5 Под информацией будем понимать сведения в любой форме; в отличие от данных, информация имеет некоторый контекст. 
6 Под знаниями будем понимать совокупность информации о мире, свойствах 
объектов, закономерностях процессов и явлений, а также правилах их использования для принятия решений. 

для извлечения полезных знаний из имеющихся огромных объемов данных.  
Поэтому в последние годы стремительное развитие получила 
область Data Mining7 (в отечественной литературе наиболее используемая аналогия – интеллектуальный анализ данных, ИАД), 
направленная на поиск и разработку методов извлечения из имеющихся данных знаний, позволяющих принимать на их основе 
конкретные, в высокой степени обоснованные, практически полезные управленческие решения.  
На рис. 1 приведен пример обобщенного иерархического представления методологий обработки данных, начиная от интеграции 
разнородных источников данных и завершая использованием методов Data Mining для принятия управленческих решений. 
 

 

Рис. 1. Пример обобщенного иерархического представления методологий  

обработки данных при принятии управленческих решений 

                                                             
7 Вопросам терминологии посвящена гл. 2. 

Доступ онлайн
250 ₽
В корзину