Интеллектуальный анализ данных
Покупка
Тематика:
Базы и банки данных. СУБД
Издательство:
Томский государственный университет
Год издания: 2020
Кол-во страниц: 196
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-94621-898-6
Артикул: 777111.01.99
В учебном пособии рассматриваются вопросы, связанные с популярной сегодня областью машинного обучения и интеллектуального анализа данных. Исследуются основные технологические тренды, наиболее активно использующие алгоритмы интеллектуальной обработки данных, - бизнес, медицина, управление, индустрия. Обсуждаются вопросы терминологии, основные методы анализа и интерпретации данных, методы и инструменты машинного обучения. Приведены вопросы для самопроверки. Для студентов университетов и втузов.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 02.03.01: Математика и компьютерные науки
- 09.03.01: Информатика и вычислительная техника
- ВО - Специалитет
- 03.05.02: Фундаментальная и прикладная физика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТОМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ А.В. Замятин ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ Учебное пособие Томск Издательский Дом Томского государственного университета 2020
УДК 519.254 ББК 32.81 З26 Замятин А.В. З26 Интеллектуальный анализ данных : учебное пособие. – Томск : Издательский Дом Томского государственного университета, 2020. – 196 с. ISBN 978-5-94621-898-6 В учебном пособии рассматриваются вопросы, связанные с популяр ной сегодня областью машинного обучения и интеллектуального анализа данных. Исследуются основные технологические тренды, наиболее активно использующие алгоритмы интеллектуальной обработки данных, – бизнес, медицина, управление, индустрия. Обсуждаются вопросы терминологии, основные методы анализа и интерпретации данных, методы и инструменты машинного обучения. Приведены вопросы для самопроверки. Для студентов университетов и втузов. УДК 519.254 ББК 32.81 Рецензенты: доктор технических наук, профессор Л.Г. Гагарина доктор технических наук, профессор С.П. Сущенко ISBN 978-5-94621-898-6 © Замятин А.В., 2020 © Томский государственный университет, 2020
ОГЛАВЛЕНИЕ Введение................................................................................................6 1. Актуальность ....................................................................................7 2. Терминология .................................................................................11 2.1. Data Mining / Data Science.......................................................15 2.2. Big Data.....................................................................................18 2.2.1. Основные понятия............................................................20 2.2.2. Свойства Big Data.............................................................21 2.3. Data Mining и Big Data ............................................................22 2.4. Дедукция и индукция..............................................................22 3. Примеры применения.....................................................................23 3.1. Интеллектуальный анализ данных в бизнесе .......................23 3.1.1. Розничная торговля ..........................................................24 3.1.2. Сфера развлечений ...........................................................25 3.1.3. Маркетинг, страхование, работа с персоналом .............26 3.1.4. Примеры применения классификации, кластеризации и прогнозирования............................................27 3.2. Интеллектуальный анализ данных в решении сложных прикладных задач........................................29 3.2.1. Медицина ..........................................................................30 3.2.2. Государственное управление...........................................31 3.3. Интеллектуальный анализ данных в ранней диагностике опасных заболеваний................................32 3.4. Интеллектуальный анализ данных в индустриальной предиктивной аналитике................................33 4. Основные задачи и классификация методов анализа данных......37 4.1. Этапы интеллектуального анализа данных...........................37 4.2. Общие типы закономерностей при анализе данных ............37 4.3. Группы задач анализа данных................................................38 4.4. Классификация методов..........................................................42 4.5. Сравнительные характеристики основных методов ............44 5. Принципиальные основы машинного обучения..........................46 6. Основные методы анализа и интерпретации данных..................50 6.1. Предварительная обработка данных......................................50
6.2. Оптимизация признакового пространства ............................56 6.2.1. С трансформацией пространства признаков..................57 6.2.2. Без трансформации пространства признаков.................59 6.3. Классификация ........................................................................61 6.3.1. Постановка задачи классификации.................................61 6.3.2. Контролируемая непараметрическая классификация.....65 6.3.3. Контролируемая непараметрическая нейросетевая классификация.....................................................66 6.3.4. Классификация по методу машины опорных векторов 70 6.3.5. Деревья решений ..............................................................72 6.4. Неконтролируемая классификация (кластеризация)............84 6.5. Регрессия ..................................................................................89 6.5.1. Понятие регрессии............................................................89 6.5.2. Основные этапы регрессионного анализа......................90 6.5.3. Методы восстановления регрессии.................................91 6.6. Ассоциация...............................................................................92 6.6.1. Описание алгоритма.........................................................95 6.6.2. Пример исполнения алгоритма .......................................96 6.7. Последовательная ассоциация................................................98 6.7.1. Алгоритмы семейства «Априори» ..................................99 6.7.2. Алгоритм GSP.................................................................102 6.8. Многоуровневое машинное обучение.................................107 6.8.1. Бутстрэппинг...................................................................108 6.8.2. Бэггинг.............................................................................109 6.8.3. Стекинг............................................................................111 6.8.4. Бустинг ............................................................................112 6.9. Обнаружение аномалий ........................................................115 7. Визуализация ................................................................................118 8. Нейросетевые подходы и глубокое обучение............................120 8.1. Функции активации...............................................................120 8.2. Основные типы искусственных нейронных сетей .............123 8.3. Сверточные нейронные сети (Convolutional Neural Networks) ..................................................131 8.4. Популярные архитектуры CNN............................................134 8.5. Среды и фреймворки глубинного обучения .......................138
9. Обработка естественного языка..................................................140 9.1. Основные задачи обработки текста .....................................140 9.2. Этапы предварительной обработки текста .........................143 10. Критерии точности.....................................................................145 10.1. Метрики качества классификации.....................................145 10.2. Гипотеза A/B........................................................................150 10.3. Каппа-индекс согласия........................................................150 10.4. ROC-кривая..........................................................................152 10.5. Метрика качества прогноза временного ряда...................153 10.6. Метрики качества кластеризации ......................................155 11. Высокопроизводительная обработка данных ..........................157 11.1. Принципы высокопроизводительных вычислений..........157 11.2. Особенности построения вычислительного кластера......161 11.3. Среды и инструменты высокопроизводительных вычислений ......................................171 12. Инструменты Data Mining .........................................................176 12.1. Программные инструменты для высокопроизводительной обработки данных .....................177 12.1.1. Программная среда.......................................................177 12.1.2. Базы данных..................................................................178 12.1.3. Языки программирования............................................179 12.2. Примеры программных систем..........................................179 12.2.1. Примеры самостоятельных систем.............................179 12.2.2. Примеры облачных систем..........................................180 Вопросы и темы для самопроверки ................................................182 Литература ........................................................................................184
Интеллектуальный анализ данных 6 ВВЕДЕНИЕ Стремительная технологическая эволюция последних лет в сфере информационно-коммуникационных технологий позволила сформировать существенный задел в части развитой программно-аппаратной инфраструктуры, поддерживающей накопление и постоянное пополнение архивов данных различной природы и назначения. Обостряющаяся конкурентная борьба в различных областях че ловеческой деятельности – бизнесе, медицине, корпоративном управлении и др. – и сложность внешней среды делают крайне востребованными подходы к экспертному использованию имеющихся данных для повышения обоснованности и оперативности принятия управленческих решений. При этом не всегда сегодня возможно непосредственное эффек тивное применение хорошо проработанного и известного аппарата теории вероятностей или математической статистики без учета особенностей конкретной предметной области, компьютерных наук, вычислительной сложности известных и распространенных алгоритмов (включая детали хранения, передачи и обработки данных, алгоритмов машинного обучения и т.п.), современного и перспективного состояния информационных систем и технологий. Именно поэтому относительно недавно стала привлекать особое внимание область, связанная с высокопроизводительной интеллектуальной аналитической обработкой данных, направленная на то, чтобы оперативно извлекать из значительных массивов накопленных и поступающих данных ценные экспертные знания, поддерживая эффективную управленческую деятельность. Учитывая междисциплинарный характер этой предметной обла сти, ее глубину и ярко выраженную прикладную направленность, до сих пор существует определенный дефицит систематизированных представлений о ней, на устранение которых в некоторой степени направлено данное пособие.
1. Актуальность 7 1. АКТУАЛЬНОСТЬ С 1960-х гг. информационно-коммуникационные технологии (ИКТ) последовательно эволюционировали от простых систем обработки файлов до сложных, мощных систем управления базами данных (БД). Исследования в области БД с 1970-х гг. смещались от ранних иерархических и сетевых баз данных к реляционным системам управления базами данных (СУБД), инструментам моделирования данных, а также к вопросам индексирования и организации данных. Пользователи получили гибкий и удобный интерфейс доступа к данным с помощью языков запросов (типа SQL), пользовательские интерфейсы, управление транзакциями и т.п. При этом создаваемые и поддерживаемые БД преимущественно имели ограниченный регистрирующий характер, поддерживая рутинные операции линейного персонала. Основным требованием к таким системам было обеспечение транзакционности и оперативности выполнения всех изменений. Технология баз данных начиная с середины 1980-х гг. характеризо валась популяризацией, широким внедрением и концентрацией исследовательских усилий на новых, все более мощных СУБД. Появились новые модели данных, такие как объектно-ориентированные, объектно-реляционные, дедуктивные модели. Возникали различные предметно-ориентированные базы данных и СУБД (пространственные, временные, мультимедийные, научные и пр.). Эффективные методы онлайновой обработки транзакций (On-Line Transaction Processing; OLTP1) внесли большой вклад в эволюцию и широкое внедрение реляционной технологии в качестве одного из главных универсальных инструментов эффективного хранения, извлечения и управления большими объемами структурированных данных реляционных СУБД. С развитием сети Интернет получили развитие и вопросы по строения распределенных баз данных, создания распределенных 1 Способ организации БД, при котором система работает большим потоком с небольшими по размерам транзакциями при минимальном времени отклика системы.
Интеллектуальный анализ данных 8 глобальных информационных систем. Многократно возросла интенсивность формирования и архивирования различных данных, следствием чего стало развитие масштабируемых программноаппаратных комплексов, дорогостоящих мощных и недорогих пользовательских компьютеров и накопителей данных. Все это способствовало всплеску развития индустрии ИКТ и сде лало огромное количество баз данных доступными для хранения разнородной информации в значительных объемах и управления транзакциями в них. При этом все больше актуализировалась потребность анализа имеющихся данных в разновременном аспекте с возможностью построения произвольных запросов при условии обработки сверхбольших объемов данных, полученных в том числе из различных регистрирующих БД. Использование для реализации таких задач традиционных регистрирующих систем и БД крайне затруднительно. Например, в регистрирующей системе информация актуальна исключительно на момент обращения к БД, а в следующий момент времени по тому же запросу можно ожидать другой результат. Интерфейс подобных систем рассчитан на проведение определенных стандартизованных операций, и возможности получения результатов на нерегламентированный произвольный запрос ограничены. Возможности обработки больших массивов данных также могут быть ограничены вследствие ориентации СУБД на нормализованные данные, характерные для стандартных реляционных регистрирующих БД. Ответом на возникшую потребность стало появление новой тех нологии организации баз данных – технологии хранилищ данных (Data Warehouse1), предполагающей некоторую предварительную обработку данных и их интеграцию, а также онлайновую аналитическую обработку (On-Line Analytical Processing; OLAP2). 1Предметно-ориентированная информационная база данных, предназначенная главным образом для поддержки принятия решений с помощью отчетов. 2 Технология анализа данных, предполагающая подготовку агрегированной структурированной многомерной информации на основе больших массивов данных (OLAPкуба), используемой в реляционной БД при построении сложных многотабличных запросов.
1. Актуальность 9 Несмотря на очевидную пользу такого инструмента анализа дан ных, он ориентирован на хорошо нормализованные табличные данные и не предполагает использования целого ряда дополнительного аналитического инструментария типа классификации, кластеризации, регрессионного анализа, моделирования, прогнозирования и интерпретации многомерных данных и т.п. Таким образом, сегодня наблюдается высокий уровень развития масштабируемой аппаратно-программной ИКТ-инфраструктуры, позволяющей увеличивать и без того значительные архивы данных. Имеется достаточно существенный задел в области компьютерных наук и информационных технологий, разработаны теория и прикладные аспекты теории вероятностей и математической статистики. Вместе с тем следует признать, что присутствует заметный избыток данных1 при дефиците информации2 и знаний3. Быстро растущие объемы накопленных и пополняемых (автоматически, а не людьми – как это было когда-то) архивов данных пока существенно превышают способности человека в их практически полезной обработке. Для обострения этого тезиса иногда говорят, что «…большие базы данных стали могилами, которые редко посещаются…» Как следствие, важные решения порой принимаются не на основе аналитических выводов из информативных БД, а на основе интуиции человека, не имеющего подходящих инструментов для извлечения полезных знаний из имеющихся огромных объемов данных. Поэтому в последние годы стремительное развитие получила об ласть Data Science / Data Mining 4 (в отечественной литературе наиболее используемая аналогия – интеллектуальный анализ 1 Под данными будем понимать представление некоторых фактов в формализованном виде, пригодном для хранения, обработки и передачи. 2 Под информацией будем понимать сведения в любой форме; в отличие от данных информация имеет некоторый контекст. 3 Под знаниями будем понимать совокупность информации о мире, свойствах объектов, закономерностях процессов и явлений, а также правилах их использования для принятия решений. 4 Вопросам терминологии посвящена глава 2.
Интеллектуальный анализ данных 10 данных, ИАД), направленная на поиск и разработку методов извлечения из имеющихся данных знаний, позволяющих принимать на их основе конкретные, в высокой степени обоснованные, практически полезные управленческие решения. Рис. 1. Пример обобщенного иерархического представления методологий обработки данных при принятии управленческих решений На рис. 1 приведен пример обобщенного иерархического пред ставления методологий обработки данных, начиная от интеграции разнородных источников данных и завершая использованием методов Data Mining для принятия управленческих решений. Конечный пользователь Бизнес аналитик Рост уровня поддержки бизнесрешений Аналитик данных Анали тик БД Источники данных Статьи, файлы, документы, БД, OLTP Хранилища данных OLAP Анализ данных Статистический анализ Представление данных Визуализация Data Mining Исследование информации Принятие решений