Методы Data mining в обработке и анализе статистических данных (решения в R)
Покупка
Основная коллекция
Тематика:
Технология машиностроения
Издательство:
НИЦ ИНФРА-М
Автор:
Зарова Елена Викторовна
Год издания: 2021
Кол-во страниц: 232
Дополнительно
Вид издания:
Монография
Уровень образования:
Дополнительное профессиональное образование
ISBN: 978-5-16-016814-2
Артикул: 753474.01.95
В монографии изложены теоретические основы применения методов Data mining (интеллектуального анализа данных) для решения практических задач обработки и анализа статистической информации. Рассмотрены алгоритмы и команды R, обеспечивающие повышение эффективности статистического процесса на этапах работы с пропущенными данными и статистическими выбросами, комплексного расчета показателей описательной статистики, а также за счет интегрирования массивов микроданных различных статистических наблюдений, выявления скрытых структур и системных взаимосвязей в массивах данных методами «случайный лес» и бикластерного анализа. Представленная апробация изложенных методов на основе реальных данных официальной статистики определяет прикладную значимость монографии.
Представленные методический материал и команды программной среды R рекомендуются для применения как в органах государственной статистики, так и в других структурах, занимающихся обработкой больших массивов данных. Монография также будет полезна специалистам и студентам, овладевающим принципами и методами науки о данных (Data science).
Тематика:
ББК:
УДК:
- 311: Теория статистики. Статистические методы
- 519: Комбинатор. анализ. Теория графов. Теория вер. и мат. стат. Вычисл. мат., числ. анализ. Мат. кибер..
ОКСО:
- ВО - Бакалавриат
- 15.03.01: Машиностроение
- 15.03.02: Технологические машины и оборудование
- 15.03.03: Прикладная механика
- 15.03.04: Автоматизация технологических процессов и производств
- 15.03.05: Конструкторско-технологическое обеспечение машиностроительных производств
- 15.03.06: Мехатроника и роботехника
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
МЕТОДЫ DATA MINING В ОБРАБОТКЕ И АНАЛИЗЕ СТАТИСТИЧЕСКИХ ДАННЫХ (РЕШЕНИЯ В R) Е.В. ЗАРОВА Москва ИНФРА-М 2021 МОНОГРАФИЯ
УДК [519.25+621](075.8) ББК 73:34.4я73 З35 ISBN 978-5-16-016814-2 © Зарова Е.В., 2021 Зарова Е.В. З35 Методы Data mining в обработке и анализе статистических данных (решения в R) : монография / Е.В. Зарова. — Москва : ИНФРА-М, 2021. — 232 с. : ил. ISBN 978-5-16-016814-2 В монографии изложены теоретические основы применения методов Data mining (интеллектуального анализа данных) для решения практических задач обработки и анализа статистической информации. Рассмотрены алгоритмы и команды R, обеспечивающие повышение эффективности статистического процесса на этапах работы с пропущенными данными и статистическими выбросами, комплексного расчета показателей описательной статистики, а также за счет интегрирования массивов микроданных различных статистических наблюдений, выявления скрытых структур и системных взаимосвязей в массивах данных методами «случайный лес» и бикластерного анализа. Представленная апробация изложенных методов на основе реальных данных официальной статистики определяет прикладную значимость монографии. Представленные методический материал и команды программной среды R рекомендуются для применения как в органах государственной статистики, так и в других структурах, занимающихся обработкой больших массивов данных. Монография также будет полезна специалистам и студентам, овладевающим принципами и методами науки о данных (Data science). УДК [519.25+621](075.8) ББК 73:34.4я73
Оглавление Введение .................................................................................................................5 Глава 1. Понятие и особенности применения методов «интеллектуального анализа данных» (Data mining) в статистической практике ..................................................................................................................8 1.1. Новые источники данных официальной статистики: особенности обработки и анализа информации ...........................................................................................................................8 1.2. Понятие и задачи Data mining ...........................................................................................................19 1.3. Data mining и статистика: общее и отличия ...............................................................................28 Глава 2. Методы предварительной обработки статистических данных с иcпользованием пакетов R (на примере микроданных выборочного обследования рабочей силы (ОРС)) ................................................................ 42 2.1. Загрузка статистических данных в систему R ............................................................................42 2.2. Команды R для расчета показателей описательной статистики. Способы заполнения пропущенных значений в массиве микроданных обследования ..........54 2.3. Предварительный анализ распределения переменных в данных выборочного обследования ...............................................................................................................73 2.4. Методы работы с аномальными статистическими единицами .........................................81 Глава 3. Методы интегрирования микроданных выборочных обследований с применением пакета StatMatch (на примере выборочных обследований рабочей силы (ОРС) и доходов населения (ОДН)) .................................................................................................................... 89 3.1. Цель и задачи интегрирования микроданных выборочных обследований на основе алгоритмов статистического согласования (Statistical matching) ..............89 3.2. Гармонизация источников данных .................................................................................................95 3.3. Методы анализа соответствия распределений общих переменных в интегрируемых массивах микроданных выборочных обследований........................98 3.4. Оценка тесноты статистической связи общих и вменяемых переменных интегрируемых массивов микроданных ...................................................................................101 3.5. Постановка задачи и алгоритм статистического сопоставления для целей интегрирования данных ОДН и ОРС ...........................................................................................106 3.6. Загрузка микроданных ОДН и ОРС в среду R из Excel и SPSS .........................................108 3.7. Идентификация общих переменных, выбор переменных сопоставления («маршевых» переменных) для интегрирования микроданных ОДН и ОРС ...........112 3.8. Гармонизация весов интегрируемых массивов микроданных ОДН и ОРС с применением методов калибровки .........................................................................................117 3.9. Методы Hotdeck и функции расстояний в интегрировании микроданных ОДН и ОРС ...........................................................................................................................................................129 3.10. Оценка значений целевой переменной на основе интегрированного массива микроданных ОРС и ОДН ..................................................................................................................135
Глава 4. Метод «случайный лес» в исследовании структуры микроданных (на примере выборочного обследования бюджетов домашних хозяйств (ОБДХ)) ........................................................................... 140 4.1. Основные понятия метода «случайный лес». Алгоритмы построения деревьев решений ...............................................................................................................................140 4.2. Построение регрессии среднедушевого располагаемого дохода методом «случайный лес» с использованием пакетов R .......................................................................158 4.3. Анализ классификаций в структуре данных ОБДХ с применением функций пакета randomForest ............................................................................................................................180 Глава 5. Бикластерный анализ результатов статистических обследований .................................................................................................... 199 5.1. Бикластеризация в системе методов многомерной группировки данных ..............199 5.2. Методы бикластерного анализа в пакете ‘biclust’ программной среды R ................208 5.3. Применение методов бикластеризации в анализе данных выборочных обследований .........................................................................................................................................217 5.4. Методы оценки качества бикластеризации .............................................................................224 Заключение ........................................................................................................ 228 Приложение 1. Условные обозначения переменных выборочного обследования рабочей силы (ОРС), используемых в примерах монографии ....................................................................................................... 229
Введение «Data Mining» — это словосочетание от двух английских слов: «data» — данные и «mining» — добыча полезных ископаемых, разработка недр. Таким образом, термин «Data mining» — это метафора, которая дословно означает извлечение ценной информации, новых знаний из большого объема исходных (сырых) данных. Данная книга содержит теоретические основы системного применения методов Data mining для решения задач обработки и анализа массовых данных, а также результаты экспериментальной проработки представленных методов с использованием команд R на реальных данных официальной статистики. Изложение материала книги основано на базовом понимании Data mining как комплекса методов, направленного на извлечение ценных и полезных «паттернов» (внутренних структур, взаимосвязей переменных) из массивов статистических данных большого объема, неструктурированных или слабоструктурированных, а также полученных из разнотипных информационных источников. При этом основной особенностью решения задач методами Data mining является то, что выявляемые и оцениваемые этими методами взаимосвязи и структуры в исходном признаковом пространстве не предопределяются заранее сформированными гипотезами исследователя, а формируются в процессе анализа данных. Вопросам теории и практики применения методов Data mining в последние годы посвящено множество работ, особенно зарубежных. В российской научной литературе подход «Data mining», получивший не вполне точное название «интеллектуальный анализ данных», представлен лишь несколькими публикациями и нуждается в развитии как в теоретическом, так и в прикладном аспектах. Важнейшей сферой практического применения методов Data mining являются процессы производства официальной статистической информации. Применение методов Data mining в обработке и анализе данных статистических наблюдений представлено на сайтах нацио нальных статистических служб США, Канады, Великобритании, Германии, ряда других стран, а также на сайте Евростата. Необходимость внедрения методов Data mining в практику официальной статистики обусловлена как общим для многих стран трендом использования новых источников данных (административных, больших данных), так и потребностью нацио нальных
статистических служб в интегрировании данных различных выборочных статистических обследований для повышения их эффективности и информативности. Для официальной статистики России эти направления совершенствования информационного обеспечения производства статистической информации также являются весьма актуальными, что утверждено документом «Стратегия развития Росстата и системы государственной статистики Российской Федерации до 2024 года» (утв. Минэкономразвития России 06.09.2019 № МО-104). Целью подготовки настоящего издания явилось представление в системном виде и апробация на реальной статистической информации методов Data mining для проведения предварительной обработки данных, их интегрирования, выявления скрытых структур и взаимосвязей. Предлагаемое издание обладает теоретической и практической значимостью. Теоретическая значимость состоит в обобщении, системном изложении и интерпретации методов Data mining, большинство из которых представлено лишь в зарубежной печати. Практическая значимость настоящего издания определяется подробным изложением апробации предлагаемых методов на реальных микроданных федеральных выборочных обследований Росстата (обследования рабочей силы, наблюдения доходов населения и участия в социальных программах, обследования бюджетов домашних хозяйств). При этом решение практических задач в данном издании представлено в программной среде R с изложением последовательности и содержания всех необходимых команд, что обеспечивает возможность применения предлагаемых методов для решения аналогичных задач как в сфере официальной статистики, так и в других сферах, связанных с массовыми наблюдениями. Монография включает пять глав. Первая глава посвящена анализу особенностей статистической информации, получаемой из новых источников данных официальной статистики (больших данных, административных данных), а также путем интегрирования результатов различных выборочных статистических обследований. В данной главе обосновано понятие «Data mining», определены общие и отличительные моменты статистического подхода и подхода «Data mining» в работе с массовыми данными, сформулированы и обоснованы задачи статистического исследования, решаемые методами Data mining. Вторая глава содержит изложение теории и практики применения методов предварительной обработки статистических данных с иcпользованием пакетов R. На примере микроданных выбороч
ного обследования рабочей силы (ОРС) представлена реализация методов описательной статистики, работы со статистическими пропусками и аномалиями, а также форматирования данных, необходимых на «стартовом этапе» реализации методов Data mining. В третьей главе представлены методы интегрирования информации на фрагментах микроданных федеральных выборочных обследований Росстата: обследования рабочей силы (ОРС) и обследования доходов населения и участия в социальных программах (ОДН). Данная статистическая работа, основанная на методах Data mining, позволяет существенно повысить надежность и эффективность проводимых разноцелевых выборочных обследований, находит все более широкое применение в практике нацио нальных статистических служб ряда стран. Овладение материалами, представленными в данной книге, позволит внедрить методы интегрирования микроданных выборочных обследований в практику Росстата. Четвертая глава посвящена изложению метода «случайный лес» в исследовании структуры микроданных. Указанный метод из арсенала Data mining позволяет выявить и количественно оценить латентные структуры и регрессионные взаимосвязи в исходном массиве данных. На примере выборочного обследования бюджетов домашних хозяйств (ОБДХ), проводимого Росстатом, представлены возможности метода «случайный лес» и обосновано его применение для извлечения новой информации и повышения эффективности обследования. Пятая глава содержит представление методов бикластерного анализа результатов статистических обследований на примере микроданных ОРС. Данный метод имеет большое практическое значение, поскольку позволяет оптимизировать программу статистического наблюдения за счет обоснованного выделения специфических признаков для отдельных групп единиц наблюдения. Теоретическое значение главы состоит в обобщении и системном представлении разрозненных сведений по методам бикластерного анализа, представленных в немногочисленных публикациях. Представленные в данной книге теоретические и практические материалы будут полезны специалистам государственной и ведомственной статистики, аналитикам и экспертам, деятельность которых связана с обработкой и анализом больших массивов данных, а также студентам, овладевающим знаниями и навыками науки о данных, эконометрики и статистики.
Глава 1. ПОНЯТИЕ И ОСОБЕННОСТИ ПРИМЕНЕНИЯ МЕТОДОВ «ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ» (DATA MINING) В СТАТИСТИЧЕСКОЙ ПРАКТИКЕ 1.1. НОВЫЕ ИСТОЧНИКИ ДАННЫХ ОФИЦИАЛЬНОЙ СТАТИСТИКИ: ОСОБЕННОСТИ ОБРАБОТКИ И АНАЛИЗА ИНФОРМАЦИИ Потребность в более разнообразных, качественных и быстрых статистических услугах может быть удовлетворена за счет использования новых источников данных, к которым относятся «большие данные» и административные данные. В Стратегии развития Росстата и системы государственной статистики Российской Федерации до 2024 года1 в качестве центрального вектора развития отечественной статистики на ближайшие пять лет определена цифровизация всего процесса статистического производства. Ключевым инструментом этой модернизации является создание цифровой аналитической платформы предоставления статистических данных (ЦАП), разрабатываемой Росстатом в рамках реализации мероприятий нацио нальной программы «Цифровая экономика Российской Федерации»2. Ввод в эксплуатацию ЦАП создаст необходимые технологические условия для перехода к новой модели производства и распространения статистической информации, реализующей принцип единого информационного пространства, однократного представления первичных статистических данных и их многократного использования в аналитических целях. Как указано в документах Росстата, «с учетом технологической зрелости крупного и среднего бизнеса перспективным развитием технологии электронного сбора отчетности является переход на потоковую модель сбора от бизнеса первичных статистических данных, формируемых ими в автома 1 Стратегия развития Росстата и системы государственной статистики Российской Федерации до 2024 года. URL: https://www.gks.ru/strategy 2 Национальная программа «Цифровая экономика Российской Федерации». URL: http://government.ru/rugovclassifier/614/events/
тизированных системах первичного учета. С этой целью готовятся изменения в действующее законодательство, предусматривающее представление статистической отчетности исключительно в электронном виде»1. Изменение парадигмы статистического наблюдения Вызовы российской статистики Создание единой платформы и единой методологии Переход от традиционной отчетности к новым источникам данных Административные данные Потоковый сбор данных Большие данные Бумажный сбор первичных статданных Электронный сбор первичных статданных Статистическое наблюдение по формам отчетности 2000 2010 2018 2025 2025+ Рис. 1.1. Этапы внедрения новых источников данных в соответствии со Стратегией развития Росстата и системы государственной статистики Российской Федерации (источник: https://gks.ru/storage/mediabank/ strateg-2024.pdf) Переход официальной статистики к потоковой модели представления первичных статистических данных и встраивание в официальную статистику альтернативных источников информации, включая большие данные, по оценке Росстата, — наиболее сложные в методологическом и технологическом аспектах задачи2. 1 Письмо Федеральной службы государственной статистики от 9 октября 2019 г. № 04-04-4/101-сми «О цифровой аналитической платформе Росстата (ЦАП)». URL: https://www.garant.ru/products/ipo/prime/ doc/72746712/ 2 Стратегия развития Росстата и системы государственной статистики Российской Федерации до 2024 года. URL: https://www.gks.ru/strategy; Национальная программа «Цифровая экономика Российской Федерации». URL: http://government.ru/rugovclassifier/614/events/
Именно по это му сроки решения этих амбициозных задач выходят за границы 2024 года (рис. 1.1). При этом в рамках реализации Стратегии развития Росстата и системы государственной статистики Российской Федерации пилотные проекты использования больших данных в отдельных отраслях статистики и пилотные проекты потокового сбора первичных статистических данных будут осуществляться в 2022–2024 гг. на основе государственно-частного партнерства с операторами больших данных и компаниями — разработчиками автоматизированных систем учета. Обоснование необходимости и целесообразности внедрения методов Data mining («интеллектуального анализа данных») в практику обработки и анализа статистических данных, обусловленного переходом государственного статистического учета на новые источники данных, требует конкретизации содержания этих источников. Определение административных данных как одного из источников официальной статистической информации приводится в Федеральном законе «Об официальном статистическом учете и системе государственной статистики в Российской Федерации» от 29.11.2007 (№ 282-ФЗ)1. Согласно данному определению административные данные — используемая при формировании официальной статистической информации документированная информация, получаемая федеральными органами государственной власти, органами государственной власти субъектов Российской Федерации и органами местного самоуправления в связи с осуществлением ими разрешительных, регистрационных, контрольно-надзорных и других административных функций. Официального определения больших данных в настоящее время нет. В русскоязычном разделе Wikipedia большие данные определены как структурированные и неструктурированные данные огромных объемов и значительного многообразия2. 1 Федеральный закон «Об официальном статистическом учете и системе государственной статистики в Российской Федерации» от 29.11.2007 № 282-ФЗ (последняя редакция). URL: http://www.consultant.ru/ document/cons_doc_LAW_72844/ 2 URL: https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C% D1%88%D0%B8%D0%B5_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B% D0%B5