R в действии. Анализ и визуализация данных с использованием R и Tidyverse
Покупка
Тематика:
Базы и банки данных. СУБД
Издательство:
ДМК Пресс
Автор:
Кабаков Роберт И.
Год издания: 2023
Кол-во страниц: 769
Дополнительно
Вид издания:
Практическое пособие
Уровень образования:
Профессиональное образование
ISBN: 978-5-93700-173-3
Артикул: 652916.05.99
R - это мощный язык для статистических вычислений и графики, который может справиться поистине с любой задачей в области обработки данных. Он работает во всех важных операционных системах и поддерживает тысячи специализированных модулей и утилит. Все это делает R замечательным средством для извлечения полезной информации из гор сырых данных.
"R в действии" - это руководство по обучению этому языку с особым вниманием к практическим задачам. В данной книге представлены полезные примеры статистической обработки данных и описаны изящные методы работы с запутанными и неполными данными, а также с данными, распределение которых отлично от нормального и с которыми трудно справиться обычными методами. Статистический анализ - это только одна сторона дела. Вы также овладеете обширными графическими возможностями для визуального исследования и представления данных.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 09.03.01: Информатика и вычислительная техника
- ВО - Магистратура
- 09.04.01: Информатика и вычислительная техника
ГРНТИ:
Скопировать запись
R в действии. Анализ и визуализация данных на языке R, 2023, 652916.03.99
R в действии. Анализ и визуализация данных в программе R, 2014, 652916.02.99
Фрагмент текстового слоя документа размещен для индексирующих роботов
Роберт И. Кабаков R в действии Анализ и визуализация данных с использованием R и Tidyverse
R in Action DATA ANALYSIS AND GRAPHICS WITH R AND TIDYVERSE ROBERT I. KABACOFF Third edition
R в действии АНАЛИЗ И ВИЗУАЛИЗАЦИЯ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ R И TIDYVERSE РОБЕРТ И. КАБАКОВ Москва, 2023 Третье издание
УДК 004.04 ББК 32.372 К12 Роберт И. Кабаков К12 R в действии / пер. с англ. А. Н. Киселева. 3-е изд. – М.: ДМК Пресс, 2023. – 768 с.: ил. ISBN 978-5-93700-173-3 R – золотой стандарт, ежедневно используемый исследователями по всему миру для самых разных вычислений и статистического анализа данных. Этот свободно распространяемый язык с открытым исходным кодом включает огромное количество пакетов самой разной направленности, от расширенной визуализации данных до глубокого обучения. Чрезвычайно удобный для пользователей с математическим складом ума, R легко решает практические задачи, не заставляя думать о них с точки зрения программиста. Данная книга научит вас выполнять статистический анализ и визуализировать результаты с помощью R и его популярных пакетов; решать такие практические задачи, как прогнозирование, интеллектуальный анализ данных и разработка динамических отчетов. В третье издание добавлены новые сведения о построении диаграмм с помощью пакета ggplot2, а также приводятся примеры из области машинного обучения, такие как кластеризация, классификация и анализ временных рядов. Издание предназначено для широкого круга специалистов по обработке данных. УДК 004.04 ББК 32.372 Authorized translation of the English edition ©2022 Manning Publications. This translation is published and sold by permission of Manning Publications, the owner of all rights to publish and sell the same. Все права защищены. Любая часть этой книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. © 2022 by Manning Publications Co. © Оформление, издание, перевод, ДМК Пресс, 2023 ISBN (анг.) 978-1-61729-605-5 ISBN (рус.) 978-5-93700-173-3
Краткое оглавление ЧАСТЬ I. НАЧАЛО РАБОТЫ ............................................. 35 1 Знакомство с R ......................................................................... 37 2 Создание набора данных ....................................................... 58 3 Основы управления данными ............................................... 88 4 Начало работы с диаграммами ........................................... 114 5 Дополнительные приемы управления данными ............. 136 ЧАСТЬ II. БАЗОВЫЕ МЕТОДЫ ..................................... 169 6 Базовые диаграммы .............................................................. 171 7 Основные методы статистической обработки данных ......205 ЧАСТЬ III. МЕТОДЫ СРЕДНЕЙ СЛОЖНОСТИ ......... 241 8 Регрессия ................................................................................ 243 9 Дисперсионный анализ ........................................................ 293 10 Анализ мощности .................................................................. 327 11 Диаграммы средней сложности .......................................... 346 12 Статистика повторных выборок и бутстреп-анализ ....... 378 ЧАСТЬ IV. МЕТОДЫ ПОВЫШЕННОЙ СЛОЖНОСТИ ................................................................. 401 13 Обобщенные линейные модели ......................................... 403 14 Метод главных компонент и факторный анализ ............. 425 15 Временные ряды ................................................................... 451 16 Кластерный анализ ............................................................... 486 17 Классификация ..................................................................... 512 18 Продвинутые методы работы с пропущенными данными ................................................................................. 542 ЧАСТЬ V. РАСШИРЕНИЕ ВОЗМОЖНОСТЕЙ ............ 569 19 Продвинутые методы работы с диаграммами .................. 571 20 Продвинутые приемы программирования ....................... 608 21 Создание динамических отчетов ....................................... 647 22 Создание пакетов .................................................................. 667 23 Продвинутая графика с использованием пакета lattice ......696
Оглавление Предисловие от издательства ............................................................ 17 Предисловие ......................................................................................... 19 Благодарности ...................................................................................... 22 Об этой книге ....................................................................................... 24 Об авторе............................................................................................... 33 Об иллюстрации на обложке ............................................................. 34 ЧАСТЬ I. НАЧАЛО РАБОТЫ ............................................. 35 1 Знакомство с R ............................................................................. 37 1.1. Зачем использовать R? ................................................................... 39 1.2. Получение и установка R ............................................................... 42 1.3. Работа в R ......................................................................................... 42 1.3.1. Начало работы ...................................................................... 43 1.3.2. Использование RStudio ....................................................... 45 1.3.3. Как получить помощь........................................................... 48 1.3.4. Рабочее пространство ......................................................... 50 1.3.5. Проекты ................................................................................. 51 1.4. Пакеты .............................................................................................. 51 1.4.1. Что такое пакеты? ................................................................ 52 1.4.2. Установка пакета ................................................................... 52 1.4.3. Загрузка пакета...................................................................... 53 1.4.4. Получение информации о пакете ...................................... 53 1.5. Передача вывода на ввод: повторное использование результатов .................................................................. 54 1.6. Работа с большими массивами данных ........................................ 55 1.7. Учимся на примере ......................................................................... 55 Итоги ........................................................................................................ 57 2 Создание набора данных .............................................................. 58 2.1. Что такое набор данных? ............................................................... 59 2.2. Структуры данных ........................................................................... 60 2.2.1. Векторы .................................................................................. 61 2.2.2. Матрицы ................................................................................ 62 2.2.3. Массивы ................................................................................. 64 2.2.4. Таблицы данных .................................................................... 64 2.2.5. Факторы ................................................................................. 67 2.2.6. Списки .................................................................................... 70 2.2.7. Усовершенствованные таблицы данных ........................... 71
2.3. Ввод данных ..................................................................................... 73 2.3.1. Ввод данных с клавиатуры .................................................. 74 2.3.2. Импорт данных из текстового файла с разделителями .............................................................................. 76 2.3.3. Импорт данных из Excel ...................................................... 80 2.3.4. Импорт данных из JSON-файлов ....................................... 81 2.3.5. Извлечение данных из веб-страниц .................................. 81 2.3.6. Импорт данных из SPSS ....................................................... 82 2.3.7. Импорт данных из SAS ......................................................... 82 2.3.8. Импорт данных из Stata ....................................................... 82 2.3.9. Импорт данных из баз данных ........................................... 83 2.3.10. Импорт данных при помощи Stat/Transfer.................... 84 2.4. Аннотирование наборов данных .................................................. 85 2.4.1. Подписи для переменных ................................................... 86 2.4.2. Подписи для значений переменных.................................. 86 2.5. Полезные функции для работы с объектами .............................. 86 Итоги ........................................................................................................ 87 3 Основы управления данными ...................................................... 88 3.1. Рабочий пример .............................................................................. 89 3.2. Создание новых переменных ........................................................ 91 3.3. Перекодирование переменных .................................................... 92 3.4. Переименование переменных ...................................................... 94 3.5. Пропущенные значения ................................................................. 95 3.5.1. Перекодирование значений в отсутствующие ................ 96 3.5.2. Исключение пропущенных значений из анализа ........... 96 3.6. Календарные даты........................................................................... 98 3.6.1. Преобразование дат в текстовые переменные ..............100 3.6.2. Получение дополнительной информации .....................100 3.7. Преобразования данных из одного типа в другой ...................100 3.8. Сортировка данных ......................................................................101 3.9. Объединение наборов данных ....................................................102 3.9.1. Добавление столбцов .........................................................102 3.9.2. Добавление строк ...............................................................103 3.10. Разделение наборов данных на составляющие ......................103 3.10.1. Выбор переменных ..........................................................103 3.10.2. Исключение переменных из выборки ..........................104 3.10.3. Выборка наблюдений .......................................................105 3.10.4. Функция subset() ...............................................................106 3.10.5. Выборка случайных наблюдений ...................................107 3.11. Использование dplyr для работы с таблицами данных .........107 3.11.1. Основные функции из пакета dplyr ..............................108 Оглавление 7
3.11.2. Объединение инструкций с помощью оператора конвейера ...................................................................111 3.12. Использование инструкций SQL для работы с таблицами данных ....................................................................................................112 Итоги ......................................................................................................113 4 Начало работы с диаграммами .............................................. 114 4.1. Создание диаграмм с помощью пакета ggplot2 ........................116 4.1.1. ggplot .....................................................................................116 4.1.2. Геометрические объекты ...................................................117 4.1.3. Группировка .........................................................................121 4.1.4. Масштабирование ..............................................................123 4.1.5. Категоризованные диаграммы .........................................125 4.1.6. Метки ....................................................................................127 4.1.7. Темы ......................................................................................128 4.2. Особенности пакета ggplot2 ........................................................130 4.2.1. Параметры с данными и настройками визуального представления ........................................................130 4.2.2. Диаграммы как объекты ....................................................132 4.2.3. Сохранение диаграмм ........................................................133 4.2.4. Типичные ошибки ..............................................................134 Итоги ......................................................................................................135 5 Дополнительные приемы управления данными .................... 136 5.1. Задача по управлению данными .................................................137 5.2. Числовые и текстовые функции .................................................138 5.2.1. Математические функции .................................................138 5.2.2. Статистические функции ..................................................139 5.2.3. Функции распределения вероятности ............................142 5.2.4. Текстовые функции ............................................................146 5.2.5. Другие полезные функции ................................................148 5.2.6. Применение функций к матрицам и таблицам данных .......................................................................149 5.2.7. Решение задачи по управлению данными ..............................150 5.3. Управление потоком выполнения ..............................................155 5.3.1. Циклы ...................................................................................156 5.3.2. Выполнение по условию ....................................................157 5.4. Пользовательские функции .........................................................158 5.5. Агрегирование и реструктуризация данных ............................160 5.5.1. Транспонирование .............................................................161 5.5.2. Преобразование широкого набора данных в длинный и обратно ....................................................................162 5.6. Агрегирование данных .................................................................164 Итоги ......................................................................................................167 Оглавление 8
ЧАСТЬ II. БАЗОВЫЕ МЕТОДЫ ..................................... 169 6 Базовые диаграммы ................................................................... 171 6.1. Столбиковые диаграммы .............................................................172 6.1.1. Простые столбиковые диаграммы...................................172 6.1.2. Столбиковые диаграммы: составные, с группировкой и спинограммы .................................................173 6.1.3. Столбиковые диаграммы средних значений .................175 6.1.4. Настройка столбиковых диаграмм ..................................178 6.2. Круговые диаграммы ....................................................................183 6.3. Диаграммы «плоское дерево» .....................................................186 6.3. Гистограммы ..................................................................................189 6.5. Диаграммы ядерной оценки функции плотности ...................192 6.6. Коробчатые диаграммы ...............................................................196 6.6.1. Использование коробчатых диаграмм для сравнения групп .....................................................................197 6.6.2. Скрипичные диаграммы ....................................................200 6.7. Точечные диаграммы ....................................................................202 Итоги ......................................................................................................204 7 Основные методы статистической обработки данных ..... 205 7.1. Описательные статистики ...........................................................206 7.1.1. Калейдоскоп методов .........................................................207 7.1.2. Дополнительные возможности ........................................208 7.1.3. Вычисление описательных статистик для групп данных ..........................................................................211 7.1.4. Получение описательных статистик в интерактивном режиме с помощью dplyr ..............................213 7.1.5. Визуализация результатов .................................................215 7.2. Таблицы частот и таблицы сопряженности .............................215 7.2.1. Создание таблиц частот ....................................................216 7.2.2. Критерии независимости .................................................223 7.2.3. Меры тесноты связи ..........................................................225 7.2.4. Визуализация результатов .................................................225 7.3. Корреляция ....................................................................................226 7.3.1. Типы корреляций ...............................................................226 7.3.2. Проверка статистической значимости корреляций .....229 7.3.3. Визуализация корреляций ................................................231 7.4. Критерий Стьюдента ....................................................................232 7.4.1. Критерий Стьюдента для независимых выборок .............. 232 7.4.2. Критерий Стьюдента для зависимых выборок .............233 7.4.3. Когда имеется больше двух групп ....................................234 7.5. Непараметрические критерии межгрупповых различий ......235 7.5.1. Сравнение двух групп ........................................................235 7.5.2. Сравнение более двух групп .............................................236 7.6. Визуализация групповых различий ............................................239 Итоги ......................................................................................................239 Оглавление 9
ЧАСТЬ III. МЕТОДЫ СРЕДНЕЙ СЛОЖНОСТИ ......... 241 8 Регрессия ...................................................................................... 243 8.1. Многоликая регрессия .................................................................245 8.1.1. Когда используется МНК-регрессия ................................246 8.1.2. Что нужно знать ..................................................................247 8.2. МНК-регрессия ..............................................................................247 8.2.1. Подгонка регрессионных моделей при помощи lm() ...... 248 8.2.2. Простая линейная регрессия ...........................................250 8.2.3. Полиномиальная регрессия ..............................................253 8.2.4. Множественная линейная регрессия ..............................255 8.2.5. Множественная линейная регрессия с учетом взаимосвязей .................................................................258 8.3. Диагностика регрессионных моделей .......................................260 8.3.1. Стандартный подход ..........................................................261 8.3.2. Усовершенствованный подход .........................................264 8.3.3. Мультиколлинеарность .....................................................270 8.4. Необычные наблюдения ..............................................................271 8.4.1. Выбросы ...............................................................................271 8.4.2. Точки высокой напряженности .......................................271 8.4.3. Влиятельные наблюдения .................................................273 8.5. Способы корректировки ..............................................................276 8.5.1. Удаление наблюдений ........................................................277 8.5.2. Преобразование переменных ..........................................277 8.5.3. Добавление или удаление переменных ...........................279 8.5.4. Применение другого подхода ...........................................280 8.6. Выбор «лучшей» регрессионной модели ..................................280 8.6.1. Сравнение моделей ............................................................281 8.6.2. Выбор переменных ............................................................282 8.7. Продолжение анализа ..................................................................286 8.7.1. Перекрестная проверка.....................................................286 8.7.2. Относительная важность ..................................................288 Итоги ......................................................................................................292 9 Дисперсионный анализ .............................................................. 293 9.1. Краткий обзор терминологии ....................................................294 9.2. Подгонка ANOVA-моделей ...........................................................297 9.2.1. Функция aov() ......................................................................298 9.2.2. Порядок членов в формуле ...............................................299 9.3. Однофакторный дисперсионный анализ .................................300 9.3.1. Множественное сравнение ...............................................303 9.3.2. Проверка справедливости предположений ...................306 9.4. Однофакторный ковариационный анализ ...............................308 9.4.1. Проверка справедливости предположений ...................310 9.4.2. Визуализация результатов .................................................311 9.5. Двухфакторный дисперсионный анализ ...................................312 Оглавление 10