Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

R в действии. Анализ и визуализация данных с использованием R и Tidyverse

Покупка
Артикул: 652916.05.99
Доступ онлайн
1 999 ₽
В корзину
R - это мощный язык для статистических вычислений и графики, который может справиться поистине с любой задачей в области обработки данных. Он работает во всех важных операционных системах и поддерживает тысячи специализированных модулей и утилит. Все это делает R замечательным средством для извлечения полезной информации из гор сырых данных. "R в действии" - это руководство по обучению этому языку с особым вниманием к практическим задачам. В данной книге представлены полезные примеры статистической обработки данных и описаны изящные методы работы с запутанными и неполными данными, а также с данными, распределение которых отлично от нормального и с которыми трудно справиться обычными методами. Статистический анализ - это только одна сторона дела. Вы также овладеете обширными графическими возможностями для визуального исследования и представления данных.
Кабаков, Р. R в действии. Анализ и визуализация данных с использованием R и Tidyverse / Р. Кабаков ; пер. с англ. А. Н. Киселева. - 3-е изд. - Москва : ДМК Пресс, 2023. - 769 с. - ISBN 978-5-93700-173-3. - Текст : электронный. - URL: https://znanium.ru/catalog/product/2150529 (дата обращения: 22.11.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
Роберт И. Кабаков

R в действии

Анализ и визуализация данных с использованием 
R и Tidyverse

R in Action

DATA ANALYSIS AND GRAPHICS  
WITH R AND TIDYVERSE

ROBERT I. KABACOFF

Third edition

R в действии

АНАЛИЗ И ВИЗУАЛИЗАЦИЯ ДАННЫХ  
С ИСПОЛЬЗОВАНИЕМ R И TIDYVERSE

РОБЕРТ И. КАБАКОВ

Москва, 2023

Третье издание

УДК 004.04
ББК  32.372
К12

Роберт И. Кабаков
К12  R в действии / пер. с англ. А. Н. Киселева. 3-е изд. – М.: ДМК Пресс, 2023. – 
768 с.: ил.

ISBN 978-5-93700-173-3

R – золотой стандарт, ежедневно используемый исследователями по 
всему миру для самых разных вычислений и статистического анализа 
данных. Этот свободно распространяемый язык с открытым исходным 
кодом включает огромное количество пакетов самой разной направленности, от расширенной визуализации данных до глубокого обучения. 
Чрезвычайно удобный для пользователей с математическим складом ума, 
R легко решает практические задачи, не заставляя думать о них с точки 
зрения программиста.
Данная книга научит вас выполнять статистический анализ и визуализировать результаты с помощью R и его популярных пакетов; решать 
такие практические задачи, как прогнозирование, интеллектуальный 
анализ данных и разработка динамических отчетов. В третье издание 
добавлены новые сведения о построении диаграмм с помощью пакета 
ggplot2, а также приводятся примеры из области машинного обучения, 
такие как кластеризация, классификация и анализ временных рядов.
Издание предназначено для широкого круга специалистов по обработке данных.

УДК 004.04
ББК 32.372

Authorized translation of the English edition ©2022 Manning Publications. This 
translation is published and sold by permission of Manning Publications, the owner 
of all rights to publish and sell the same.

Все права защищены. Любая часть этой книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами без 
письменного разрешения владельцев авторских прав.

© 2022 by Manning Publications Co.
©  Оформление, издание, перевод, 
ДМК Пресс, 2023
ISBN  (анг.) 978-1-61729-605-5
ISBN  (рус.) 978-5-93700-173-3

Краткое оглавление

ЧАСТЬ I. НАЧАЛО РАБОТЫ ............................................. 35

1 
Знакомство с R ......................................................................... 37
2 
 Создание набора данных ....................................................... 58
3 
Основы управления данными ............................................... 88
4 
Начало работы с диаграммами ........................................... 114
5 
Дополнительные приемы управления данными ............. 136

ЧАСТЬ II. БАЗОВЫЕ МЕТОДЫ ..................................... 169

6 
Базовые диаграммы .............................................................. 171
7 
Основные методы статистической обработки данных ......205

ЧАСТЬ III. МЕТОДЫ СРЕДНЕЙ СЛОЖНОСТИ ......... 241

8 
Регрессия ................................................................................ 243
9 
Дисперсионный анализ ........................................................ 293
10 Анализ мощности .................................................................. 327
11 Диаграммы средней сложности .......................................... 346
12 Статистика повторных выборок и бутстреп-анализ ....... 378

ЧАСТЬ IV. МЕТОДЫ ПОВЫШЕННОЙ  
СЛОЖНОСТИ ................................................................. 401

13 Обобщенные линейные модели ......................................... 403
14 Метод главных компонент и факторный анализ ............. 425
15 Временные ряды ................................................................... 451
16 Кластерный анализ ............................................................... 486
17 Классификация ..................................................................... 512
18 Продвинутые методы работы с пропущенными  
             данными ................................................................................. 542

ЧАСТЬ V. РАСШИРЕНИЕ ВОЗМОЖНОСТЕЙ ............ 569

19 Продвинутые методы работы с диаграммами .................. 571
20 Продвинутые приемы программирования ....................... 608
21 Создание динамических отчетов ....................................... 647
22 Создание пакетов .................................................................. 667
23 Продвинутая графика с использованием пакета lattice ......696

Оглавление

Предисловие от издательства ............................................................ 17
Предисловие ......................................................................................... 19
Благодарности ...................................................................................... 22
Об этой книге ....................................................................................... 24
Об авторе............................................................................................... 33
Об иллюстрации на обложке ............................................................. 34

ЧАСТЬ I. НАЧАЛО РАБОТЫ ............................................. 35

1 Знакомство с R ............................................................................. 37

1.1. Зачем использовать R? ................................................................... 39
1.2. Получение и установка R ............................................................... 42
1.3. Работа в R ......................................................................................... 42
1.3.1. Начало работы ...................................................................... 43
1.3.2. Использование RStudio ....................................................... 45
1.3.3. Как получить помощь........................................................... 48
1.3.4. Рабочее пространство ......................................................... 50
1.3.5. Проекты ................................................................................. 51
1.4. Пакеты .............................................................................................. 51
1.4.1. Что такое пакеты? ................................................................ 52
1.4.2. Установка пакета ................................................................... 52
1.4.3. Загрузка пакета...................................................................... 53
1.4.4. Получение информации о пакете ...................................... 53
1.5. Передача вывода на ввод: повторное  
использование результатов .................................................................. 54
1.6. Работа с большими массивами данных ........................................ 55
1.7. Учимся на примере ......................................................................... 55
Итоги ........................................................................................................ 57

2 Создание набора данных .............................................................. 58

2.1. Что такое набор данных? ............................................................... 59
2.2. Структуры данных ........................................................................... 60
2.2.1. Векторы .................................................................................. 61
2.2.2. Матрицы ................................................................................ 62
2.2.3. Массивы ................................................................................. 64
2.2.4. Таблицы данных .................................................................... 64
2.2.5. Факторы ................................................................................. 67
2.2.6. Списки .................................................................................... 70
2.2.7. Усовершенствованные таблицы данных ........................... 71

2.3. Ввод данных ..................................................................................... 73
2.3.1. Ввод данных с клавиатуры .................................................. 74
2.3.2. Импорт данных из текстового файла  
с разделителями .............................................................................. 76
2.3.3. Импорт данных из Excel ...................................................... 80
2.3.4. Импорт данных из JSON-файлов ....................................... 81
2.3.5. Извлечение данных из веб-страниц .................................. 81
2.3.6. Импорт данных из SPSS ....................................................... 82
2.3.7. Импорт данных из SAS ......................................................... 82
2.3.8. Импорт данных из Stata ....................................................... 82
2.3.9. Импорт данных из баз данных ........................................... 83
2.3.10. Импорт данных при помощи Stat/Transfer.................... 84
2.4. Аннотирование наборов данных .................................................. 85
2.4.1. Подписи для переменных ................................................... 86
2.4.2. Подписи для значений переменных.................................. 86
2.5. Полезные функции для работы с объектами .............................. 86
Итоги ........................................................................................................ 87

3 Основы управления данными ...................................................... 88

3.1. Рабочий пример .............................................................................. 89
3.2. Создание новых переменных ........................................................ 91
3.3. Перекодирование переменных .................................................... 92
3.4. Переименование переменных ...................................................... 94
3.5. Пропущенные значения ................................................................. 95
3.5.1. Перекодирование значений в отсутствующие ................ 96
3.5.2. Исключение пропущенных значений из анализа ........... 96
3.6. Календарные даты........................................................................... 98
3.6.1. Преобразование дат в текстовые переменные ..............100
3.6.2. Получение дополнительной информации .....................100
3.7.  Преобразования данных из одного типа в другой ...................100
3.8. Сортировка данных ......................................................................101
3.9. Объединение наборов данных ....................................................102
3.9.1. Добавление столбцов .........................................................102
3.9.2. Добавление строк ...............................................................103
3.10.  Разделение наборов данных на составляющие ......................103
3.10.1. Выбор переменных ..........................................................103
3.10.2. Исключение переменных из выборки ..........................104
3.10.3. Выборка наблюдений .......................................................105
3.10.4. Функция subset() ...............................................................106
3.10.5. Выборка случайных наблюдений ...................................107
3.11. Использование dplyr для работы с таблицами данных .........107
3.11.1. Основные функции  из пакета dplyr ..............................108

Оглавление
7

3.11.2. Объединение инструкций с помощью  
оператора конвейера ...................................................................111
3.12. Использование инструкций SQL для работы с таблицами 
данных ....................................................................................................112
Итоги ......................................................................................................113

4 Начало работы с диаграммами .............................................. 114

4.1. Создание диаграмм с помощью пакета ggplot2 ........................116
4.1.1. ggplot .....................................................................................116
4.1.2. Геометрические объекты ...................................................117
4.1.3. Группировка .........................................................................121
4.1.4. Масштабирование ..............................................................123
4.1.5. Категоризованные диаграммы .........................................125
4.1.6. Метки ....................................................................................127
4.1.7. Темы ......................................................................................128

4.2. Особенности пакета ggplot2 ........................................................130
4.2.1. Параметры с данными и настройками  
визуального представления ........................................................130
4.2.2. Диаграммы как объекты ....................................................132
4.2.3. Сохранение диаграмм ........................................................133
4.2.4. Типичные ошибки ..............................................................134
Итоги ......................................................................................................135

5 Дополнительные приемы управления данными .................... 136

5.1. Задача по управлению данными .................................................137
5.2. Числовые и текстовые функции .................................................138
5.2.1. Математические функции .................................................138
5.2.2. Статистические функции ..................................................139
5.2.3. Функции распределения вероятности ............................142
5.2.4. Текстовые функции ............................................................146
5.2.5. Другие полезные функции ................................................148
5.2.6. Применение функций к матрицам  
и таблицам данных .......................................................................149
5.2.7. Решение задачи по управлению данными ..............................150
5.3. Управление потоком выполнения ..............................................155
5.3.1. Циклы ...................................................................................156
5.3.2. Выполнение по условию ....................................................157
5.4. Пользовательские функции .........................................................158
5.5. Агрегирование и реструктуризация данных ............................160
5.5.1. Транспонирование .............................................................161
5.5.2. Преобразование широкого набора данных 
в длинный и обратно ....................................................................162
5.6. Агрегирование данных .................................................................164
Итоги ......................................................................................................167

Оглавление
8

ЧАСТЬ II. БАЗОВЫЕ МЕТОДЫ ..................................... 169

6 Базовые диаграммы ................................................................... 171

6.1. Столбиковые диаграммы .............................................................172
6.1.1. Простые столбиковые диаграммы...................................172
6.1.2. Столбиковые диаграммы: составные,  
с группировкой и спинограммы .................................................173
6.1.3. Столбиковые диаграммы средних значений .................175
6.1.4. Настройка столбиковых диаграмм ..................................178
6.2. Круговые диаграммы ....................................................................183
6.3. Диаграммы «плоское дерево» .....................................................186
6.3. Гистограммы ..................................................................................189
6.5.  Диаграммы ядерной оценки функции плотности ...................192
6.6. Коробчатые диаграммы ...............................................................196
6.6.1. Использование коробчатых диаграмм  
для сравнения групп .....................................................................197
6.6.2. Скрипичные диаграммы ....................................................200
6.7. Точечные диаграммы ....................................................................202
Итоги ......................................................................................................204

7 Основные методы статистической обработки данных ..... 205

7.1. Описательные статистики ...........................................................206
7.1.1. Калейдоскоп методов .........................................................207
7.1.2. Дополнительные возможности ........................................208
7.1.3. Вычисление описательных статистик  
для групп данных ..........................................................................211
7.1.4. Получение описательных статистик  
в интерактивном режиме с помощью dplyr ..............................213
7.1.5. Визуализация результатов .................................................215
7.2. Таблицы частот и таблицы сопряженности .............................215
7.2.1. Создание таблиц частот ....................................................216
7.2.2. Критерии независимости .................................................223
7.2.3. Меры тесноты связи ..........................................................225
7.2.4. Визуализация результатов .................................................225
7.3. Корреляция ....................................................................................226
7.3.1. Типы корреляций ...............................................................226
7.3.2.  Проверка статистической значимости корреляций .....229
7.3.3. Визуализация корреляций ................................................231
7.4. Критерий Стьюдента ....................................................................232
7.4.1. Критерий Стьюдента для независимых выборок .............. 232
7.4.2. Критерий Стьюдента для зависимых выборок .............233
7.4.3. Когда имеется больше двух групп ....................................234
7.5. Непараметрические критерии межгрупповых различий ......235
7.5.1. Сравнение двух групп ........................................................235
7.5.2. Сравнение более двух групп .............................................236
7.6. Визуализация групповых различий ............................................239
Итоги ......................................................................................................239

Оглавление
9

ЧАСТЬ III. МЕТОДЫ СРЕДНЕЙ СЛОЖНОСТИ ......... 241

8 Регрессия ...................................................................................... 243

8.1. Многоликая регрессия .................................................................245
8.1.1. Когда используется МНК-регрессия ................................246
8.1.2. Что нужно знать ..................................................................247
8.2. МНК-регрессия ..............................................................................247
8.2.1. Подгонка регрессионных моделей при помощи lm() ...... 248
8.2.2. Простая линейная регрессия ...........................................250
8.2.3. Полиномиальная регрессия ..............................................253
8.2.4. Множественная линейная регрессия ..............................255
8.2.5. Множественная линейная регрессия  
с учетом взаимосвязей .................................................................258
8.3. Диагностика регрессионных моделей .......................................260
8.3.1. Стандартный подход ..........................................................261
8.3.2. Усовершенствованный подход .........................................264
8.3.3. Мультиколлинеарность .....................................................270
8.4. Необычные наблюдения ..............................................................271
8.4.1. Выбросы ...............................................................................271
8.4.2. Точки высокой напряженности .......................................271
8.4.3. Влиятельные наблюдения .................................................273
8.5. Способы корректировки ..............................................................276
8.5.1. Удаление наблюдений ........................................................277
8.5.2. Преобразование переменных ..........................................277
8.5.3. Добавление или удаление переменных ...........................279
8.5.4. Применение другого подхода ...........................................280
8.6. Выбор «лучшей» регрессионной модели ..................................280
8.6.1. Сравнение моделей ............................................................281
8.6.2. Выбор переменных ............................................................282
8.7. Продолжение анализа ..................................................................286
8.7.1. Перекрестная проверка.....................................................286
8.7.2. Относительная важность ..................................................288
Итоги ......................................................................................................292

9 Дисперсионный анализ .............................................................. 293

9.1. Краткий обзор терминологии ....................................................294
9.2. Подгонка ANOVA-моделей ...........................................................297
9.2.1. Функция aov() ......................................................................298
9.2.2. Порядок членов в формуле ...............................................299
9.3. Однофакторный дисперсионный анализ .................................300
9.3.1. Множественное сравнение ...............................................303
9.3.2. Проверка справедливости предположений ...................306
9.4. Однофакторный ковариационный анализ ...............................308
9.4.1. Проверка справедливости предположений ...................310
9.4.2. Визуализация результатов .................................................311
9.5. Двухфакторный дисперсионный анализ ...................................312

Оглавление
10

Доступ онлайн
1 999 ₽
В корзину