Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Прогнозное моделирование в IBM SPSS Statistics и R: Метод деревьев решений

Покупка
Артикул: 667585.02.99
К покупке доступен более свежий выпуск Перейти
Данная книга представляет собой практическое руководство по применению метода деревьев решений для задач сегментации, классификации и прогнозирования. Каждый раздел книги сопровождается практическим примером. Кроме того, книга содержит программный код SPSS Syntax и R, позволяющий полностью автоматизировать процесс построения прогнозных моделей. Автором обобщены лучшие практики использования деревьев решений от таких компаний, как Citibank N.A., Transunion и DBS Bank. Издание будет интересно маркетологам, риск-аналитикам и другим специалистам, занимающимся разработкой и внедрением прогнозных моделей.
Груздев, А.В. Прогнозное моделирование в IBM SPSS Statistics и R: Метод деревьев решений / А.В. Груздев. - Москва : ДМК Пресс, 2016. - 278 с. - ISBN 978-5-97060-456-4. - Текст : электронный. - URL: https://znanium.ru/catalog/product/1028064 (дата обращения: 22.11.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
Инетенетмагазин:
www.dmkpress.com
Книга – почтой:
email: orders@alians-kniga.ru
Оптовая продажа: 
«Альянскнига»
Тел./факс: (499) 7823889
email: books@alians-kniga.ru
www.дмк.рф

Прочитав эту книгу, вы сможете:

•   строить и интерпретировать деревья решений;
•   оценивать дискриминирующую способность полученных
      моделей;
•   улучшать модели дерева с помощью процедуры обрезки ветвей 
     (прунинга);
•   улучшать модели логистической регрессии, используя 
      информацию дерева;
•   применять правила классификации/прогноза, полученные 
      с помощью дерева, к новым данным.

Данная книга открывает серию пособий, посвященных 

практическому применению методов машинного обучения 

на базе популярных статистических пакетов IBM SPSS Statistics и R. 

Прогнозное моделирование
в IBM SPSS Statistics и R

Артем Груздев – основатель и директор компании 
«Гевисста», имеет 7-летний опыт прогнозирования 
кредитных рисков и 15-летний опыт статистического 
анализа. Автор многочисленных курсов по работе в пакетах IBM SPSS Statistics, IBM SPSS Modeler и R, переводчик 
книг «Скрапинг веб-сайтов с помощью Python» и «Анализ 
сетей (графов) в R», автор статей по моделированию 
кредитных рисков. В последние годы активно занимается 
практическим построением прогнозных моделей.

Исследовательский центр «Гевисста» с 2009 г. осуществляет разработку, 
валидацию, внедрение и мониторинг риск-моделей, моделей оттока, 
моделей отклика на базе IBM SPSS Statistics, IBM SPSS Modeler, SAS 
Enterprise Miner, SAS Enterprise Guide, R, Python. Осуществляет подготовку специалистов в сфере прогнозного моделирования и анализа 
данных. Клиентами являются Citibank N.A., TransUnion, DBS Bank и 
Banco Galicia. 

9 785970 604564

ISBN 978-5-97060-456-4

Артем Груздев 

Прогнозное моделирование

Прогнозное 
моделирование
в IBM SPSS Statistics и R
Метод деревьев решений

Артем Груздев

Прогнозное моделирование  
в IBM SPSS Statistics и R

Метод деревьев решений

Москва, 2017

УДК 519.7:004.9IBM SPSS Statistics
ББК 21.18с
Г90

Груздев А. В.

Г90 
Прогнозное моделирование в IBM SPSS Statistics и R: Метод деревьев решений. – М.: ДМК Пресс, 2016. – 278 с.: ил.

ISBN 978-5-97060-456-4

Данная книга представляет собой практическое руководство по применению метода де
ревьеврешенийдлязадачсегментации,классификацииипрогнозирования.Каждыйраздел
книгисопровождаетсяпрактическимпримером.Крометого,книгасодержитпрограммный
кодSPSSSyntaxиR,позволяющийполностьюавтоматизироватьпроцесспостроенияпрогнозных моделей. Автором обобщены лучшие практики использования деревьев решений
от таких компаний, как Citibank N.A., Transunion и DBS Bank.

Издание будет интересно маркетологам, риск-аналитикам и другим специалистам, за
нимающимся разработкой и внедрением прогнозных моделей.

УДК 519.7:004.9IBM SPSS Statistics
ББК 21.18с

Все права защищены. Любая часть этой книги не может быть воспроизведена в какой бы

то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев
авторских прав.

Материал, изложенный в данной книге, многократно проверен. Но поскольку вероятность

технических ошибок все равно существует, издательство не может гарантировать абсолютную точность и правильность приводимых сведений. В связи с этим издательство не несет ответственности
за возможные ошибки, связанные с использованием книги.

 
© Груздев А. В., 2016

ISBN 978-5-97060-456-4 
© Оформление, издание, ДМК Пресс, 2016

Содержание

Предисловие ......................................................................7

Глава 1. Введение в метод деревьев решений ..........................9
1.1. Введение в методологию деревьев решений .......................................................................9
1.2. Преимущества и недостатки деревьев решений ..............................................................11
1.3. Задачи, выполняемые с помощью деревьев решений ...................................................12
Вопросы к главе 1 ...............................................................................................................................14

Часть I. ПОСТРОЕНИЕ ДЕРЕВЬЕВ РЕШЕНИЙ  
В IBM SPSS STATISTICS ....................................................... 16

Глава 2. Основы прогнозного моделирования с помощью  
деревьев решений CHAID .................................................... 17
2.1. Запуск процедуры Деревья классификации.....................................................................17
2.2. Четыре метода деревьев решений .........................................................................................19
2.3. Шкалы переменных ...................................................................................................................21
2.4. Определение необходимого размера выборки .................................................................23
2.5. Знакомство с методом CHAID ..............................................................................................25
2.5.1. Описание алгоритма .........................................................................................................25
2.5.2. Немного о тесте хи-квадрат ............................................................................................28
2.5.3. Немного об F-тесте ............................................................................................................28
2.5.4. Способы объединения категорий предикторов .......................................................29
2.5.5. Поправка Бонферрони .....................................................................................................30
2.5.6. Иллюстрация работы CHAID на конкретном примере .......................................30
2.6. Построение дерева классификации CHAID .....................................................................35
2.6.1. Настройка процедуры Деревья классификации .....................................................35
2.6.2. Работа с отчетом о построении модели ......................................................................36
2.7. Работа с прогнозами модели ..................................................................................................43
2.7.1. Получение результатов классификации  ...................................................................43
2.7.2. Сохранение прогнозов модели в файле данных ......................................................44
2.7.3. Самостоятельное построение таблицы классификации и изменение  
порогового значения вероятности ..........................................................................................48
2.8. Анализ ROC-кривой .................................................................................................................57
2.8.1. Терминология анализа ROC-кривой ..........................................................................57
2.8.2. Оценка дискриминирующей способности модели и выбор  
порогового значения с помощью ROC-кривой ..................................................................61
2.9. Проверка модели ........................................................................................................................67
2.9.1. Методы проверки модели в процедуре Деревья классификации .....................67
2.9.2. Работа с результатами проверки модели ...................................................................70
2.10. Дополнительные настройки вывода результатов .........................................................84
2.10.1. Настройки вывода дерева .............................................................................................84
2.10.2. Построение таблицы дерева .........................................................................................85

 Содержание

2.10.3. Настройки вывода статистик ......................................................................................86
2.10.4. Построение таблиц выигрышей для узлов и процентилей ...............................88
2.10.5. Настройки вывода графиков .......................................................................................89
2.10.6. Построение графиков выигрышей, индексов и откликов .................................91
2.10.7. Настройки вывода правил классификации ............................................................93
2.10.8. Применение правил классификации  
к новому набору данных .............................................................................................................95
2.11. Построение дерева регрессии CHAID ........................................................................... 104
2.12. Использование принудительной переменной расщепления ................................. 108
Вопросы к главе 2 ............................................................................................................................ 109

Глава 3. Продвинутое моделирование с помощью  
деревьев решений CHAID .................................................. 112
3.1. Построение деревьев CHAID с измененными критериями ..................................... 112
3.1.1. Настройка правил остановки ...................................................................................... 112
3.1.2. Построение деревьев CHAID с измененными правилами остановки .......... 113
3.1.3. Настройка статистических тестов для разбиения узлов  
и объединения категорий предикторов .............................................................................. 119
3.1.4. Построение дерева CHAID с измененными статистическими тестами ...... 120
3.1.5. Настройка обработки количественных предикторов ......................................... 121
3.1.6. Построение дерева CHAID с измененным числом интервалов  
для количественных предикторов  ....................................................................................... 122
3.2. Метод Исчерпывающий CHAID ....................................................................................... 123
3.3. Обзор параметров деревьев решений ............................................................................... 124
3.4. Работа с пропусками в методе CHAID ............................................................................ 126
3.4.1. Настройка обработки пропущенных значений .................................................... 126
3.4.2. Построение дерева CHAID на основе данных,  
содержащих пропуски .............................................................................................................. 129
3.5. Работа со стоимостями ошибочной классификации в методе CHAID ................ 130
3.5.1. Настройка стоимостей ошибочной классификации ........................................... 130
3.5.2. Построение дерева CHAID с измененными стоимостями ошибочной  
классификации ........................................................................................................................... 133
3.6. Работа с прибылями в методе CHAID ............................................................................. 136
3.6.1. Настройка прибылей ..................................................................................................... 136
3.6.2. Построение дерева CHAID с заданными значениями прибыли .................... 137
3.7. Работа со значениями ............................................................................................................ 141
3.8. Применение метода CHAID для биннинга переменных (на примере  
конкурсной задачи ОТП Банка) ................................................................................................ 144
3.8.1. Преимущества и недостатки биннинга ................................................................... 144
3.8.2. Предварительная подготовка данных ...................................................................... 146
3.8.3. Определение важности переменных с помощью случайного леса ................ 162
3.8.4. Анализ мультиколлинеарности.................................................................................. 165
3.8.5. Выполнение автоматического биннинга переменных ....................................... 167
3.8.6. Построение моделей логистической регрессии на основе исходных  
предикторов и предикторов, категоризированных с помощью CHAID ................. 169

Содержание  5

3.8.7. Выполнение биннинга переменных с помощью процедуры  
Оптимальная категоризация .................................................................................................. 172
3.8.8. Построение модели логистической регрессии на основе  
оптимально категоризированных предикторов .............................................................. 175
3.8.9. Преобразование количественных переменных для максимизации  
нормальности .............................................................................................................................. 176
3.8.10. Построение модели логистической регрессии с использованием  
CHAID и преобразования корня третьей степени ......................................................... 180
3.9. Построение ансамбля логистической регрессии и дерева CHAID ........................ 181
Вопросы к главе 3 ............................................................................................................................ 186

Глава 4. Построение деревьев решений CRT и QUEST  ............ 188
4.1. Знакомство с методом CRT ................................................................................................. 188
4.1.1. Описание алгоритма ...................................................................................................... 189
4.1.2. Неоднородность ............................................................................................................... 190
4.1.3. Внутриузловая дисперсия ........................................................................................... 191
4.1.4. Метод отсечения ветвей на основе меры стоимости-сложности ................... 192
4.1.5. Обработка пропущенных значений .......................................................................... 193
4.1.6. Иллюстрация работы CRT на конкретном примере .......................................... 193
4.2. Построение дерева классификации CRT ........................................................................ 195
4.3. Построение дерева CRT с измененными критериями ............................................... 199
4.3.1. Настройка мер неоднородности для отбора предикторов  
и расщепления узлов ................................................................................................................ 199
4.3.2. Настройка отсечения ветвей ....................................................................................... 200
4.3.3. Построение дерева CRT с последующим отсечением ветвей .......................... 201
4.3.4. Настройка суррогатов для обработки пропущенных значений ..................... 203
4.3.5. Построение дерева CRT на основе данных, содержащих пропуски ............. 203
4.4. Вывод важности предикторов ............................................................................................. 206
4.5. Работа с априорными вероятностями в методе CRT .................................................. 207
4.5.1. Настройка априорных вероятностей ....................................................................... 207
4.5.2. Построение дерева CRT с измененными априорными вероятностями ....... 208
4.6. Знакомство с методом QUEST ........................................................................................... 210
4.6.1. Описание алгоритма ...................................................................................................... 211
4.6.2. Метод отсечения ветвей на основе меры стоимости-сложности ................... 213
4.7. Построение дерева классификации QUEST ................................................................. 213
4.8. Сравнение метода QUEST с другими методами деревьев решений ..................... 216
4.9. Построение дерева QUEST с измененными критериями ......................................... 216
4.9.1. Настройка статистических тестов для отбора предикторов ............................ 217
4.9.2. Построение дерева QUEST с последующим отсечением ветвей ................... 217
Вопросы к главе 4 ............................................................................................................................ 219

Глава 5. Редактор дерева .................................................. 220
5.1. Просмотр диаграммы дерева в Редакторе ...................................................................... 220
5.2. Просмотр содержимого узла в Редакторе ....................................................................... 221
5.3. Настройка внешнего вида диаграммы дерева в Редакторе ....................................... 222

 Содержание

5.4. Изменение ориентации диаграммы дерева в Редакторе............................................ 223
5.5. Настройка содержимого узла в Редакторе ..................................................................... 223
5.6. Отбор наблюдений в Редакторе ......................................................................................... 224
5.7. Иллюстрация работы в Редакторе дерева на конкретном примере ...................... 225

Часть II. ПОСТРОЕНИЕ ДЕРЕВЬЕВ РЕШЕНИЙ В R ................... 229

Глава 6. Построение деревьев решений CHAID с помощью  
пакета R CHAID ................................................................ 230
6.1. Построение и интерпретация дерева классификации CHAID ............................... 230
6.2. Работа с прогнозами модели ............................................................................................... 234
6.3. Сохранение результатов прогноза ..................................................................................... 239
6.4. Применение модели к новым данным ............................................................................. 239
6.5. Проверка модели ..................................................................................................................... 241
6.6. Биннинг переменных ............................................................................................................. 242
6.6.1. Биннинг в пакете rattle ................................................................................................ 242
6.6.2. Биннинг в пакете smbinning .......................................................................................... 244
Вопросы к главе 6 ............................................................................................................................ 252

Глава 7. Построение деревьев решений CRT с помощью  
пакета R rpart .................................................................. 253
7.1. Метод отсечения ветвей на основе стоимости-сложности  
с кросс-проверкой ........................................................................................................................... 253
7.2. Построение и интерпретация дерева классификации CRT ..................................... 254
7.3. Прунинг дерева CRT .............................................................................................................. 262
7.4. Работа с прогнозами модели ............................................................................................... 264
7.5. Сохранение результатов прогноза ..................................................................................... 267
7.6. Применение модели к новым данным ............................................................................. 268
7.7. Построение и интерпретация дерева регрессии CRT ................................................. 269
Вопросы к главе 7 ............................................................................................................................ 273

Ключи к вопросам ............................................................ 275

Библиографический список .............................................. 276

Предисловие

Данная книга открывает серию пособий, посвященных практическому применению 
методов машинного обучения на базе популярных статистических пакетов IBM 
SPSS Statistics и R. В первом выпуске освещается метод деревьев решений. Деревья 
решений – это эффективный метод машинного обучения, использующийся в прогнозном моделировании. Кроме того, при решении задач бинарной классификации он нередко дополняет метод логистической регрессии. Аналитики кредитного 
бюро TransUnion для построения скоринговых моделей используют логистическую 
регрессию, а для отбора переменных в модель логистической регрессии (рассматриваются сотни переменных) – деревья решений CRT или случайный лес. Наша 
компания при построении прогнозных моделей на основе логистической регрессии 
использует метод деревьев решений, чтобы сформировать новые переменные для 
лучшего прогнозирования дефолта. Аналитики Citibank N.A. разбивают популяцию 
заемщиков на сегменты, применяя дерево решений, а затем в каждом сегменте строят модели доходности с помощью линейной регрессии или модели риска с помощью 
логистической регрессии.
Кратко о самой книге. В ней я детально расскажу о том, как строить деревья решений, интерпретировать их, оценивать дискриминирующую способность полученных 
моделей, улучшать их, сохранять результаты и применять правила классификации/
прогноза, полученные с помощью дерева, к новым данным. Кроме того, я расскажу 
о том, как с помощью дерева решений улучшить модель логистической регрессии. 
Глава 1 кратко знакомит с терминологией метода деревьев решений, в ней рассказывается о преимуществах и недостатках деревьев, задачах, которые можно выполнить с их помощью. Главы 2–4 посвящены построению деревьев решений в IBM 
SPSS Statistics 24.0. В главе 2 освещается CHAID – один из самых популярных методов деревьев решений. В главе 3 я покажу, как можно менять параметры дерева 
CHAID, влияя на результаты классификации. Здесь же я расскажу о том, как можно 
выполнить биннинг переменных для включения в модель логистической регрессии, 
использовав дерево решений CHAID и случайный лес. Для иллюстрации выбрана 
конкурсная задача предсказания отклика ОТП Банка. Кроме того, на данном примере 
я покажу, как выполняется предварительная подготовка данных и решаются вопросы, связанные с автоматизацией построения моделей (для этого будет использован 
командный синтаксис SPSS). Код, автоматизирующий процесс построения прогнозных моделей, вы можете в дальнейшем использовать в собственных проектах. В этой 
же главе будет рассмотрена разработка ансамбля модели логистической регрессии 
и дерева CHAID. Глава 4 посвящена методам деревьев CRT и QUEST. В главе 5 рассказывается о Редакторе дерева. В главах 6 и 7 я подробно рассмотрю процесс построения и интерпретации деревьев решений в пакетах R CHAID и rpart. Всю необходимую информацию об IBM SPSS Statistics вы найдете на официальном сайте 
компании IBM. Информацию о программном пакете R можно найти на официальной 
странице проекта R. Наборы данных и примеры программного кода, использующие 
в книге, находятся в папке Trees. Эту папку можно скачать в заархивированном виде 

 Предисловие

на сайте издательства ДМК Пресс и распаковать в корень диска. Все вопросы, возникшие в ходе чтения книги, можно направлять по адресу info@gewissta.ru.
Освещаемые темы будут интересны маркетологам, риск-аналитикам и другим специалистам, занимающимся разработкой и внедрением прогнозных моделей.
В заключение я хочу поблагодарить моих взыскательных клиентов и коллег из 
TransUnion, DBS Bank и Citibank N.A., в особенности Дмитрия Майорова (Citibank 
N. A., ArrowModel) и Барри Уилка (Google) за их ценные советы и замечания, высказанные в ходе подготовки книги.

Артем Груздев,
генеральный директор ИЦ «Гевисста»

Глава 1

Введение в метод 
деревьев решений

1.1. Введение в методологию деревьев решений

Как и регрессионный анализ, деревья решений являются методом изучения статистической взаимосвязи между одной зависимой переменной и несколькими независимыми (предикторными) переменными. Базовое отличие метода деревьев решений 
от регрессионного анализа заключается в том, что взаимосвязь между значением зависимой переменной и значениями независимых переменных представлена не в виде 
общего прогнозного уравнения, а  в виде древовидной структуры, которую получают 
с помощью  иерархической сегментации данных.
Берется весь обучающий набор данных, называемый корневым узлом, и разбивается на два или более узлов (сегментов) так, чтобы наблюдения, попавшие в разные 
узлы, максимально отличались друг от друга по зависимой переменной (например, 
выделяем два узла с наибольшим и наименьшим процентами «плохих» заемщиков). 
В роли правил разбиения, максимизирующих эти различия, выступают значения независимых переменных (пол, возраст, доход и др.). Качество разбиения оценивается 
с помощью статистических критериев. Правила и статистики отмечаются на ветвях – 
линиях, которые соединяют разбиваемый узел с узлами, полученными в результате 
разбиения. Для каждого узла вычисляются вероятности в виде процентных долей 
категорий зависимой переменной (если зависимая переменная является категориальной) или средние значения зависимой переменной (если зависимая переменная 
является количественной). В результате выносится решение – спрогнозированная 
категория зависимой переменной (если зависимая переменная является категори-
альной) или спрогнозированное среднее значение зависимой переменной (если зависимая переменная является количественной).
Аналогичным образом каждый узел, получившийся в результате разбиения корневого узла, разбивается дальше на узлы, т. е. узлы внутри узла, и т. д. Этот процесс 
продолжается до тех пор, пока есть возможность разбиения на узлы. Данный процесс 
сегментации называется рекурсивным разделением. Получившаяся иерархическая 
структура, характеризующая взаимосвязь между значением зависимой переменной 
и значениями независимых переменных, называется деревом. 
Иногда для обозначения разбиваемого узла применяется термин родительский 
узел. Новые узлы, получившиеся в результате разбиения, называются дочерними 

К покупке доступен более свежий выпуск Перейти