Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Вероятностное машинное обучение: введение

Введение
Покупка
Артикул: 794588.02.99
Данный классический труд содержит современное введение в машинное обучение, рассматриваемое сквозь призму вероятностного моделирования и байесовской теории принятия решений. Включен базовый математический аппарат (в том числе элементы линейной алгебры и теории оптимизации), основы обучения с учителем (включая линейную и логистическую регрессию и глубокие нейронные сети), а также более глубокие темы (в частности, перенос обучения и обучение без учителя). Упражнения в конце глав помогут читателям применить полученные знания. В приложении приводится сводка используемых обозначений. Книга будет полезна специалистам в области машинного обучения и студентам профильных специальностей.
Мэрфи, К. П. Вероятностное машинное обучение: введение : практическое руководство / К. П. Мэрфи ; пер. с англ. А. А. Слинкина. - Москва : ДМК Пресс, 2023. - 990 с. - ISBN 978-5-93700-119-1. - Текст : электронный. - URL: https://znanium.com/catalog/product/2109489 (дата обращения: 10.12.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
Кэвин П. Мэрфи

Вероятностное  
машинное обучение

Введение 

Kevin P. Murphy

Probabilistic  
Machine Learning

An Introduction

Cambridge, Massachusetts
London, England

Кэвин П. Мэрфи

Вероятностное 
машинное обучение

Введение

Москва, 2023

УДК 004.048
ББК 32.972
М97

Мэрфи К. П.
М97  Вероятностное машинное обучение: введение / пер. с англ. А. А. Слинкина. – М.: ДМК Пресс, 2023. – 990 с.: ил. 

ISBN 978-5-93700-119-1

Данный классический труд содержит современное введение в машинное 
обучение, рассматриваемое сквозь призму вероятностного моделирования 
и байе совской теории принятия решений. Включен базовый математический 
аппарат (в том числе элементы линейной алгебры и теории оптимизации), основы 
обуче ния с учителем (включая линейную и логистическую регрессию и глубокие 
нейронные сети), а также более глубокие темы (в частности, перенос обучения 
и обучение без учителя). 
Упражнения в конце глав помогут читателям применить полученные знания. 
В приложении приводится сводка используемых обозначений.
Книга будет полезна специалистам в области машинного обучения и студентам 
профильных специальностей.

УДК 004.048
ББК 32.972

Copyright Original English language edition published by The MIT Press Cambridge, MA. 
Copyright © 2021 Kevin P. Murphy. Russian-language edition copyright © 2022 by DMK Press. 
All rights reserved. The rights to the Russian-language edition obtained through Alexander 
Korzhenevski Agency (Moscow). Права на издание получены при помощи агентства Александра Корженевского (Москва).

Все права защищены. Любая часть этой книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения 
владельцев авторских прав.

ISBN 978-0-2620468-2-4 (англ.) 
©  Kevin P. Murphy, 2021
ISBN 978-5-93700-119-1 (рус.)  
©  Перевод, оформление, издание,  
ДМК Пресс, 2022

Содержание

От издательства ....................................................................................................30

Предисловие ..........................................................................................................31

Глава 1. Введение ................................................................................................34
1.1. Что такое машинное обучение? ........................................................................34
1.2. Обучение с учителем ..........................................................................................35
1.2.1. Классификация .............................................................................................35
1.2.1.1. Пример: классификация ирисов ........................................................35
1.2.1.2. Разведочный анализ данных ..............................................................37
1.2.1.3. Обучение классификатора ..................................................................38
1.2.1.4. Минимизация эмпирического риска ................................................39
1.2.1.5. Неопределенность ................................................................................41
1.2.1.6. Оценка максимального правдоподобия ...........................................42
1.2.2. Регрессия .......................................................................................................43
1.2.2.1. Линейная регрессия .............................................................................44
1.2.2.2. Полиномиальная регрессия ................................................................45
1.2.2.3. Глубокие нейронные сети ...................................................................46
1.2.3. Переобучение и обобщаемость .................................................................47
1.2.4. Теорема об отсутствии бесплатных завтраков........................................48
1.3. Обучение без учителя .........................................................................................48
1.3.1. Кластеризация ..............................................................................................49
1.3.2. Обнаружение латентных «факторов изменчивости» .............................50
1.3.3. Самостоятельное обучение ........................................................................51
1.3.4. Оценка обучения без учителя ....................................................................52
1.4. Обучение с подкреплением ...............................................................................53
1.5. Данные ..................................................................................................................55
1.5.1. Некоторые широко известные наборы изображений ............................55
1.5.1.1. Небольшие наборы изображений ......................................................55
1.5.1.2. ImageNet.................................................................................................56
1.5.2. Некоторые широко известные наборы текстовых данных ...................57
1.5.2.1. Классификация текста .........................................................................58
1.5.2.2. Машинный перевод .............................................................................59
1.5.2.3. Другие задачи типа seq2seq ................................................................59
1.5.2.4. Языковое моделирование ...................................................................59
1.5.3. Предобработка дискретных входных данных .........................................60
1.5.3.1. Унитарное кодирование ......................................................................60
1.5.3.2. Перекрестные произведения признаков ..........................................60
1.5.4. Предобработка текстовых данных ............................................................61
1.5.4.1. Модель мешка слов ..............................................................................61
1.5.4.2 TF-IDF ......................................................................................................62

 Содержание

1.5.4.3. Погружения слов ...................................................................................63
1.5.4.4. Обработка новых слов .........................................................................63
1.5.5. Обработка отсутствующих данных ...........................................................64
1.6. Обсуждение ..........................................................................................................65
1.6.1. Связь МО с другими дисциплинами .........................................................65
1.6.2. Структура книги ...........................................................................................66
1.6.3. Подводные камни ........................................................................................66

Часть I. ОСНОВАНИЯ .......................................................................................68

Глава 2. Вероятность: одномерные модели ..........................................69

2.1. Введение ...............................................................................................................69
2.1.1. Что такое вероятность? ...............................................................................69
2.1.2. Типы неопределенности .............................................................................70
2.1.3. Вероятность как обобщение логики .........................................................70
2.1.3.1. Вероятность события ...........................................................................70
2.1.3.2. Вероятность конъюнкции двух событий ..........................................71
2.1.3.3. Вероятность объединения двух событий ..........................................71
2.1.3.4. Условная вероятность одного события при условии другого ........71
2.1.3.5. Независимость событий ......................................................................72
2.1.3.6. Условная независимость событий .....................................................72
2.2. Случайные величины .........................................................................................72
2.2.1. Дискретные случайные величины ............................................................72
2.2.2. Непрерывные случайные величины .........................................................73
2.2.2.1. Функция распределения ......................................................................73
2.2.2.2. Функция плотности распределения ..................................................74
2.2.2.3. Квантили ................................................................................................75
2.2.3. Множества связанных случайных величин .............................................75
2.2.4. Независимость и условная независимость ..............................................76
2.2.5. Моменты распределения ............................................................................77
2.2.5.1. Среднее распределения .......................................................................78
2.2.5.2. Дисперсия распределения ..................................................................78
2.2.5.3. Мода распределения ............................................................................79
2.2.5.4. Условные моменты ...............................................................................80
2.2.6. Ограничения сводных статистик* ............................................................81
2.3. Формула Байеса ...................................................................................................83
2.3.1. Пример: тестирование на COVID-19 .........................................................84
2.3.2. Пример: парадокс Монти Холла ................................................................86
2.3.3. Обратные задачи* ........................................................................................88
2.4. Распределение Бернулли и биномиальное распределение ..........................89
2.4.1. Определение .................................................................................................89
2.4.2. Сигмоидная (логистическая) функция .....................................................90
2.4.3. Бинарная логистическая регрессия ..........................................................92
2.5. Категориальное и мультиномиальное распределение .................................93
2.5.1. Определение .................................................................................................93
2.5.2. Функция softmax ..........................................................................................94

Содержание  7

2.5.3. Многоклассовая логистическая регрессия ...............................................95
2.5.4. Логарифмирование, суммирование, потенцирование ..........................96
2.6. Одномерное гауссово (нормальное) распределение .....................................97
2.6.1. Функция распределения .............................................................................98
2.6.2. Функция плотности вероятности ..............................................................99
2.6.3. Регрессия .....................................................................................................100
2.6.4. Почему гауссово распределение так широко используется? ..............101
2.6.5. Дельта-функция Дирака как предельный случай .................................102
2.7. Другие часто встречающиеся одномерные распределения* ......................102
2.7.1. Распределение Стьюдента ........................................................................102
2.7.2. Распределение Коши .................................................................................104
2.7.3. Распределение Лапласа .............................................................................105
2.7.4. Бета-распределение ...................................................................................105
2.7.5. Гамма-распределение ...............................................................................106
2.7.6. Эмпирическое распределение .................................................................107
2.8. Преобразования случайных величин* ...........................................................108
2.8.1. Дискретный случай ...................................................................................109
2.8.2. Непрерывный случай ................................................................................109
2.8.3. Обратимые преобразования (биекции) .................................................109
2.8.3.1. Замена переменных: скалярный случай.........................................109
2.8.3.2. Замена переменных: многомерный случай ...................................110
2.8.4. Моменты линейного преобразования ....................................................112
2.8.5. Теорема о свертке ......................................................................................113
2.8.6. Центральная предельная теорема...........................................................115
2.8.7. Аппроксимация Монте-Карло..................................................................115
2.9. Упражнения ........................................................................................................116

Глава 3. Вероятность: многомерные модели ......................................120
3.1. Совместные распределения нескольких случайных величин....................120
3.1.1. Ковариация .................................................................................................120
3.1.2. Корреляция .................................................................................................121
3.1.3. Некоррелированные не значит независимые .......................................122
3.1.4. Из коррелированности не следует наличие  
причинно-следственной связи ..........................................................................122
3.1.5. Парадокс Симпсона ...................................................................................123
3.2. Многомерное гауссово (нормальное) распределение .................................126
3.2.1. Определение ...............................................................................................126
3.2.2. Расстояние Махаланобиса ........................................................................127
3.2.3. Маргинальные и условные распределения для многомерного 
нормального распределения* ............................................................................129
3.2.4. Пример: обусловливание двумерного гауссова распределения .........130
3.2.5. Пример: подстановка отсутствующих значений* ................................131
3.3. Линейные гауссовы системы* .........................................................................132
3.3.1. Формула Байеса для гауссовых распределений ....................................132
3.3.2. Вывод* .........................................................................................................133
3.3.3. Пример: вывод неизвестного скаляра ....................................................134
3.3.4. Пример: вывод неизвестного вектора ....................................................136

 Содержание

3.3.5. Пример: слияние показаний датчиков...................................................137
3.4. Экспоненциальное семейство распределений* ...........................................139
3.4.1. Определение ...............................................................................................139
3.4.2. Пример ........................................................................................................140
3.4.3. Логарифмическая функция разбиения является производящей 
функцией кумулянтов .........................................................................................141
3.4.4. Вывод максимальной энтропии экспоненциального семейства .......141
3.5. Смесевые модели ..............................................................................................142
3.5.1. Модель гауссовой смеси ............................................................................143
3.5.2. Модели бернуллиевой смеси ...................................................................145
3.6. Графовые вероятностные модели* .................................................................146
3.6.1. Представление............................................................................................146
3.6.1.1. Пример: оросительная система .......................................................147
3.6.1.2. Пример: марковская цепь .................................................................148
3.6.2. Вывод ...........................................................................................................149
3.6.3. Обучение .....................................................................................................149
3.6.3.1. Блочная нотация .................................................................................150
3.7. Упражнения ........................................................................................................151

Глава 4. Статистика ............................................................................................153
4.1. Введение .............................................................................................................153
4.2. Оценка максимального правдоподобия (MLE).............................................153
4.2.1. Определение ...............................................................................................154
4.2.2. Обоснование MLE ......................................................................................155
4.2.3. Пример: MLE для распределения Бернулли ..........................................156
4.2.4. Пример: MLE для категориального распределения .............................157
4.2.5. Пример: MLE для одномерного гауссова распределения ....................158
4.2.6. Пример: MLE для многомерного гауссова распределения ..................159
4.2.6.1. MLE среднего .......................................................................................159
4.2.6.2. MLE ковариационной матрицы .......................................................160
4.2.7. Пример: MLE для линейной регрессии ...................................................161
4.3. Минимизация эмпирического риска (ERM) .................................................162
4.3.1. Пример: минимизации частоты неправильной классификации .......163
4.3.2. Суррогатная потеря ...................................................................................163
4.4. Другие методы оценивания* ...........................................................................165
4.4.1. Метод моментов ........................................................................................165
4.4.1.1. Пример: MOM для одномерного гауссова распределения ...........165
4.4.1.2. Пример: MOM для непрерывного равномерного  
распределения .................................................................................................166
4.4.2. Онлайновое (рекурсивное) оценивание ................................................167
4.4.2.1. Пример: рекурсивная MLE среднего гауссова распределения ....167
4.4.2.2. Экспоненциально взвешенное скользящее среднее ....................167
4.5. Регуляризация ...................................................................................................169
4.5.1. Пример: оценка MAP для распределения Бернулли ............................170
4.5.2. Пример: оценка MAP для многомерного гауссова распределения* ...171
4.5.2.1. Оценка усадки .....................................................................................171
4.5.3. Пример: уменьшение весов .....................................................................172

Содержание  9

4.5.4. Подбор регуляризатора с помощью контрольного набора .................173
4.5.5. Перекрестная проверка ............................................................................174
4.5.5.1. Правило одной стандартной ошибки ..............................................175
4.5.5.2. Пример: гребневая регрессия ...........................................................176
4.5.6. Ранняя остановка .......................................................................................176
4.5.7. Больше данных ...........................................................................................177
4.6. Байесовские статистики* .................................................................................178
4.6.1. Сопряженные априорные распределения .............................................179
4.6.2. Бета-биномиальная модель .....................................................................180
4.6.2.1. Правдоподобие Бернулли .................................................................180
4.6.2.2. Биномиальное правдоподобие ........................................................180
4.6.2.3. Априорное распределение ................................................................181
4.6.2.4. Апостериорное распределение ........................................................181
4.6.2.5. Пример .................................................................................................181
4.6.2.6. Апостериорная мода (оценка MAP) .................................................182
4.6.2.7. Апостериорное среднее .....................................................................183
4.6.2.8. Апостериорная дисперсия ................................................................183
4.6.2.9. Апостериорное прогнозное распределение ...................................184
4.6.2.10. Маргинальное правдоподобие .......................................................187
4.6.2.11. Смеси сопряженных априорных распределений ........................187
4.6.3. Дирихле-мультиномиальная модель ......................................................189
4.6.3.1. Правдоподобие ...................................................................................189
4.6.3.2. Априорное распределение ................................................................189
4.6.3.3. Апостериорное распределение ........................................................191
4.6.3.4. Апостериорное прогнозное распределение ...................................192
4.6.3.5. Маргинальное правдоподобие .........................................................192
4.6.4. Гауссова-гауссова модель .........................................................................193
4.6.4.1. Одномерный случай ...........................................................................193
4.6.4.2. Многомерный случай ........................................................................195
4.6.5. За пределами сопряженных априорных распределений ....................196
4.6.5.1. Неинформативные априорные распределения.............................197
4.6.5.2. Иерархические априорные распределения....................................197
4.6.5.3. Эмпирические априорные распределения ....................................197
4.6.6. Байесовские доверительные интервалы ................................................198
4.6.7. Байесовское машинное обучение ............................................................200
4.6.7.1. Подстановочная аппроксимация .....................................................201
4.6.7.2. Пример: скалярный вход, бинарный выход ...................................201
4.6.7.3. Пример: бинарный вход, скалярный выход ...................................203
4.6.7.4. Вертикальное масштабирование .....................................................205
4.6.8. Вычислительные трудности .....................................................................205
4.6.8.1. Сеточная аппроксимация..................................................................206
4.6.8.2. Квадратичная аппроксимация (Лапласа) .......................................206
4.6.8.3. Вариационная аппроксимация ........................................................207
4.6.8.4. Аппроксимация методом Монте-Карло по схеме  
марковских цепей ...........................................................................................208
4.7. Частотная статистика* ......................................................................................208
4.7.1. Выборочное распределение .....................................................................209

 Содержание

4.7.2. Гауссова аппроксимация выборочного распределения MLE...............210
4.7.3. Бутстрэпная аппроксимация выборочного распределения  
любого оценивателя ............................................................................................211
4.7.3.1. Бутстрэп – апостериорное распределение «для бедных» .............211
4.7.4. Доверительные интервалы .......................................................................212
4.7.5. Предостережения: доверительные интервалы и байесовские 
доверительные интервалы не одно и то же .....................................................214
4.7.6. Компромисс между смещением и дисперсией......................................215
4.7.6.1. Смещение оценки ...............................................................................215
4.7.6.2. Дисперсия оценки ..............................................................................216
4.7.6.3. Компромисс между смещением и дисперсией ..............................216
4.7.6.4. Пример: оценка MAP среднего гауссова распределения ..............217
4.7.6.5. Пример: оценка MAP для линейной регрессии .............................218
4.7.6.6. Применение компромисса между смещением и дисперсией  
для классификации .........................................................................................220
4.8. Упражнения ........................................................................................................220

Глава 5. Теория принятия решений ..........................................................225
5.1. Байесовская теория принятия решений ........................................................225
5.1.1. Основы .........................................................................................................225
5.1.2. Проблемы классификации .......................................................................227
5.1.2.1. Бинарная потеря .................................................................................228
5.1.2.2. Классификация с учетом стоимости ...............................................228
5.1.2.3. Классификация с возможностью отклонения примера ...............229
5.1.3. ROC-кривые ................................................................................................230
5.1.3.1. Матрицы неточностей классификации ..........................................230
5.1.3.2. Обобщение ROC-кривой в виде скаляра .........................................233
5.1.3.3. Несбалансированность классов ........................................................233
5.1.4. Кривые точность–полнота .......................................................................233
5.1.4.1. Вычисление точности и полноты .....................................................234
5.1.4.2. Обобщение кривых точность–полнота в виде скаляра ................234
5.1.4.3. F-мера ...................................................................................................235
5.1.4.4. Несбалансированность классов ........................................................235
5.1.5. Задачи регрессии .......................................................................................236
5.1.5.1. 𝓁2-потеря ..............................................................................................236
5.1.5.2 𝓁1-потеря ...............................................................................................237
5.1.5.3. Функция потерь Хьюбера ..................................................................237
5.1.6. Задачи вероятностного предсказания....................................................238
5.1.6.1. Расхождение КЛ, перекрестная энтропия  
и логарифмическая потеря ............................................................................238
5.1.6.2. Правила верной оценки ....................................................................239
5.2. Байесовская проверка гипотез ........................................................................240
5.2.1. Пример: проверка симметричности монеты ........................................241
5.2.2. Байесовский выбор модели ......................................................................242
5.2.2.1. Пример: полиномиальная регрессия ..............................................243
5.2.3. Бритва Оккама ...........................................................................................244
5.2.4. Связь между перекрестной проверкой и маргинальным 
правдоподобием ..................................................................................................246