Вероятностное машинное обучение: введение

Ознакомиться

Вероятностное машинное обучение: введение

Введение

Покупка

Тематика: Теория вероятностей. Математическая статистика

Издательство: ДМК Пресс

Автор: Мэрфи Кевин П.

Перевод: Слинкин Алексей Александрович

Год издания: 2023

Кол-во страниц: 990

Дополнительно

Вид издания: Практическое пособие

Уровень образования: ВО - Специалитет

ISBN: 978-5-93700-119-1

Артикул: 794588.02.99

Как получить доступ?

Студенту или преподавателю

Отправьте заявку на получение ключа доступа в библиотеку Вашего учебного заведения

Представителю организации

Отправьте заявку на подключение к Znanium по договору

Аннотация
Оглавление
Коллекции
Классификаторы
Бибзапись
Фрагменты

Данный классический труд содержит современное введение в машинное обучение, рассматриваемое сквозь призму вероятностного моделирования и байесовской теории принятия решений. Включен базовый математический аппарат (в том числе элементы линейной алгебры и теории оптимизации), основы обучения с учителем (включая линейную и логистическую регрессию и глубокие нейронные сети), а также более глубокие темы (в частности, перенос обучения и обучение без учителя). Упражнения в конце глав помогут читателям применить полученные знания. В приложении приводится сводка используемых обозначений. Книга будет полезна специалистам в области машинного обучения и студентам профильных специальностей.

Тематика:

240308: Теория вероятностей. Математическая статистика

ББК:

3297: Вычислительная техника

УДК:

004: Информационные технологии. Вычислительная техника...

ОКСО:

ГРНТИ:

28.29.03: Теория полезности и принятия решений

Мэрфи, К. П. Вероятностное машинное обучение: введение : практическое руководство / К. П. Мэрфи ; пер. с англ. А. А. Слинкина. - Москва : ДМК Пресс, 2023. - 990 с. - ISBN 978-5-93700-119-1. - Текст : электронный. - URL: https://znanium.com/catalog/product/2109489 (дата обращения: 23.05.2025). – Режим доступа: по подписке.

Скопировать запись

Экспорт списка

Excel

RUSMARC .iso

win-1251

UTF-8

RUSMARC .txt

win-1251

UTF-8

IRBIS .txt

win-1251

UTF-8

Фрагмент текстового слоя документа размещен для индексирующих роботов

Кэвин П. Мэрфи
Вероятностное  
машинное обучение
Введение

стр. 1

Kevin P. Murphy
Probabilistic  
Machine Learning
An Introduction
Cambridge, Massachusetts
London, England

стр. 2

Кэвин П. Мэрфи
Вероятностное 
машинное обучение
Введение
Москва, 2023

стр. 3

УДК 004.048
ББК 32.972
М97
Мэрфи К. П.
М97 Вероятностное машинное обучение: введение / пер. с англ. А. А. Слинки
ISBN 978-5-93700-119-1
Данный классический труд содержит современное введение в машинное
обучение, рассматриваемое сквозь призму вероятностного моделирования
и байе-совской теории принятия решений. Включен базовый математический
аппарат (в том числе элементы линейной алгебры и теории оптимизации), основы
обуче-ния с учителем (включая линейную и логистическую регрессию и глубокие
нейронные сети), а также более глубокие темы (в частности, перенос обучения
и обучение без учителя).
Упражнения в конце глав помогут читателям применить полученные знания.
В приложении приводится сводка используемых обозначений.
Книга будет полезна специалистам в области машинного обучения и студентам
профильных специальностей.
УДК 004.048
ББК 32.972
Copyright Original English language edition published by The MIT Press Cambridge, MA.
Copyright © 2021 Kevin P. Murphy. Russian-language edition copyright © 2022 by DMK Press.
All rights reserved. The rights to the Russian-language edition obtained through Alexander
Korzhenevski Agency (Moscow). Права на издание получены при помощи агентства Александра Корженевского (Москва).
Все права защищены. Любая часть этой книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения
владельцев авторских прав.
ISBN 978-0-2620468-2-4 (англ.)
© Kevin P. Murphy, 2021
ISBN 978-5-93700-119-1 (рус.)
© Перевод, оформление, издание,
ДМК Пресс, 2022

стр. 4

Содержание
От издательства.....................................................................................................30
Предисловие...........................................................................................................31
Глава 1. Введение.................................................................................................34
1.1. Что такое машинное обучение?.........................................................................34
1.2. Обучение с учителем...........................................................................................35
1.2.1. Классификация..............................................................................................35
1.2.1.1. Пример: классификация ирисов.........................................................35
1.2.1.2. Разведочный анализ данных...............................................................37
1.2.1.3. Обучение классификатора...................................................................38
1.2.1.4. Минимизация эмпирического риска.................................................39
1.2.1.5. Неопределенность.................................................................................41
1.2.1.6. Оценка максимального правдоподобия............................................42
1.2.2. Регрессия........................................................................................................43
1.2.2.1. Линейная регрессия..............................................................................44
1.2.2.2. Полиномиальная регрессия.................................................................45
1.2.2.3. Глубокие нейронные сети....................................................................46
1.2.3. Переобучение и обобщаемость..................................................................47
1.2.4. Теорема об отсутствии бесплатных завтраков........................................48
1.3. Обучение без учителя..........................................................................................48
1.3.1. Кластеризация...............................................................................................49
1.3.2. Обнаружение латентных «факторов изменчивости»..............................50
1.3.3. Самостоятельное обучение.........................................................................51
1.3.4. Оценка обучения без учителя.....................................................................52
1.4. Обучение с подкреплением................................................................................53
1.5. Данные...................................................................................................................55
1.5.1. Некоторые широко известные наборы изображений.............................55
1.5.1.1. Небольшие наборы изображений.......................................................55
1.5.1.2. ImageNet.................................................................................................56
1.5.2. Некоторые широко известные наборы текстовых данных....................57
1.5.2.1. Классификация текста..........................................................................58
1.5.2.2. Машинный перевод..............................................................................59
1.5.2.3. Другие задачи типа seq2seq.................................................................59
1.5.2.4. Языковое моделирование....................................................................59
1.5.3. Предобработка дискретных входных данных..........................................60
1.5.3.1. Унитарное кодирование.......................................................................60
1.5.3.2. Перекрестные произведения признаков...........................................60
1.5.4. Предобработка текстовых данных.............................................................61
1.5.4.1. Модель мешка слов...............................................................................61
1.5.4.2 TF-IDF.......................................................................................................62

стр. 5

6    Содержание
1.5.4.3. Погружения слов....................................................................................63
1.5.4.4. Обработка новых слов..........................................................................63
1.5.5. Обработка отсутствующих данных............................................................64
1.6. Обсуждение...........................................................................................................65
1.6.1. Связь МО с другими дисциплинами..........................................................65
1.6.2. Структура книги............................................................................................66
1.6.3. Подводные камни.........................................................................................66
Часть I. ОСНОВАНИЯ........................................................................................68
Глава 2. Вероятность: одномерные модели...........................................69
2.1. Введение................................................................................................................69
2.1.1. Что такое вероятность?................................................................................69
2.1.2. Типы неопределенности..............................................................................70
2.1.3. Вероятность как обобщение логики..........................................................70
2.1.3.1. Вероятность события............................................................................70
2.1.3.2. Вероятность конъюнкции двух событий...........................................71
2.1.3.3. Вероятность объединения двух событий...........................................71
2.1.3.4. Условная вероятность одного события при условии другого.........71
2.1.3.5. Независимость событий.......................................................................72
2.1.3.6. Условная независимость событий......................................................72
2.2. Случайные величины..........................................................................................72
2.2.1. Дискретные случайные величины.............................................................72
2.2.2. Непрерывные случайные величины..........................................................73
2.2.2.1. Функция распределения.......................................................................73
2.2.2.2. Функция плотности распределения...................................................74
2.2.2.3. Квантили.................................................................................................75
2.2.3. Множества связанных случайных величин..............................................75
2.2.4. Независимость и условная независимость...............................................76
2.2.5. Моменты распределения.............................................................................77
2.2.5.1. Среднее распределения........................................................................78
2.2.5.2. Дисперсия распределения...................................................................78
2.2.5.3. Мода распределения.............................................................................79
2.2.5.4. Условные моменты................................................................................80
2.2.6. Ограничения сводных статистик*.............................................................81
2.3. Формула Байеса....................................................................................................83
2.3.1. Пример: тестирование на COVID-19..........................................................84
2.3.2. Пример: парадокс Монти Холла.................................................................86
2.3.3. Обратные задачи*.........................................................................................88
2.4. Распределение Бернулли и биномиальное распределение...........................89
2.4.1. Определение..................................................................................................89
2.4.2. Сигмоидная (логистическая) функция......................................................90
2.4.3. Бинарная логистическая регрессия...........................................................92
2.5. Категориальное и мультиномиальное распределение..................................93
2.5.1. Определение..................................................................................................93
2.5.2. Функция softmax...........................................................................................94

стр. 6

Содержание    7
2.5.3. Многоклассовая логистическая регрессия................................................95
2.5.4. Логарифмирование, суммирование, потенцирование...........................96
2.6. Одномерное гауссово (нормальное) распределение......................................97
2.6.1. Функция распределения..............................................................................98
2.6.2. Функция плотности вероятности...............................................................99
2.6.3. Регрессия......................................................................................................100
2.6.4. Почему гауссово распределение так широко используется?...............101
2.6.5. Дельта-функция Дирака как предельный случай..................................102
2.7. Другие часто встречающиеся одномерные распределения*.......................102
2.7.1. Распределение Стьюдента.........................................................................102
2.7.2. Распределение Коши..................................................................................104
2.7.3. Распределение Лапласа..............................................................................105
2.7.4. Бета-распределение....................................................................................105
2.7.5. Гамма-распределение................................................................................106
2.7.6. Эмпирическое распределение..................................................................107
2.8. Преобразования случайных величин*............................................................108
2.8.1. Дискретный случай....................................................................................109
2.8.2. Непрерывный случай.................................................................................109
2.8.3. Обратимые преобразования (биекции)..................................................109
2.8.3.1. Замена переменных: скалярный случай.........................................109
2.8.3.2. Замена переменных: многомерный случай....................................110
2.8.4. Моменты линейного преобразования.....................................................112
2.8.5. Теорема о свертке.......................................................................................113
2.8.6. Центральная предельная теорема...........................................................115
2.8.7. Аппроксимация Монте-Карло..................................................................115
2.9. Упражнения.........................................................................................................116
Глава 3. Вероятность: многомерные модели.......................................120
3.1. Совместные распределения нескольких случайных величин....................120
3.1.1. Ковариация..................................................................................................120
3.1.2. Корреляция..................................................................................................121
3.1.3. Некоррелированные не значит независимые........................................122
3.1.4. Из коррелированности не следует наличие  
причинно-следственной связи...........................................................................122
3.1.5. Парадокс Симпсона....................................................................................123
3.2. Многомерное гауссово (нормальное) распределение..................................126
3.2.1. Определение................................................................................................126
3.2.2. Расстояние Махаланобиса.........................................................................127
3.2.3. Маргинальные и условные распределения для многомерного 
нормального распределения*.............................................................................129
3.2.4. Пример: обусловливание двумерного гауссова распределения..........130
3.2.5. Пример: подстановка отсутствующих значений*.................................131
3.3. Линейные гауссовы системы*..........................................................................132
3.3.1. Формула Байеса для гауссовых распределений.....................................132
3.3.2. Вывод*..........................................................................................................133
3.3.3. Пример: вывод неизвестного скаляра.....................................................134
3.3.4. Пример: вывод неизвестного вектора.....................................................136

стр. 7

8    Содержание
3.3.5. Пример: слияние показаний датчиков...................................................137
3.4. Экспоненциальное семейство распределений*............................................139
3.4.1. Определение................................................................................................139
3.4.2. Пример.........................................................................................................140
3.4.3. Логарифмическая функция разбиения является производящей 
функцией кумулянтов..........................................................................................141
3.4.4. Вывод максимальной энтропии экспоненциального семейства........141
3.5. Смесевые модели...............................................................................................142
3.5.1. Модель гауссовой смеси.............................................................................143
3.5.2. Модели бернуллиевой смеси....................................................................145
3.6. Графовые вероятностные модели*..................................................................146
3.6.1. Представление............................................................................................146
3.6.1.1. Пример: оросительная система........................................................147
3.6.1.2. Пример: марковская цепь..................................................................148
3.6.2. Вывод............................................................................................................149
3.6.3. Обучение......................................................................................................149
3.6.3.1. Блочная нотация..................................................................................150
3.7. Упражнения.........................................................................................................151
Глава 4. Статистика.............................................................................................153
4.1. Введение..............................................................................................................153
4.2. Оценка максимального правдоподобия (MLE).............................................153
4.2.1. Определение................................................................................................154
4.2.2. Обоснование MLE.......................................................................................155
4.2.3. Пример: MLE для распределения Бернулли...........................................156
4.2.4. Пример: MLE для категориального распределения..............................157
4.2.5. Пример: MLE для одномерного гауссова распределения.....................158
4.2.6. Пример: MLE для многомерного гауссова распределения...................159
4.2.6.1. MLE среднего........................................................................................159
4.2.6.2. MLE ковариационной матрицы........................................................160
4.2.7. Пример: MLE для линейной регрессии....................................................161
4.3. Минимизация эмпирического риска (ERM)..................................................162
4.3.1. Пример: минимизации частоты неправильной классификации........163
4.3.2. Суррогатная потеря....................................................................................163
4.4. Другие методы оценивания*............................................................................165
4.4.1. Метод моментов.........................................................................................165
4.4.1.1. Пример: MOM для одномерного гауссова распределения............165
4.4.1.2. Пример: MOM для непрерывного равномерного  
распределения..................................................................................................166
4.4.2. Онлайновое (рекурсивное) оценивание.................................................167
4.4.2.1. Пример: рекурсивная MLE среднего гауссова распределения.....167
4.4.2.2. Экспоненциально взвешенное скользящее среднее.....................167
4.5. Регуляризация....................................................................................................169
4.5.1. Пример: оценка MAP для распределения Бернулли.............................170
4.5.2. Пример: оценка MAP для многомерного гауссова распределения*....171
4.5.2.1. Оценка усадки......................................................................................171
4.5.3. Пример: уменьшение весов......................................................................172

стр. 8

Содержание    9
4.5.4. Подбор регуляризатора с помощью контрольного набора..................173
4.5.5. Перекрестная проверка.............................................................................174
4.5.5.1. Правило одной стандартной ошибки...............................................175
4.5.5.2. Пример: гребневая регрессия............................................................176
4.5.6. Ранняя остановка........................................................................................176
4.5.7. Больше данных............................................................................................177
4.6. Байесовские статистики*..................................................................................178
4.6.1. Сопряженные априорные распределения..............................................179
4.6.2. Бета-биномиальная модель......................................................................180
4.6.2.1. Правдоподобие Бернулли..................................................................180
4.6.2.2. Биномиальное правдоподобие.........................................................180
4.6.2.3. Априорное распределение.................................................................181
4.6.2.4. Апостериорное распределение.........................................................181
4.6.2.5. Пример..................................................................................................181
4.6.2.6. Апостериорная мода (оценка MAP)..................................................182
4.6.2.7. Апостериорное среднее......................................................................183
4.6.2.8. Апостериорная дисперсия.................................................................183
4.6.2.9. Апостериорное прогнозное распределение....................................184
4.6.2.10. Маргинальное правдоподобие........................................................187
4.6.2.11. Смеси сопряженных априорных распределений.........................187
4.6.3. Дирихле-мультиномиальная модель.......................................................189
4.6.3.1. Правдоподобие....................................................................................189
4.6.3.2. Априорное распределение.................................................................189
4.6.3.3. Апостериорное распределение.........................................................191
4.6.3.4. Апостериорное прогнозное распределение....................................192
4.6.3.5. Маргинальное правдоподобие..........................................................192
4.6.4. Гауссова-гауссова модель..........................................................................193
4.6.4.1. Одномерный случай............................................................................193
4.6.4.2. Многомерный случай.........................................................................195
4.6.5. За пределами сопряженных априорных распределений.....................196
4.6.5.1. Неинформативные априорные распределения.............................197
4.6.5.2. Иерархические априорные распределения....................................197
4.6.5.3. Эмпирические априорные распределения.....................................197
4.6.6. Байесовские доверительные интервалы.................................................198
4.6.7. Байесовское машинное обучение.............................................................200
4.6.7.1. Подстановочная аппроксимация......................................................201
4.6.7.2. Пример: скалярный вход, бинарный выход....................................201
4.6.7.3. Пример: бинарный вход, скалярный выход....................................203
4.6.7.4. Вертикальное масштабирование......................................................205
4.6.8. Вычислительные трудности......................................................................205
4.6.8.1. Сеточная аппроксимация..................................................................206
4.6.8.2. Квадратичная аппроксимация (Лапласа)........................................206
4.6.8.3. Вариационная аппроксимация.........................................................207
4.6.8.4. Аппроксимация методом Монте-Карло по схеме  
марковских цепей............................................................................................208
4.7. Частотная статистика*.......................................................................................208
4.7.1. Выборочное распределение......................................................................209

стр. 9

10    Содержание
4.7.2. Гауссова аппроксимация выборочного распределения MLE...............210
4.7.3. Бутстрэпная аппроксимация выборочного распределения  
любого оценивателя.............................................................................................211
4.7.3.1. Бутстрэп – апостериорное распределение «для бедных»..............211
4.7.4. Доверительные интервалы........................................................................212
4.7.5. Предостережения: доверительные интервалы и байесовские 
доверительные интервалы не одно и то же......................................................214
4.7.6. Компромисс между смещением и дисперсией......................................215
4.7.6.1. Смещение оценки................................................................................215
4.7.6.2. Дисперсия оценки...............................................................................216
4.7.6.3. Компромисс между смещением и дисперсией...............................216
4.7.6.4. Пример: оценка MAP среднего гауссова распределения...............217
4.7.6.5. Пример: оценка MAP для линейной регрессии..............................218
4.7.6.6. Применение компромисса между смещением и дисперсией  
для классификации..........................................................................................220
4.8. Упражнения.........................................................................................................220
Глава 5. Теория принятия решений...........................................................225
5.1. Байесовская теория принятия решений.........................................................225
5.1.1. Основы..........................................................................................................225
5.1.2. Проблемы классификации........................................................................227
5.1.2.1. Бинарная потеря..................................................................................228
5.1.2.2. Классификация с учетом стоимости................................................228
5.1.2.3. Классификация с возможностью отклонения примера................229
5.1.3. ROC-кривые.................................................................................................230
5.1.3.1. Матрицы неточностей классификации...........................................230
5.1.3.2. Обобщение ROC-кривой в виде скаляра..........................................233
5.1.3.3. Несбалансированность классов.........................................................233
5.1.4. Кривые точность–полнота........................................................................233
5.1.4.1. Вычисление точности и полноты......................................................234
5.1.4.2. Обобщение кривых точность–полнота в виде скаляра.................234
5.1.4.3. F-мера....................................................................................................235
5.1.4.4. Несбалансированность классов.........................................................235
5.1.5. Задачи регрессии........................................................................................236
5.1.5.1. 𝓁2-потеря...............................................................................................236
5.1.5.2 𝓁1-потеря................................................................................................237
5.1.5.3. Функция потерь Хьюбера...................................................................237
5.1.6. Задачи вероятностного предсказания....................................................238
5.1.6.1. Расхождение КЛ, перекрестная энтропия  
и логарифмическая потеря.............................................................................238
5.1.6.2. Правила верной оценки.....................................................................239
5.2. Байесовская проверка гипотез.........................................................................240
5.2.1. Пример: проверка симметричности монеты.........................................241
5.2.2. Байесовский выбор модели.......................................................................242
5.2.2.1. Пример: полиномиальная регрессия...............................................243
5.2.3. Бритва Оккама............................................................................................244
5.2.4. Связь между перекрестной проверкой и маргинальным 
правдоподобием...................................................................................................246

стр. 10

Вероятностное машинное обучение: введение

Похожие