Каталог
Каталог
Вероятностное машинное обучение: введение
Введение
Покупка
Издательство:
ДМК Пресс
Автор:
Мэрфи Кевин П.
Перевод:
Слинкин Алексей Александрович
Год издания: 2023
Кол-во страниц: 990
Дополнительно
Вид издания:
Практическое пособие
Уровень образования:
ВО - Специалитет
ISBN: 978-5-93700-119-1
Артикул: 794588.02.99
Как получить доступ?
Студенту или преподавателю
Отправьте заявку на получение ключа доступа в библиотеку Вашего учебного заведения
Представителю организации
Отправьте заявку на подключение к Znanium по договору
- Аннотация
- Оглавление
- Коллекции
- Классификаторы
- Бибзапись
- Фрагменты
Данный классический труд содержит современное введение в машинное обучение, рассматриваемое сквозь призму вероятностного моделирования и байесовской теории принятия решений. Включен базовый математический аппарат (в том числе элементы линейной алгебры и теории оптимизации), основы обучения с учителем (включая линейную и логистическую регрессию и глубокие нейронные сети), а также более глубокие темы (в частности, перенос обучения и обучение без учителя).
Упражнения в конце глав помогут читателям применить полученные знания. В приложении приводится сводка используемых обозначений.
Книга будет полезна специалистам в области машинного обучения и студентам профильных специальностей.
34
35
35
43
48
55
55
57
60
61
69
69
70
72
73
77
83
89
93
97
102
108
109
120
120
126
132
139
146
153
153
159
162
165
165
169
178
180
189
196
200
208
211
215
225
225
227
230
233
236
240
248
253
253
258
268
268
275
280
292
292
295
300
306
310
315
320
322
327
332
335
339
346
346
346
349
355
362
366
372
377
378
382
384
389
401
401
405
412
417
420
420
423
432
433
443
447
455
455
457
461
467
471
481
487
491
494
505
514
516
519
529
533
538
540
545
548
553
561
563
563
575
582
585
591
592
602
602
602
607
612
617
620
629
639
643
653
653
658
659
662
665
669
676
676
683
688
696
716
716
721
725
740
742
746
753
755
762
768
776
776
779
782
787
790
797
802
813
816
824
832
832
835
843
843
846
851
852
860
865
873
873
879
885
889
895
897
900
900
909
910
911
915
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 09.03.01: Информатика и вычислительная техника
- 09.03.02: Информационные системы и технологии
- 09.03.04: Программная инженерия
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Кэвин П. Мэрфи Вероятностное машинное обучение Введение
Kevin P. Murphy Probabilistic Machine Learning An Introduction Cambridge, Massachusetts London, England
Кэвин П. Мэрфи Вероятностное машинное обучение Введение Москва, 2023
УДК 004.048 ББК 32.972 М97 Мэрфи К. П. М97 Вероятностное машинное обучение: введение / пер. с англ. А. А. Слинки ISBN 978-5-93700-119-1 Данный классический труд содержит современное введение в машинное обучение, рассматриваемое сквозь призму вероятностного моделирования и байе-совской теории принятия решений. Включен базовый математический аппарат (в том числе элементы линейной алгебры и теории оптимизации), основы обуче-ния с учителем (включая линейную и логистическую регрессию и глубокие нейронные сети), а также более глубокие темы (в частности, перенос обучения и обучение без учителя). Упражнения в конце глав помогут читателям применить полученные знания. В приложении приводится сводка используемых обозначений. Книга будет полезна специалистам в области машинного обучения и студентам профильных специальностей. УДК 004.048 ББК 32.972 Copyright Original English language edition published by The MIT Press Cambridge, MA. Copyright © 2021 Kevin P. Murphy. Russian-language edition copyright © 2022 by DMK Press. All rights reserved. The rights to the Russian-language edition obtained through Alexander Korzhenevski Agency (Moscow). Права на издание получены при помощи агентства Александра Корженевского (Москва). Все права защищены. Любая часть этой книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. ISBN 978-0-2620468-2-4 (англ.) © Kevin P. Murphy, 2021 ISBN 978-5-93700-119-1 (рус.) © Перевод, оформление, издание, ДМК Пресс, 2022
Содержание От издательства.....................................................................................................30 Предисловие...........................................................................................................31 Глава 1. Введение.................................................................................................34 1.1. Что такое машинное обучение?.........................................................................34 1.2. Обучение с учителем...........................................................................................35 1.2.1. Классификация..............................................................................................35 1.2.1.1. Пример: классификация ирисов.........................................................35 1.2.1.2. Разведочный анализ данных...............................................................37 1.2.1.3. Обучение классификатора...................................................................38 1.2.1.4. Минимизация эмпирического риска.................................................39 1.2.1.5. Неопределенность.................................................................................41 1.2.1.6. Оценка максимального правдоподобия............................................42 1.2.2. Регрессия........................................................................................................43 1.2.2.1. Линейная регрессия..............................................................................44 1.2.2.2. Полиномиальная регрессия.................................................................45 1.2.2.3. Глубокие нейронные сети....................................................................46 1.2.3. Переобучение и обобщаемость..................................................................47 1.2.4. Теорема об отсутствии бесплатных завтраков........................................48 1.3. Обучение без учителя..........................................................................................48 1.3.1. Кластеризация...............................................................................................49 1.3.2. Обнаружение латентных «факторов изменчивости»..............................50 1.3.3. Самостоятельное обучение.........................................................................51 1.3.4. Оценка обучения без учителя.....................................................................52 1.4. Обучение с подкреплением................................................................................53 1.5. Данные...................................................................................................................55 1.5.1. Некоторые широко известные наборы изображений.............................55 1.5.1.1. Небольшие наборы изображений.......................................................55 1.5.1.2. ImageNet.................................................................................................56 1.5.2. Некоторые широко известные наборы текстовых данных....................57 1.5.2.1. Классификация текста..........................................................................58 1.5.2.2. Машинный перевод..............................................................................59 1.5.2.3. Другие задачи типа seq2seq.................................................................59 1.5.2.4. Языковое моделирование....................................................................59 1.5.3. Предобработка дискретных входных данных..........................................60 1.5.3.1. Унитарное кодирование.......................................................................60 1.5.3.2. Перекрестные произведения признаков...........................................60 1.5.4. Предобработка текстовых данных.............................................................61 1.5.4.1. Модель мешка слов...............................................................................61 1.5.4.2 TF-IDF.......................................................................................................62
6 Содержание 1.5.4.3. Погружения слов....................................................................................63 1.5.4.4. Обработка новых слов..........................................................................63 1.5.5. Обработка отсутствующих данных............................................................64 1.6. Обсуждение...........................................................................................................65 1.6.1. Связь МО с другими дисциплинами..........................................................65 1.6.2. Структура книги............................................................................................66 1.6.3. Подводные камни.........................................................................................66 Часть I. ОСНОВАНИЯ........................................................................................68 Глава 2. Вероятность: одномерные модели...........................................69 2.1. Введение................................................................................................................69 2.1.1. Что такое вероятность?................................................................................69 2.1.2. Типы неопределенности..............................................................................70 2.1.3. Вероятность как обобщение логики..........................................................70 2.1.3.1. Вероятность события............................................................................70 2.1.3.2. Вероятность конъюнкции двух событий...........................................71 2.1.3.3. Вероятность объединения двух событий...........................................71 2.1.3.4. Условная вероятность одного события при условии другого.........71 2.1.3.5. Независимость событий.......................................................................72 2.1.3.6. Условная независимость событий......................................................72 2.2. Случайные величины..........................................................................................72 2.2.1. Дискретные случайные величины.............................................................72 2.2.2. Непрерывные случайные величины..........................................................73 2.2.2.1. Функция распределения.......................................................................73 2.2.2.2. Функция плотности распределения...................................................74 2.2.2.3. Квантили.................................................................................................75 2.2.3. Множества связанных случайных величин..............................................75 2.2.4. Независимость и условная независимость...............................................76 2.2.5. Моменты распределения.............................................................................77 2.2.5.1. Среднее распределения........................................................................78 2.2.5.2. Дисперсия распределения...................................................................78 2.2.5.3. Мода распределения.............................................................................79 2.2.5.4. Условные моменты................................................................................80 2.2.6. Ограничения сводных статистик*.............................................................81 2.3. Формула Байеса....................................................................................................83 2.3.1. Пример: тестирование на COVID-19..........................................................84 2.3.2. Пример: парадокс Монти Холла.................................................................86 2.3.3. Обратные задачи*.........................................................................................88 2.4. Распределение Бернулли и биномиальное распределение...........................89 2.4.1. Определение..................................................................................................89 2.4.2. Сигмоидная (логистическая) функция......................................................90 2.4.3. Бинарная логистическая регрессия...........................................................92 2.5. Категориальное и мультиномиальное распределение..................................93 2.5.1. Определение..................................................................................................93 2.5.2. Функция softmax...........................................................................................94
Содержание 7 2.5.3. Многоклассовая логистическая регрессия................................................95 2.5.4. Логарифмирование, суммирование, потенцирование...........................96 2.6. Одномерное гауссово (нормальное) распределение......................................97 2.6.1. Функция распределения..............................................................................98 2.6.2. Функция плотности вероятности...............................................................99 2.6.3. Регрессия......................................................................................................100 2.6.4. Почему гауссово распределение так широко используется?...............101 2.6.5. Дельта-функция Дирака как предельный случай..................................102 2.7. Другие часто встречающиеся одномерные распределения*.......................102 2.7.1. Распределение Стьюдента.........................................................................102 2.7.2. Распределение Коши..................................................................................104 2.7.3. Распределение Лапласа..............................................................................105 2.7.4. Бета-распределение....................................................................................105 2.7.5. Гамма-распределение................................................................................106 2.7.6. Эмпирическое распределение..................................................................107 2.8. Преобразования случайных величин*............................................................108 2.8.1. Дискретный случай....................................................................................109 2.8.2. Непрерывный случай.................................................................................109 2.8.3. Обратимые преобразования (биекции)..................................................109 2.8.3.1. Замена переменных: скалярный случай.........................................109 2.8.3.2. Замена переменных: многомерный случай....................................110 2.8.4. Моменты линейного преобразования.....................................................112 2.8.5. Теорема о свертке.......................................................................................113 2.8.6. Центральная предельная теорема...........................................................115 2.8.7. Аппроксимация Монте-Карло..................................................................115 2.9. Упражнения.........................................................................................................116 Глава 3. Вероятность: многомерные модели.......................................120 3.1. Совместные распределения нескольких случайных величин....................120 3.1.1. Ковариация..................................................................................................120 3.1.2. Корреляция..................................................................................................121 3.1.3. Некоррелированные не значит независимые........................................122 3.1.4. Из коррелированности не следует наличие причинно-следственной связи...........................................................................122 3.1.5. Парадокс Симпсона....................................................................................123 3.2. Многомерное гауссово (нормальное) распределение..................................126 3.2.1. Определение................................................................................................126 3.2.2. Расстояние Махаланобиса.........................................................................127 3.2.3. Маргинальные и условные распределения для многомерного нормального распределения*.............................................................................129 3.2.4. Пример: обусловливание двумерного гауссова распределения..........130 3.2.5. Пример: подстановка отсутствующих значений*.................................131 3.3. Линейные гауссовы системы*..........................................................................132 3.3.1. Формула Байеса для гауссовых распределений.....................................132 3.3.2. Вывод*..........................................................................................................133 3.3.3. Пример: вывод неизвестного скаляра.....................................................134 3.3.4. Пример: вывод неизвестного вектора.....................................................136
8 Содержание 3.3.5. Пример: слияние показаний датчиков...................................................137 3.4. Экспоненциальное семейство распределений*............................................139 3.4.1. Определение................................................................................................139 3.4.2. Пример.........................................................................................................140 3.4.3. Логарифмическая функция разбиения является производящей функцией кумулянтов..........................................................................................141 3.4.4. Вывод максимальной энтропии экспоненциального семейства........141 3.5. Смесевые модели...............................................................................................142 3.5.1. Модель гауссовой смеси.............................................................................143 3.5.2. Модели бернуллиевой смеси....................................................................145 3.6. Графовые вероятностные модели*..................................................................146 3.6.1. Представление............................................................................................146 3.6.1.1. Пример: оросительная система........................................................147 3.6.1.2. Пример: марковская цепь..................................................................148 3.6.2. Вывод............................................................................................................149 3.6.3. Обучение......................................................................................................149 3.6.3.1. Блочная нотация..................................................................................150 3.7. Упражнения.........................................................................................................151 Глава 4. Статистика.............................................................................................153 4.1. Введение..............................................................................................................153 4.2. Оценка максимального правдоподобия (MLE).............................................153 4.2.1. Определение................................................................................................154 4.2.2. Обоснование MLE.......................................................................................155 4.2.3. Пример: MLE для распределения Бернулли...........................................156 4.2.4. Пример: MLE для категориального распределения..............................157 4.2.5. Пример: MLE для одномерного гауссова распределения.....................158 4.2.6. Пример: MLE для многомерного гауссова распределения...................159 4.2.6.1. MLE среднего........................................................................................159 4.2.6.2. MLE ковариационной матрицы........................................................160 4.2.7. Пример: MLE для линейной регрессии....................................................161 4.3. Минимизация эмпирического риска (ERM)..................................................162 4.3.1. Пример: минимизации частоты неправильной классификации........163 4.3.2. Суррогатная потеря....................................................................................163 4.4. Другие методы оценивания*............................................................................165 4.4.1. Метод моментов.........................................................................................165 4.4.1.1. Пример: MOM для одномерного гауссова распределения............165 4.4.1.2. Пример: MOM для непрерывного равномерного распределения..................................................................................................166 4.4.2. Онлайновое (рекурсивное) оценивание.................................................167 4.4.2.1. Пример: рекурсивная MLE среднего гауссова распределения.....167 4.4.2.2. Экспоненциально взвешенное скользящее среднее.....................167 4.5. Регуляризация....................................................................................................169 4.5.1. Пример: оценка MAP для распределения Бернулли.............................170 4.5.2. Пример: оценка MAP для многомерного гауссова распределения*....171 4.5.2.1. Оценка усадки......................................................................................171 4.5.3. Пример: уменьшение весов......................................................................172
Содержание 9 4.5.4. Подбор регуляризатора с помощью контрольного набора..................173 4.5.5. Перекрестная проверка.............................................................................174 4.5.5.1. Правило одной стандартной ошибки...............................................175 4.5.5.2. Пример: гребневая регрессия............................................................176 4.5.6. Ранняя остановка........................................................................................176 4.5.7. Больше данных............................................................................................177 4.6. Байесовские статистики*..................................................................................178 4.6.1. Сопряженные априорные распределения..............................................179 4.6.2. Бета-биномиальная модель......................................................................180 4.6.2.1. Правдоподобие Бернулли..................................................................180 4.6.2.2. Биномиальное правдоподобие.........................................................180 4.6.2.3. Априорное распределение.................................................................181 4.6.2.4. Апостериорное распределение.........................................................181 4.6.2.5. Пример..................................................................................................181 4.6.2.6. Апостериорная мода (оценка MAP)..................................................182 4.6.2.7. Апостериорное среднее......................................................................183 4.6.2.8. Апостериорная дисперсия.................................................................183 4.6.2.9. Апостериорное прогнозное распределение....................................184 4.6.2.10. Маргинальное правдоподобие........................................................187 4.6.2.11. Смеси сопряженных априорных распределений.........................187 4.6.3. Дирихле-мультиномиальная модель.......................................................189 4.6.3.1. Правдоподобие....................................................................................189 4.6.3.2. Априорное распределение.................................................................189 4.6.3.3. Апостериорное распределение.........................................................191 4.6.3.4. Апостериорное прогнозное распределение....................................192 4.6.3.5. Маргинальное правдоподобие..........................................................192 4.6.4. Гауссова-гауссова модель..........................................................................193 4.6.4.1. Одномерный случай............................................................................193 4.6.4.2. Многомерный случай.........................................................................195 4.6.5. За пределами сопряженных априорных распределений.....................196 4.6.5.1. Неинформативные априорные распределения.............................197 4.6.5.2. Иерархические априорные распределения....................................197 4.6.5.3. Эмпирические априорные распределения.....................................197 4.6.6. Байесовские доверительные интервалы.................................................198 4.6.7. Байесовское машинное обучение.............................................................200 4.6.7.1. Подстановочная аппроксимация......................................................201 4.6.7.2. Пример: скалярный вход, бинарный выход....................................201 4.6.7.3. Пример: бинарный вход, скалярный выход....................................203 4.6.7.4. Вертикальное масштабирование......................................................205 4.6.8. Вычислительные трудности......................................................................205 4.6.8.1. Сеточная аппроксимация..................................................................206 4.6.8.2. Квадратичная аппроксимация (Лапласа)........................................206 4.6.8.3. Вариационная аппроксимация.........................................................207 4.6.8.4. Аппроксимация методом Монте-Карло по схеме марковских цепей............................................................................................208 4.7. Частотная статистика*.......................................................................................208 4.7.1. Выборочное распределение......................................................................209
10 Содержание 4.7.2. Гауссова аппроксимация выборочного распределения MLE...............210 4.7.3. Бутстрэпная аппроксимация выборочного распределения любого оценивателя.............................................................................................211 4.7.3.1. Бутстрэп – апостериорное распределение «для бедных»..............211 4.7.4. Доверительные интервалы........................................................................212 4.7.5. Предостережения: доверительные интервалы и байесовские доверительные интервалы не одно и то же......................................................214 4.7.6. Компромисс между смещением и дисперсией......................................215 4.7.6.1. Смещение оценки................................................................................215 4.7.6.2. Дисперсия оценки...............................................................................216 4.7.6.3. Компромисс между смещением и дисперсией...............................216 4.7.6.4. Пример: оценка MAP среднего гауссова распределения...............217 4.7.6.5. Пример: оценка MAP для линейной регрессии..............................218 4.7.6.6. Применение компромисса между смещением и дисперсией для классификации..........................................................................................220 4.8. Упражнения.........................................................................................................220 Глава 5. Теория принятия решений...........................................................225 5.1. Байесовская теория принятия решений.........................................................225 5.1.1. Основы..........................................................................................................225 5.1.2. Проблемы классификации........................................................................227 5.1.2.1. Бинарная потеря..................................................................................228 5.1.2.2. Классификация с учетом стоимости................................................228 5.1.2.3. Классификация с возможностью отклонения примера................229 5.1.3. ROC-кривые.................................................................................................230 5.1.3.1. Матрицы неточностей классификации...........................................230 5.1.3.2. Обобщение ROC-кривой в виде скаляра..........................................233 5.1.3.3. Несбалансированность классов.........................................................233 5.1.4. Кривые точность–полнота........................................................................233 5.1.4.1. Вычисление точности и полноты......................................................234 5.1.4.2. Обобщение кривых точность–полнота в виде скаляра.................234 5.1.4.3. F-мера....................................................................................................235 5.1.4.4. Несбалансированность классов.........................................................235 5.1.5. Задачи регрессии........................................................................................236 5.1.5.1. 𝓁2-потеря...............................................................................................236 5.1.5.2 𝓁1-потеря................................................................................................237 5.1.5.3. Функция потерь Хьюбера...................................................................237 5.1.6. Задачи вероятностного предсказания....................................................238 5.1.6.1. Расхождение КЛ, перекрестная энтропия и логарифмическая потеря.............................................................................238 5.1.6.2. Правила верной оценки.....................................................................239 5.2. Байесовская проверка гипотез.........................................................................240 5.2.1. Пример: проверка симметричности монеты.........................................241 5.2.2. Байесовский выбор модели.......................................................................242 5.2.2.1. Пример: полиномиальная регрессия...............................................243 5.2.3. Бритва Оккама............................................................................................244 5.2.4. Связь между перекрестной проверкой и маргинальным правдоподобием...................................................................................................246
Как получить доступ?
Студенту или преподавателю
Отправьте заявку на получение ключа доступа в библиотеку Вашего учебного заведения
Представителю организации
Отправьте заявку на подключение к Znanium по договору