Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Вероятностное машинное обучение. Дополнительные темы: предсказание, порождение, обнаружение, действие

Покупка
Новинка
Артикул: 856487.01.99
Доступ онлайн
3 599 ₽
В корзину
Дополняя ранее изданную книгу «Вероятностное машинное обучение. Введение», этот классический труд знакомит читателя с деталями самых актуальных теорий и методов машинного обучения (МО). В «Дополнительных темах» излагаются различные вопросы машинного обучения на более глубоком уровне. Рассмотрено обучение и тестирование при различных распределениях, порождение многомерных выходов, таких как изображения, текст и графы. В третьей книге дан общий обзор четырех основных видов моделей: предсказания (например, классификация и регрессия), порождения (например, изображений или текста), обнаружения («осмысленной структуры» в данных) и управления (принятия оптимальных решений). Издание предназначено специалистам в области МО и искусственного интеллекта, а также будет полезно студентам профильных специальностей. Предполагается, что читатель знаком с МО и другими математическими дисциплинами (теорией вероятностей, статистикой, линейной алгеброй).
25
27
44
50
104
109
143
201
241
243
261
301
341
368
409
420
461
533
561
567
599
643
688
Мэрфи, К. П. Вероятностное машинное обучение. Дополнительные темы: предсказание, порождение, обнаружение, действие : практическое руководство / К. П. Мэрфи ; пер. с англ. А. А. Слинкина. – Москва : ДМК Пресс, 2024. - 768 с. – ISBN 978-5-93700-317-1. - Текст : электронный. - URL: https://znanium.ru/catalog/product/2205085 (дата обращения: 23.05.2025). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
Кэвин П. Мэрфи
Вероятностное 
машинное обучение. 
Дополнительные темы: 
предсказание, порождение, 
обнаружение, действие


Probabilistic Machine 
Learning
Advanced Topics
Kevin P. Murphy


Вероятностное машинное 
обучение. 
Дополнительные темы: 
предсказание, порождение, 
обнаружение, действие
Кэвин П. Мэрфи
Москва, 2024


УДК 004.048
ББК  32.972
М97
Кэвин П. Мэрфи
М97	 Вероятностное машинное обучение. Дополнительные темы: предсказание, порождение, обнаружение, действие / пер. с англ. А. А. Слинкина. – 
М.: ДМК Пресс, 2024. – 766 с.: ил.
ISBN 978-5-93700-317-1
Дополняя ранее изданную книгу «Вероятностное машинное обучение. 
Введение», этот классический труд знакомит читателя с деталями самых актуальных теорий и методов машинного обучения (МО). 
В «Дополнительных темах» излагаются различные вопросы машинного 
обуче-ния на более глубоком уровне. Рассмотрено обучение и тестирование 
при различных распределениях, порождение многомерных выходов, таких как 
изобра-жения, текст и графы. 
В третьей книге дан общий обзор четырех основных видов моделей: предсказания (например, классификация и регрессия), порождения (например, изображений или текста), обнаружения («осмысленной структуры» в данных) и управления (принятия оптимальных решений).
Издание предназначено специалистам в области МО и искусственного интеллекта, а также будет полезно студентам профильных специальностей. Предполагается, что читатель знаком с МО и другими математическими дисциплинами (теорией вероятностей, статистикой, линейной алгеброй).
УДК 004.048
ББК 32.972
Все права защищены. Любая часть этой книги не может быть воспроизведена в какой 
бы то ни было форме и какими бы то ни было средствами без письменного разрешения 
владельцев авторских прав.
©  2023 Kevin P. Murphy
©  Оформление, издание, перевод, ДМК Пресс, 2024
ISBN  (анг.) 978-0-26204-843-9
ISBN  (рус.) 978-5-93700-317-1


Оглавление
ЧАСТЬ III. ПРЕДСКАЗАНИЕ..................................................... 25
Глава 14. Предсказательные модели: общий обзор.................... 27
14.1. Введение....................................................................................................27
14.1.1. Типы моделей.....................................................................................27
14.1.2. Обучение модели с помощью ERM, MLE и MAP...............................28
14.1.3. Обучение модели байесовскими методами, методами 
вариационного вывода и обобщенными байесовскими методами..........29
14.2. Вычисление предсказательных моделей................................................30
14.2.1. Собственные скоринговые правила.................................................30
14.2.2. Калибровка.........................................................................................31
14.2.2.1. Ожидаемая ошибка калибровки................................................31
14.2.2.2. Улучшение калибровки...............................................................32
14.2.2.3. Масштабирование Платта..........................................................33
14.2.2.4. Непараметрические (гистограммные) методы........................33
14.2.2.5. Температурное масштабирование.................................................33
14.2.2.6. Сглаживание меток.....................................................................35
14.2.2.7. Байесовские методы....................................................................35
14.2.3. За пределами вычисления маргинальных вероятностей...............35
14.2.3.1. Доказательство утверждения.....................................................38
14.3. Конформное предсказание......................................................................39
14.3.1. Конформализация классификации..................................................41
14.3.2. Конформализация регрессии............................................................41
14.3.2.1. Конформализация квантильной регрессии..............................41
14.3.2.2. Конформализация предсказанных дисперсий.........................42
Глава 15. Обобщенные линейные модели.................................... 44
15.1. Введение....................................................................................................44
15.1.1. Некоторые популярные GLM.............................................................44
15.1.1.1. Линейная регрессия........................................................................45
15.1.1.2. Биномиальная регрессия............................................................45
15.1.1.3. Регрессия Пуассона.....................................................................46
15.1.1.4. Регрессия Пуассона с преобладанием нулей.............................47
15.1.2. GLM с неканоническими функциями связи.....................................47
15.1.3. Оценка максимального правдоподобия..........................................48
15.1.4. Байесовский вывод............................................................................49
15.2. Линейная регрессия..................................................................................50
15.2.1. Обыкновенный метод наименьших квадратов...............................50
15.2.2. Сопряженные априорные распределения........................................50
15.2.2.1. Дисперсия шума известна..........................................................50


15.2.2.2. Дисперсия шума неизвестна......................................................51
15.2.2.3. Апостериорное предсказательное распределение...................53
15.2.3. Неинформативные априорные распределения...............................53
15.2.3.1. Априорное распределение Джеффриса.....................................53
15.2.3.2. Связь с частотной статистикой..................................................54
15.2.3.3. Априорное g-распределение Целльнера...................................54
15.2.4. Информативные априорные распределения...................................55
15.2.5. Импульсно-плоское априорное распределение..............................57
15.2.6. Априорное распределение Лапласа (байесовский lasso)............58
15.2.7. Подковообразное априорное распределение..................................60
15.2.8. Автоматическое определение релевантности.................................61
15.2.8.1. ARD для линейных моделей.......................................................61
15.2.8.2. Почему ARD дает разреженное решение?.................................62
15.2.8.3. Алгоритмы для ARD....................................................................63
15.2.8.4. Машины векторов релевантности.............................................63
15.2.9. Многомерная линейная регрессия...................................................64
15.3. Логистическая регрессия..........................................................................66
15.3.1. Бинарная логистическая регрессия..................................................66
15.3.2. Мультиномиальная логистическая регрессия.................................67
15.3.3. Несбалансированность классов и длинные хвосты.........................67
15.3.4. Априорные распределения параметров...........................................68
15.3.5. Аппроксимация Лапласа апостериорного распределения.............70
15.3.6. Аппроксимация апостериорного предсказательного 
распределения...............................................................................................71
15.3.7. MCMC-вывод.......................................................................................73
15.3.8. Другие приближенные методы вывода............................................75
15.3.9. Пример: правда ли, что женщинам труднее поступить в Беркли?....75
15.4. Пробит-регрессия.....................................................................................78
15.4.1. Интерпретация с латентными величинами.....................................79
15.4.2. Оценка максимального правдоподобия..........................................80
15.4.2.1. MLE с применением СГС............................................................80
15.4.2.2. MLE с применением EM-алгоритма..........................................80
15.4.3. Байесовский вывод............................................................................81
15.4.4. Порядковая пробит-регрессия..........................................................82
15.4.5. Мультиномиальные пробит-модели............................................82
15.5. Многоуровневые (иерархические) GLM..................................................82
15.5.1. Обобщенные линейные смешанные модели (GLMM).....................84
15.5.2. Пример: регрессия радона................................................................84
15.5.2.1. Вывод апостериорного распределения.....................................85
15.5.2.2. Нецентрированная параметризация.........................................86
Глава 16. Глубокие нейронные сети................................................ 88
16.1. Введение....................................................................................................88
16.2. Построение блоков, составляющих дифференцируемые контуры.......89
16.2.1. Линейные слои...................................................................................89
16.2.2. Нелинейности.....................................................................................89
16.2.3. Сверточные слои................................................................................90
6   
Оглавление


16.2.4. Остаточные (прямые) связи..............................................................92
16.2.5. Нормировочные слои........................................................................92
16.2.6. Слои прореживания...........................................................................93
16.2.7. Слои внимания...................................................................................94
16.2.8. Рекуррентные слои............................................................................96
16.2.9. Мультипликативные слои.................................................................97
16.2.10. Неявные слои....................................................................................97
16.3. Канонические примеры нейронных сетей.............................................98
16.3.1. Многослойные перцептроны (МСП).................................................98
16.3.2. Сверточные нейронные сети (СНС)..................................................99
16.3.3. Автокодировщики............................................................................100
16.3.4. Рекуррентные нейронные сети (РНС)............................................101
16.3.5. Трансформеры..................................................................................102
16.3.6. Графовые нейронные сети (GNN)...................................................103
Глава 17. Байесовские нейронные сети........................................104
17.1. Введение..................................................................................................104
17.2. Априорные распределения для БНС......................................................104
17.2.1. Гауссовы априорные распределения..............................................105
17.2.2. Априорные распределения, поощряющие разреженность...........107
17.2.3. Обучение априорного распределения............................................107
17.2.4. Априорные распределения в пространстве функций...................108
17.2.5. Архитектурные априорные распределения...................................108
17.3. Апостериорные распределения для БНС...............................................109
17.3.1. Прореживание Монте-Карло...........................................................109
17.3.2. Аппроксимация Лапласа..................................................................110
17.3.3. Вариационный вывод......................................................................111
17.3.4. Распространение математического ожидания..............................112
17.3.5. Методы последнего слоя..................................................................112
17.3.6. Метод SNGP.......................................................................................113
17.3.7. MCMC-методы...................................................................................114
17.3.8. Методы, основанные на траектории СГС.......................................114
17.3.9. Глубокие ансамбли...........................................................................116
17.3.9.1. MultiSWAG..................................................................................117
17.3.9.2. Глубокие ансамбли со случайными априорными
распределениями....................................................................................117
17.3.9.3. Глубокие ансамбли как приближенный 
байесовский вывод..................................................................................118
17.3.9.4. Глубокие и классические ансамбли..........................................118
17.3.9.5. Глубокие ансамбли, смеси экспертов и стекинг......................119
17.3.9.6. Пакетный ансамбль...................................................................119
17.3.10. Аппроксимация апостериорного предсказательного 
распределения.............................................................................................120
17.3.10.1. Линеаризованная аппроксимация.............................................120
17.3.10.2. Аппроксимация на основе моста Лапласа.............................121
17.3.10.3. Дистилляция............................................................................123
17.3.11. Закаленные и холодные апостериорные распределения............123
Оглавление    7


17.4. Обобщение в байесовском глубоком обучении....................................125
17.4.1. Острые и плоские минимумы.........................................................125
17.4.2. Связность мод и ландшафт функции потерь..................................126
17.4.3. Эффективная размерность модели.................................................127
17.4.4. Пространство гипотез ГНС..............................................................128
17.4.5. PAC-байесовское обучение..............................................................129
17.4.6. Обобщение БНС при выходе за рамки распределения..................130
17.4.6.1. BMA может давать плохие результаты для априорных 
распределений по умолчанию................................................................130
17.4.6.2. БНС могут быть чрезмерно уверены на входах, 
не принадлежащих распределению.......................................................132
17.4.7. Выбор модели для БНС.....................................................................132
17.5. Онлайновый вывод.................................................................................133
17.5.1. Последовательная аппроксимация Лапласа для ГНС....................134
17.5.2. Обобщенная фильтрация Калмана для ГНС...................................134
17.5.2.1. Пример.......................................................................................135
17.5.2.2. Задание членов дисперсии.......................................................135
17.5.2.3. Уменьшение вычислительной сложности...............................135
17.5.3. Фильтрация с предполагаемой плотностью для ГНС....................136
17.5.4. Онлайновый вариационный вывод для ГНС..................................138
17.6. Иерархические байесовские нейронные сети.......................................139
17.6.1. Пример: классификация двух лун...................................................140
Глава 18. Гауссовские процессы....................................................143
18.1. Введение..................................................................................................143
18.1.1. ГП: что такое и почему?...................................................................143
18.2. Ядра Мерсера...........................................................................................145
18.2.1. Стационарные ядра.........................................................................146
18.2.1.1. Квадратичное экспоненциальное (RBF) ядро.........................146
18.2.1.2. ARD-ядро...................................................................................147
18.2.1.3. Ядра Матерна............................................................................148
18.2.1.4. Периодические ядра.................................................................149
18.2.1.5. Рациональное квадратичное ядро...........................................150
18.2.1.6. Ядра и спектральные плотности..............................................150
18.2.2. Нестационарные ядра......................................................................151
18.2.2.1. Полиномиальные ядра..............................................................151
18.2.2.2. Ядро Гиббса................................................................................151
18.2.2.3. Другие нестационарные ядра..................................................152
18.2.3. Ядра для невекторных (структурных) входов................................152
18.2.4. Создание новых ядер на основе существующих...........................152
18.2.5. Теорема Мерсера..............................................................................154
18.2.6. Аппроксимация ядер случайными признаками............................155
18.3. ГП с гауссовым правдоподобием...........................................................156
18.3.1. Предсказания с незашумленными наблюдениями.......................156
18.3.2. Предсказания с зашумленными наблюдениями...........................157
18.3.3. Пространство весов и пространство функций...............................158
18.3.4. Полупараметрические ГП............................................................159
18.3.5. Предельное правдоподобие............................................................160
8   
Оглавление


18.3.6. Вычислительные и численные трудности......................................160
18.3.7. Ядерная гребневая регрессия..........................................................161
18.3.7.1. Гильбертовы пространства с воспроизводящими ядрами.....161
18.3.7.2. Сложность функции в ГПВЯ......................................................163
18.3.7.3. Теорема о представителе..........................................................163
18.3.7.4. Сравнение KRR с GPR................................................................164
18.4. ГП с негауссовыми правдоподобиями...................................................165
18.4.1. Бинарная классификация................................................................165
18.4.2. Многоклассовая классификация.....................................................167
18.4.3. Гауссовские процессы для регрессии Пуассона (процесс Кокса)...... 167
18.4.4. Другие правдоподобия....................................................................168
18.5. Масштабирование ГП-вывода на большие наборы данных................169
18.5.1. Подмножество данных.....................................................................169
18.5.1.1. Метод информативных векторов............................................169
18.5.1.2. Обсуждение...............................................................................170
18.5.2. Аппроксимация Нистрёма..............................................................170
18.5.3. Методы со вспомогательными точками.........................................171
18.5.3.1. SOR/DIC......................................................................................172
18.5.3.2. DTC.............................................................................................173
18.5.3.3. FITC............................................................................................173
18.5.3.4. Обучение вспомогательных точек...........................................174
18.5.4. Разреженные вариационные методы.............................................175
18.5.4.1. Гауссово правдоподобие...........................................................177
18.5.4.2. Негауссово правдоподобие.......................................................178
18.5.4.3. Мини-пакетный SVI..................................................................178
18.5.5. Использование распараллеливания и структуры путем 
умножения ядерных матриц......................................................................179
18.5.5.1. Использование метода сопряженных градиентов 
и метода Ланцоша...................................................................................179
18.5.5.2. Ядра с компактным носителем................................................180
18.5.5.3. KISS.............................................................................................181
18.5.5.4. Тензорные методы....................................................................181
18.5.6. Преобразование ГП в SSM...............................................................182
18.6. Обучение ядра.........................................................................................182
18.6.1. Эмпирический байесовский подход к параметрам ядра..............183
18.6.1.1. Пример.......................................................................................184
18.6.2. Байесовский вывод параметров ядра.............................................185
18.6.3. Обучение с несколькими ядрами для аддитивных ядер...............187
18.6.4. Автоматический поиск композиционных ядер.................................189
18.6.5. Обучение спектрального смесового ядра.......................................191
18.6.6. Глубокое обучение ядра...................................................................193
18.7. Гауссовские процессы и глубокие нейронные сети..............................195
18.7.1. Ядра, выведенные из бесконечно широких ГНС (NN-GP).............195
18.7.2. Нейронное касательное ядро (NTK)................................................197
18.7.3. Глубокие ГП.......................................................................................198
18.8. Гауссовские процессы как инструмент прогнозирования 
временных рядов.............................................................................................198
18.8.1. Пример: Мауна-Лоа.........................................................................199
Оглавление    9


Глава 19. За пределами предположения 
о независимости и одинаковом распределении........................201
19.1. Введение..................................................................................................201
19.2. Дрейф распределения.............................................................................201
19.2.1. Мотивирующие примеры................................................................202
19.2.2. Каузальный взгляд на дрейф распределения................................203
19.2.3. Четыре основных типа дрейфа распределения.............................204
19.2.3.1. Дрейф ковариат.........................................................................205
19.2.3.2. Дрейф концепта............................................................................205
19.2.3.3. Дрейф меток/априорного распределения...............................206
19.2.3.4. Дрейф проявления....................................................................206
19.2.4. Смещение выбора............................................................................206
19.3. Обнаружение дрейфа распределения....................................................207
19.3.1. Обнаружение дрейфа путем двухвыборочного критерия............207
19.3.2. Обнаружение не принадлежащих распределению входов...........208
19.3.2.1. Методы идентификации ID/OOD с учителем 
(выявление выбросов).............................................................................209
19.3.2.2. Методы, предсказывающие уверенность классификации.....209
19.3.2.3. Конформное предсказание......................................................209
19.3.2.4. Методы обучения без учителя..................................................210
19.3.3. Избирательное предсказание.........................................................211
19.3.3.1. Пример: SGLD и СГС для МСП..................................................211
19.3.4. Распознавание открытого множества и открытого мира.............212
19.4. Робастность к дрейфу распределения...................................................213
19.4.1. Пополнение данных.........................................................................213
19.4.2. Устойчивая к изменению распределения оптимизация...............213
19.5. Адаптация к дрейфу распределения.....................................................214
19.5.1. Адаптация с учителем с применением переноса обучения.........214
19.5.1.1. Предобучение и дообучение....................................................214
19.5.1.2. Дообучение с подсказками (обучение в контексте)...............215
19.5.2. Взвешенная ERM для дрейфа ковариат..........................................215
19.5.2.1. Почему дрейф ковариат является проблемой 
для дискриминантных моделей?...........................................................216
19.5.2.2. Как оценивать веса ERM?.........................................................216
19.5.3. Адаптация к домену без учителя для дрейфа ковариат................217
19.5.4. Методы без учителя для дрейфа меток..........................................217
19.5.5. Адаптация на этапе тестирования..................................................218
19.6. Обучение на примерах из нескольких распределений........................219
19.6.1. Многозадачное обучение................................................................220
19.6.2. Обобщение домена..........................................................................221
19.6.3. Минимизация инвариантного риска..............................................222
19.6.4. Метаобучение...................................................................................223
19.6.4.1. Метаобучение как вероятностный вывод для предсказания.....223
19.6.4.2. Нейронные процессы................................................................225
19.6.4.3. Градиентное метаобучение (MAML)........................................226
19.6.4.4. Метрическое обучение на нескольких примерах 
(прототипические сети)..........................................................................226
10   
Оглавление


Доступ онлайн
3 599 ₽
В корзину