Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Вероятностное машинное обучение. Дополнительные темы: предсказание, порождение, обнаружение, действие

Покупка
Новинка
Артикул: 856487.01.99
Доступ онлайн
3 599 ₽
В корзину
Дополняя ранее изданную книгу «Вероятностное машинное обучение. Введение», этот классический труд знакомит читателя с деталями самых актуальных теорий и методов машинного обучения (МО). В «Дополнительных темах» излагаются различные вопросы машинного обучения на более глубоком уровне. Рассмотрено обучение и тестирование при различных распределениях, порождение многомерных выходов, таких как изображения, текст и графы. В третьей книге дан общий обзор четырех основных видов моделей: предсказания (например, классификация и регрессия), порождения (например, изображений или текста), обнаружения («осмысленной структуры» в данных) и управления (принятия оптимальных решений). Издание предназначено специалистам в области МО и искусственного интеллекта, а также будет полезно студентам профильных специальностей. Предполагается, что читатель знаком с МО и другими математическими дисциплинами (теорией вероятностей, статистикой, линейной алгеброй).
Мэрфи, К. П. Вероятностное машинное обучение. Дополнительные темы: предсказание, порождение, обнаружение, действие : практическое руководство / К. П. Мэрфи ; пер. с англ. А. А. Слинкина. – Москва : ДМК Пресс, 2024. - 768 с. – ISBN 978-5-93700-317-1. - Текст : электронный. - URL: https://znanium.ru/catalog/product/2205085 (дата обращения: 08.04.2025). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
Кэвин П. Мэрфи
Вероятностное 
машинное обучение. 
Дополнительные темы: 
предсказание, порождение, 
обнаружение, действие


Probabilistic Machine 
Learning
Advanced Topics
Kevin P. Murphy


Вероятностное машинное 
обучение. 
Дополнительные темы: 
предсказание, порождение, 
обнаружение, действие
Кэвин П. Мэрфи
Москва, 2024


УДК 004.048
ББК  32.972
М97
Кэвин П. Мэрфи
М97	 Вероятностное машинное обучение. Дополнительные темы: предсказание, порождение, обнаружение, действие / пер. с англ. А. А. Слинкина. – 
М.: ДМК Пресс, 2024. – 766 с.: ил.
ISBN 978-5-93700-317-1
Дополняя ранее изданную книгу «Вероятностное машинное обучение. 
Введение», этот классический труд знакомит читателя с деталями самых актуальных теорий и методов машинного обучения (МО). 
В «Дополнительных темах» излагаются различные вопросы машинного 
обуче-ния на более глубоком уровне. Рассмотрено обучение и тестирование 
при различных распределениях, порождение многомерных выходов, таких как 
изобра-жения, текст и графы. 
В третьей книге дан общий обзор четырех основных видов моделей: предсказания (например, классификация и регрессия), порождения (например, изображений или текста), обнаружения («осмысленной структуры» в данных) и управления (принятия оптимальных решений).
Издание предназначено специалистам в области МО и искусственного интеллекта, а также будет полезно студентам профильных специальностей. Предполагается, что читатель знаком с МО и другими математическими дисциплинами (теорией вероятностей, статистикой, линейной алгеброй).
УДК 004.048
ББК 32.972
Все права защищены. Любая часть этой книги не может быть воспроизведена в какой 
бы то ни было форме и какими бы то ни было средствами без письменного разрешения 
владельцев авторских прав.
©  2023 Kevin P. Murphy
©  Оформление, издание, перевод, ДМК Пресс, 2024
ISBN  (анг.) 978-0-26204-843-9
ISBN  (рус.) 978-5-93700-317-1


Оглавление
ЧАСТЬ III. ПРЕДСКАЗАНИЕ..................................................... 25
Глава 14. Предсказательные модели: общий обзор.................... 27
14.1. Введение....................................................................................................27
14.1.1. Типы моделей.....................................................................................27
14.1.2. Обучение модели с помощью ERM, MLE и MAP...............................28
14.1.3. Обучение модели байесовскими методами, методами 
вариационного вывода и обобщенными байесовскими методами..........29
14.2. Вычисление предсказательных моделей................................................30
14.2.1. Собственные скоринговые правила.................................................30
14.2.2. Калибровка.........................................................................................31
14.2.2.1. Ожидаемая ошибка калибровки................................................31
14.2.2.2. Улучшение калибровки...............................................................32
14.2.2.3. Масштабирование Платта..........................................................33
14.2.2.4. Непараметрические (гистограммные) методы........................33
14.2.2.5. Температурное масштабирование.................................................33
14.2.2.6. Сглаживание меток.....................................................................35
14.2.2.7. Байесовские методы....................................................................35
14.2.3. За пределами вычисления маргинальных вероятностей...............35
14.2.3.1. Доказательство утверждения.....................................................38
14.3. Конформное предсказание......................................................................39
14.3.1. Конформализация классификации..................................................41
14.3.2. Конформализация регрессии............................................................41
14.3.2.1. Конформализация квантильной регрессии..............................41
14.3.2.2. Конформализация предсказанных дисперсий.........................42
Глава 15. Обобщенные линейные модели.................................... 44
15.1. Введение....................................................................................................44
15.1.1. Некоторые популярные GLM.............................................................44
15.1.1.1. Линейная регрессия........................................................................45
15.1.1.2. Биномиальная регрессия............................................................45
15.1.1.3. Регрессия Пуассона.....................................................................46
15.1.1.4. Регрессия Пуассона с преобладанием нулей.............................47
15.1.2. GLM с неканоническими функциями связи.....................................47
15.1.3. Оценка максимального правдоподобия..........................................48
15.1.4. Байесовский вывод............................................................................49
15.2. Линейная регрессия..................................................................................50
15.2.1. Обыкновенный метод наименьших квадратов...............................50
15.2.2. Сопряженные априорные распределения........................................50
15.2.2.1. Дисперсия шума известна..........................................................50


15.2.2.2. Дисперсия шума неизвестна......................................................51
15.2.2.3. Апостериорное предсказательное распределение...................53
15.2.3. Неинформативные априорные распределения...............................53
15.2.3.1. Априорное распределение Джеффриса.....................................53
15.2.3.2. Связь с частотной статистикой..................................................54
15.2.3.3. Априорное g-распределение Целльнера...................................54
15.2.4. Информативные априорные распределения...................................55
15.2.5. Импульсно-плоское априорное распределение..............................57
15.2.6. Априорное распределение Лапласа (байесовский lasso)............58
15.2.7. Подковообразное априорное распределение..................................60
15.2.8. Автоматическое определение релевантности.................................61
15.2.8.1. ARD для линейных моделей.......................................................61
15.2.8.2. Почему ARD дает разреженное решение?.................................62
15.2.8.3. Алгоритмы для ARD....................................................................63
15.2.8.4. Машины векторов релевантности.............................................63
15.2.9. Многомерная линейная регрессия...................................................64
15.3. Логистическая регрессия..........................................................................66
15.3.1. Бинарная логистическая регрессия..................................................66
15.3.2. Мультиномиальная логистическая регрессия.................................67
15.3.3. Несбалансированность классов и длинные хвосты.........................67
15.3.4. Априорные распределения параметров...........................................68
15.3.5. Аппроксимация Лапласа апостериорного распределения.............70
15.3.6. Аппроксимация апостериорного предсказательного 
распределения...............................................................................................71
15.3.7. MCMC-вывод.......................................................................................73
15.3.8. Другие приближенные методы вывода............................................75
15.3.9. Пример: правда ли, что женщинам труднее поступить в Беркли?....75
15.4. Пробит-регрессия.....................................................................................78
15.4.1. Интерпретация с латентными величинами.....................................79
15.4.2. Оценка максимального правдоподобия..........................................80
15.4.2.1. MLE с применением СГС............................................................80
15.4.2.2. MLE с применением EM-алгоритма..........................................80
15.4.3. Байесовский вывод............................................................................81
15.4.4. Порядковая пробит-регрессия..........................................................82
15.4.5. Мультиномиальные пробит-модели............................................82
15.5. Многоуровневые (иерархические) GLM..................................................82
15.5.1. Обобщенные линейные смешанные модели (GLMM).....................84
15.5.2. Пример: регрессия радона................................................................84
15.5.2.1. Вывод апостериорного распределения.....................................85
15.5.2.2. Нецентрированная параметризация.........................................86
Глава 16. Глубокие нейронные сети................................................ 88
16.1. Введение....................................................................................................88
16.2. Построение блоков, составляющих дифференцируемые контуры.......89
16.2.1. Линейные слои...................................................................................89
16.2.2. Нелинейности.....................................................................................89
16.2.3. Сверточные слои................................................................................90
6   
Оглавление


16.2.4. Остаточные (прямые) связи..............................................................92
16.2.5. Нормировочные слои........................................................................92
16.2.6. Слои прореживания...........................................................................93
16.2.7. Слои внимания...................................................................................94
16.2.8. Рекуррентные слои............................................................................96
16.2.9. Мультипликативные слои.................................................................97
16.2.10. Неявные слои....................................................................................97
16.3. Канонические примеры нейронных сетей.............................................98
16.3.1. Многослойные перцептроны (МСП).................................................98
16.3.2. Сверточные нейронные сети (СНС)..................................................99
16.3.3. Автокодировщики............................................................................100
16.3.4. Рекуррентные нейронные сети (РНС)............................................101
16.3.5. Трансформеры..................................................................................102
16.3.6. Графовые нейронные сети (GNN)...................................................103
Глава 17. Байесовские нейронные сети........................................104
17.1. Введение..................................................................................................104
17.2. Априорные распределения для БНС......................................................104
17.2.1. Гауссовы априорные распределения..............................................105
17.2.2. Априорные распределения, поощряющие разреженность...........107
17.2.3. Обучение априорного распределения............................................107
17.2.4. Априорные распределения в пространстве функций...................108
17.2.5. Архитектурные априорные распределения...................................108
17.3. Апостериорные распределения для БНС...............................................109
17.3.1. Прореживание Монте-Карло...........................................................109
17.3.2. Аппроксимация Лапласа..................................................................110
17.3.3. Вариационный вывод......................................................................111
17.3.4. Распространение математического ожидания..............................112
17.3.5. Методы последнего слоя..................................................................112
17.3.6. Метод SNGP.......................................................................................113
17.3.7. MCMC-методы...................................................................................114
17.3.8. Методы, основанные на траектории СГС.......................................114
17.3.9. Глубокие ансамбли...........................................................................116
17.3.9.1. MultiSWAG..................................................................................117
17.3.9.2. Глубокие ансамбли со случайными априорными
распределениями....................................................................................117
17.3.9.3. Глубокие ансамбли как приближенный 
байесовский вывод..................................................................................118
17.3.9.4. Глубокие и классические ансамбли..........................................118
17.3.9.5. Глубокие ансамбли, смеси экспертов и стекинг......................119
17.3.9.6. Пакетный ансамбль...................................................................119
17.3.10. Аппроксимация апостериорного предсказательного 
распределения.............................................................................................120
17.3.10.1. Линеаризованная аппроксимация.............................................120
17.3.10.2. Аппроксимация на основе моста Лапласа.............................121
17.3.10.3. Дистилляция............................................................................123
17.3.11. Закаленные и холодные апостериорные распределения............123
Оглавление    7


17.4. Обобщение в байесовском глубоком обучении....................................125
17.4.1. Острые и плоские минимумы.........................................................125
17.4.2. Связность мод и ландшафт функции потерь..................................126
17.4.3. Эффективная размерность модели.................................................127
17.4.4. Пространство гипотез ГНС..............................................................128
17.4.5. PAC-байесовское обучение..............................................................129
17.4.6. Обобщение БНС при выходе за рамки распределения..................130
17.4.6.1. BMA может давать плохие результаты для априорных 
распределений по умолчанию................................................................130
17.4.6.2. БНС могут быть чрезмерно уверены на входах, 
не принадлежащих распределению.......................................................132
17.4.7. Выбор модели для БНС.....................................................................132
17.5. Онлайновый вывод.................................................................................133
17.5.1. Последовательная аппроксимация Лапласа для ГНС....................134
17.5.2. Обобщенная фильтрация Калмана для ГНС...................................134
17.5.2.1. Пример.......................................................................................135
17.5.2.2. Задание членов дисперсии.......................................................135
17.5.2.3. Уменьшение вычислительной сложности...............................135
17.5.3. Фильтрация с предполагаемой плотностью для ГНС....................136
17.5.4. Онлайновый вариационный вывод для ГНС..................................138
17.6. Иерархические байесовские нейронные сети.......................................139
17.6.1. Пример: классификация двух лун...................................................140
Глава 18. Гауссовские процессы....................................................143
18.1. Введение..................................................................................................143
18.1.1. ГП: что такое и почему?...................................................................143
18.2. Ядра Мерсера...........................................................................................145
18.2.1. Стационарные ядра.........................................................................146
18.2.1.1. Квадратичное экспоненциальное (RBF) ядро.........................146
18.2.1.2. ARD-ядро...................................................................................147
18.2.1.3. Ядра Матерна............................................................................148
18.2.1.4. Периодические ядра.................................................................149
18.2.1.5. Рациональное квадратичное ядро...........................................150
18.2.1.6. Ядра и спектральные плотности..............................................150
18.2.2. Нестационарные ядра......................................................................151
18.2.2.1. Полиномиальные ядра..............................................................151
18.2.2.2. Ядро Гиббса................................................................................151
18.2.2.3. Другие нестационарные ядра..................................................152
18.2.3. Ядра для невекторных (структурных) входов................................152
18.2.4. Создание новых ядер на основе существующих...........................152
18.2.5. Теорема Мерсера..............................................................................154
18.2.6. Аппроксимация ядер случайными признаками............................155
18.3. ГП с гауссовым правдоподобием...........................................................156
18.3.1. Предсказания с незашумленными наблюдениями.......................156
18.3.2. Предсказания с зашумленными наблюдениями...........................157
18.3.3. Пространство весов и пространство функций...............................158
18.3.4. Полупараметрические ГП............................................................159
18.3.5. Предельное правдоподобие............................................................160
8   
Оглавление


18.3.6. Вычислительные и численные трудности......................................160
18.3.7. Ядерная гребневая регрессия..........................................................161
18.3.7.1. Гильбертовы пространства с воспроизводящими ядрами.....161
18.3.7.2. Сложность функции в ГПВЯ......................................................163
18.3.7.3. Теорема о представителе..........................................................163
18.3.7.4. Сравнение KRR с GPR................................................................164
18.4. ГП с негауссовыми правдоподобиями...................................................165
18.4.1. Бинарная классификация................................................................165
18.4.2. Многоклассовая классификация.....................................................167
18.4.3. Гауссовские процессы для регрессии Пуассона (процесс Кокса)...... 167
18.4.4. Другие правдоподобия....................................................................168
18.5. Масштабирование ГП-вывода на большие наборы данных................169
18.5.1. Подмножество данных.....................................................................169
18.5.1.1. Метод информативных векторов............................................169
18.5.1.2. Обсуждение...............................................................................170
18.5.2. Аппроксимация Нистрёма..............................................................170
18.5.3. Методы со вспомогательными точками.........................................171
18.5.3.1. SOR/DIC......................................................................................172
18.5.3.2. DTC.............................................................................................173
18.5.3.3. FITC............................................................................................173
18.5.3.4. Обучение вспомогательных точек...........................................174
18.5.4. Разреженные вариационные методы.............................................175
18.5.4.1. Гауссово правдоподобие...........................................................177
18.5.4.2. Негауссово правдоподобие.......................................................178
18.5.4.3. Мини-пакетный SVI..................................................................178
18.5.5. Использование распараллеливания и структуры путем 
умножения ядерных матриц......................................................................179
18.5.5.1. Использование метода сопряженных градиентов 
и метода Ланцоша...................................................................................179
18.5.5.2. Ядра с компактным носителем................................................180
18.5.5.3. KISS.............................................................................................181
18.5.5.4. Тензорные методы....................................................................181
18.5.6. Преобразование ГП в SSM...............................................................182
18.6. Обучение ядра.........................................................................................182
18.6.1. Эмпирический байесовский подход к параметрам ядра..............183
18.6.1.1. Пример.......................................................................................184
18.6.2. Байесовский вывод параметров ядра.............................................185
18.6.3. Обучение с несколькими ядрами для аддитивных ядер...............187
18.6.4. Автоматический поиск композиционных ядер.................................189
18.6.5. Обучение спектрального смесового ядра.......................................191
18.6.6. Глубокое обучение ядра...................................................................193
18.7. Гауссовские процессы и глубокие нейронные сети..............................195
18.7.1. Ядра, выведенные из бесконечно широких ГНС (NN-GP).............195
18.7.2. Нейронное касательное ядро (NTK)................................................197
18.7.3. Глубокие ГП.......................................................................................198
18.8. Гауссовские процессы как инструмент прогнозирования 
временных рядов.............................................................................................198
18.8.1. Пример: Мауна-Лоа.........................................................................199
Оглавление    9


Глава 19. За пределами предположения 
о независимости и одинаковом распределении........................201
19.1. Введение..................................................................................................201
19.2. Дрейф распределения.............................................................................201
19.2.1. Мотивирующие примеры................................................................202
19.2.2. Каузальный взгляд на дрейф распределения................................203
19.2.3. Четыре основных типа дрейфа распределения.............................204
19.2.3.1. Дрейф ковариат.........................................................................205
19.2.3.2. Дрейф концепта............................................................................205
19.2.3.3. Дрейф меток/априорного распределения...............................206
19.2.3.4. Дрейф проявления....................................................................206
19.2.4. Смещение выбора............................................................................206
19.3. Обнаружение дрейфа распределения....................................................207
19.3.1. Обнаружение дрейфа путем двухвыборочного критерия............207
19.3.2. Обнаружение не принадлежащих распределению входов...........208
19.3.2.1. Методы идентификации ID/OOD с учителем 
(выявление выбросов).............................................................................209
19.3.2.2. Методы, предсказывающие уверенность классификации.....209
19.3.2.3. Конформное предсказание......................................................209
19.3.2.4. Методы обучения без учителя..................................................210
19.3.3. Избирательное предсказание.........................................................211
19.3.3.1. Пример: SGLD и СГС для МСП..................................................211
19.3.4. Распознавание открытого множества и открытого мира.............212
19.4. Робастность к дрейфу распределения...................................................213
19.4.1. Пополнение данных.........................................................................213
19.4.2. Устойчивая к изменению распределения оптимизация...............213
19.5. Адаптация к дрейфу распределения.....................................................214
19.5.1. Адаптация с учителем с применением переноса обучения.........214
19.5.1.1. Предобучение и дообучение....................................................214
19.5.1.2. Дообучение с подсказками (обучение в контексте)...............215
19.5.2. Взвешенная ERM для дрейфа ковариат..........................................215
19.5.2.1. Почему дрейф ковариат является проблемой 
для дискриминантных моделей?...........................................................216
19.5.2.2. Как оценивать веса ERM?.........................................................216
19.5.3. Адаптация к домену без учителя для дрейфа ковариат................217
19.5.4. Методы без учителя для дрейфа меток..........................................217
19.5.5. Адаптация на этапе тестирования..................................................218
19.6. Обучение на примерах из нескольких распределений........................219
19.6.1. Многозадачное обучение................................................................220
19.6.2. Обобщение домена..........................................................................221
19.6.3. Минимизация инвариантного риска..............................................222
19.6.4. Метаобучение...................................................................................223
19.6.4.1. Метаобучение как вероятностный вывод для предсказания.....223
19.6.4.2. Нейронные процессы................................................................225
19.6.4.3. Градиентное метаобучение (MAML)........................................226
19.6.4.4. Метрическое обучение на нескольких примерах 
(прототипические сети)..........................................................................226
10   
Оглавление


Похожие

Доступ онлайн
3 599 ₽
В корзину