Вероятностное машинное обучение. Дополнительные темы: предсказание, порождение, обнаружение, действие
Покупка
Новинка
Тематика:
Программирование и алгоритмизация
Издательство:
ДМК Пресс
Автор:
Мэрфи Кевин П.
Перевод:
Слинкин Алексей Александрович
Год издания: 2024
Кол-во страниц: 768
Дополнительно
Вид издания:
Практическое пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-93700-317-1
Артикул: 856487.01.99
Дополняя ранее изданную книгу «Вероятностное машинное обучение. Введение», этот классический труд знакомит читателя с деталями самых актуальных теорий и методов машинного обучения (МО).
В «Дополнительных темах» излагаются различные вопросы машинного обучения на более глубоком уровне. Рассмотрено обучение и тестирование при различных распределениях, порождение многомерных выходов, таких как изображения, текст и графы.
В третьей книге дан общий обзор четырех основных видов моделей: предсказания (например, классификация и регрессия), порождения (например, изображений или текста), обнаружения («осмысленной структуры» в данных) и управления (принятия оптимальных решений).
Издание предназначено специалистам в области МО и искусственного интеллекта, а также будет полезно студентам профильных специальностей. Предполагается, что читатель знаком с МО и другими математическими дисциплинами (теорией вероятностей, статистикой, линейной алгеброй).
- Полная коллекция по информатике и вычислительной технике
- ДМК Пресс. Информационные системы и технологии
- ДМК Пресс. ИТ-технологии для профессионалов
- Интермедиатор. Информационные системы и технологии (сводная)
- Интермедиатор. ИТ-технологии для профессионалов (сводная)
- Программирование и алгоритмизация
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 01.03.01: Математика
- 01.03.02: Прикладная математика и информатика
- 01.03.03: Механика и математическое моделирование
- 01.03.04: Прикладная математика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Кэвин П. Мэрфи Вероятностное машинное обучение. Дополнительные темы: предсказание, порождение, обнаружение, действие
Probabilistic Machine Learning Advanced Topics Kevin P. Murphy
Вероятностное машинное обучение. Дополнительные темы: предсказание, порождение, обнаружение, действие Кэвин П. Мэрфи Москва, 2024
УДК 004.048 ББК 32.972 М97 Кэвин П. Мэрфи М97 Вероятностное машинное обучение. Дополнительные темы: предсказание, порождение, обнаружение, действие / пер. с англ. А. А. Слинкина. – М.: ДМК Пресс, 2024. – 766 с.: ил. ISBN 978-5-93700-317-1 Дополняя ранее изданную книгу «Вероятностное машинное обучение. Введение», этот классический труд знакомит читателя с деталями самых актуальных теорий и методов машинного обучения (МО). В «Дополнительных темах» излагаются различные вопросы машинного обуче-ния на более глубоком уровне. Рассмотрено обучение и тестирование при различных распределениях, порождение многомерных выходов, таких как изобра-жения, текст и графы. В третьей книге дан общий обзор четырех основных видов моделей: предсказания (например, классификация и регрессия), порождения (например, изображений или текста), обнаружения («осмысленной структуры» в данных) и управления (принятия оптимальных решений). Издание предназначено специалистам в области МО и искусственного интеллекта, а также будет полезно студентам профильных специальностей. Предполагается, что читатель знаком с МО и другими математическими дисциплинами (теорией вероятностей, статистикой, линейной алгеброй). УДК 004.048 ББК 32.972 Все права защищены. Любая часть этой книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. © 2023 Kevin P. Murphy © Оформление, издание, перевод, ДМК Пресс, 2024 ISBN (анг.) 978-0-26204-843-9 ISBN (рус.) 978-5-93700-317-1
Оглавление ЧАСТЬ III. ПРЕДСКАЗАНИЕ..................................................... 25 Глава 14. Предсказательные модели: общий обзор.................... 27 14.1. Введение....................................................................................................27 14.1.1. Типы моделей.....................................................................................27 14.1.2. Обучение модели с помощью ERM, MLE и MAP...............................28 14.1.3. Обучение модели байесовскими методами, методами вариационного вывода и обобщенными байесовскими методами..........29 14.2. Вычисление предсказательных моделей................................................30 14.2.1. Собственные скоринговые правила.................................................30 14.2.2. Калибровка.........................................................................................31 14.2.2.1. Ожидаемая ошибка калибровки................................................31 14.2.2.2. Улучшение калибровки...............................................................32 14.2.2.3. Масштабирование Платта..........................................................33 14.2.2.4. Непараметрические (гистограммные) методы........................33 14.2.2.5. Температурное масштабирование.................................................33 14.2.2.6. Сглаживание меток.....................................................................35 14.2.2.7. Байесовские методы....................................................................35 14.2.3. За пределами вычисления маргинальных вероятностей...............35 14.2.3.1. Доказательство утверждения.....................................................38 14.3. Конформное предсказание......................................................................39 14.3.1. Конформализация классификации..................................................41 14.3.2. Конформализация регрессии............................................................41 14.3.2.1. Конформализация квантильной регрессии..............................41 14.3.2.2. Конформализация предсказанных дисперсий.........................42 Глава 15. Обобщенные линейные модели.................................... 44 15.1. Введение....................................................................................................44 15.1.1. Некоторые популярные GLM.............................................................44 15.1.1.1. Линейная регрессия........................................................................45 15.1.1.2. Биномиальная регрессия............................................................45 15.1.1.3. Регрессия Пуассона.....................................................................46 15.1.1.4. Регрессия Пуассона с преобладанием нулей.............................47 15.1.2. GLM с неканоническими функциями связи.....................................47 15.1.3. Оценка максимального правдоподобия..........................................48 15.1.4. Байесовский вывод............................................................................49 15.2. Линейная регрессия..................................................................................50 15.2.1. Обыкновенный метод наименьших квадратов...............................50 15.2.2. Сопряженные априорные распределения........................................50 15.2.2.1. Дисперсия шума известна..........................................................50
15.2.2.2. Дисперсия шума неизвестна......................................................51 15.2.2.3. Апостериорное предсказательное распределение...................53 15.2.3. Неинформативные априорные распределения...............................53 15.2.3.1. Априорное распределение Джеффриса.....................................53 15.2.3.2. Связь с частотной статистикой..................................................54 15.2.3.3. Априорное g-распределение Целльнера...................................54 15.2.4. Информативные априорные распределения...................................55 15.2.5. Импульсно-плоское априорное распределение..............................57 15.2.6. Априорное распределение Лапласа (байесовский lasso)............58 15.2.7. Подковообразное априорное распределение..................................60 15.2.8. Автоматическое определение релевантности.................................61 15.2.8.1. ARD для линейных моделей.......................................................61 15.2.8.2. Почему ARD дает разреженное решение?.................................62 15.2.8.3. Алгоритмы для ARD....................................................................63 15.2.8.4. Машины векторов релевантности.............................................63 15.2.9. Многомерная линейная регрессия...................................................64 15.3. Логистическая регрессия..........................................................................66 15.3.1. Бинарная логистическая регрессия..................................................66 15.3.2. Мультиномиальная логистическая регрессия.................................67 15.3.3. Несбалансированность классов и длинные хвосты.........................67 15.3.4. Априорные распределения параметров...........................................68 15.3.5. Аппроксимация Лапласа апостериорного распределения.............70 15.3.6. Аппроксимация апостериорного предсказательного распределения...............................................................................................71 15.3.7. MCMC-вывод.......................................................................................73 15.3.8. Другие приближенные методы вывода............................................75 15.3.9. Пример: правда ли, что женщинам труднее поступить в Беркли?....75 15.4. Пробит-регрессия.....................................................................................78 15.4.1. Интерпретация с латентными величинами.....................................79 15.4.2. Оценка максимального правдоподобия..........................................80 15.4.2.1. MLE с применением СГС............................................................80 15.4.2.2. MLE с применением EM-алгоритма..........................................80 15.4.3. Байесовский вывод............................................................................81 15.4.4. Порядковая пробит-регрессия..........................................................82 15.4.5. Мультиномиальные пробит-модели............................................82 15.5. Многоуровневые (иерархические) GLM..................................................82 15.5.1. Обобщенные линейные смешанные модели (GLMM).....................84 15.5.2. Пример: регрессия радона................................................................84 15.5.2.1. Вывод апостериорного распределения.....................................85 15.5.2.2. Нецентрированная параметризация.........................................86 Глава 16. Глубокие нейронные сети................................................ 88 16.1. Введение....................................................................................................88 16.2. Построение блоков, составляющих дифференцируемые контуры.......89 16.2.1. Линейные слои...................................................................................89 16.2.2. Нелинейности.....................................................................................89 16.2.3. Сверточные слои................................................................................90 6 Оглавление
16.2.4. Остаточные (прямые) связи..............................................................92 16.2.5. Нормировочные слои........................................................................92 16.2.6. Слои прореживания...........................................................................93 16.2.7. Слои внимания...................................................................................94 16.2.8. Рекуррентные слои............................................................................96 16.2.9. Мультипликативные слои.................................................................97 16.2.10. Неявные слои....................................................................................97 16.3. Канонические примеры нейронных сетей.............................................98 16.3.1. Многослойные перцептроны (МСП).................................................98 16.3.2. Сверточные нейронные сети (СНС)..................................................99 16.3.3. Автокодировщики............................................................................100 16.3.4. Рекуррентные нейронные сети (РНС)............................................101 16.3.5. Трансформеры..................................................................................102 16.3.6. Графовые нейронные сети (GNN)...................................................103 Глава 17. Байесовские нейронные сети........................................104 17.1. Введение..................................................................................................104 17.2. Априорные распределения для БНС......................................................104 17.2.1. Гауссовы априорные распределения..............................................105 17.2.2. Априорные распределения, поощряющие разреженность...........107 17.2.3. Обучение априорного распределения............................................107 17.2.4. Априорные распределения в пространстве функций...................108 17.2.5. Архитектурные априорные распределения...................................108 17.3. Апостериорные распределения для БНС...............................................109 17.3.1. Прореживание Монте-Карло...........................................................109 17.3.2. Аппроксимация Лапласа..................................................................110 17.3.3. Вариационный вывод......................................................................111 17.3.4. Распространение математического ожидания..............................112 17.3.5. Методы последнего слоя..................................................................112 17.3.6. Метод SNGP.......................................................................................113 17.3.7. MCMC-методы...................................................................................114 17.3.8. Методы, основанные на траектории СГС.......................................114 17.3.9. Глубокие ансамбли...........................................................................116 17.3.9.1. MultiSWAG..................................................................................117 17.3.9.2. Глубокие ансамбли со случайными априорными распределениями....................................................................................117 17.3.9.3. Глубокие ансамбли как приближенный байесовский вывод..................................................................................118 17.3.9.4. Глубокие и классические ансамбли..........................................118 17.3.9.5. Глубокие ансамбли, смеси экспертов и стекинг......................119 17.3.9.6. Пакетный ансамбль...................................................................119 17.3.10. Аппроксимация апостериорного предсказательного распределения.............................................................................................120 17.3.10.1. Линеаризованная аппроксимация.............................................120 17.3.10.2. Аппроксимация на основе моста Лапласа.............................121 17.3.10.3. Дистилляция............................................................................123 17.3.11. Закаленные и холодные апостериорные распределения............123 Оглавление 7
17.4. Обобщение в байесовском глубоком обучении....................................125 17.4.1. Острые и плоские минимумы.........................................................125 17.4.2. Связность мод и ландшафт функции потерь..................................126 17.4.3. Эффективная размерность модели.................................................127 17.4.4. Пространство гипотез ГНС..............................................................128 17.4.5. PAC-байесовское обучение..............................................................129 17.4.6. Обобщение БНС при выходе за рамки распределения..................130 17.4.6.1. BMA может давать плохие результаты для априорных распределений по умолчанию................................................................130 17.4.6.2. БНС могут быть чрезмерно уверены на входах, не принадлежащих распределению.......................................................132 17.4.7. Выбор модели для БНС.....................................................................132 17.5. Онлайновый вывод.................................................................................133 17.5.1. Последовательная аппроксимация Лапласа для ГНС....................134 17.5.2. Обобщенная фильтрация Калмана для ГНС...................................134 17.5.2.1. Пример.......................................................................................135 17.5.2.2. Задание членов дисперсии.......................................................135 17.5.2.3. Уменьшение вычислительной сложности...............................135 17.5.3. Фильтрация с предполагаемой плотностью для ГНС....................136 17.5.4. Онлайновый вариационный вывод для ГНС..................................138 17.6. Иерархические байесовские нейронные сети.......................................139 17.6.1. Пример: классификация двух лун...................................................140 Глава 18. Гауссовские процессы....................................................143 18.1. Введение..................................................................................................143 18.1.1. ГП: что такое и почему?...................................................................143 18.2. Ядра Мерсера...........................................................................................145 18.2.1. Стационарные ядра.........................................................................146 18.2.1.1. Квадратичное экспоненциальное (RBF) ядро.........................146 18.2.1.2. ARD-ядро...................................................................................147 18.2.1.3. Ядра Матерна............................................................................148 18.2.1.4. Периодические ядра.................................................................149 18.2.1.5. Рациональное квадратичное ядро...........................................150 18.2.1.6. Ядра и спектральные плотности..............................................150 18.2.2. Нестационарные ядра......................................................................151 18.2.2.1. Полиномиальные ядра..............................................................151 18.2.2.2. Ядро Гиббса................................................................................151 18.2.2.3. Другие нестационарные ядра..................................................152 18.2.3. Ядра для невекторных (структурных) входов................................152 18.2.4. Создание новых ядер на основе существующих...........................152 18.2.5. Теорема Мерсера..............................................................................154 18.2.6. Аппроксимация ядер случайными признаками............................155 18.3. ГП с гауссовым правдоподобием...........................................................156 18.3.1. Предсказания с незашумленными наблюдениями.......................156 18.3.2. Предсказания с зашумленными наблюдениями...........................157 18.3.3. Пространство весов и пространство функций...............................158 18.3.4. Полупараметрические ГП............................................................159 18.3.5. Предельное правдоподобие............................................................160 8 Оглавление
18.3.6. Вычислительные и численные трудности......................................160 18.3.7. Ядерная гребневая регрессия..........................................................161 18.3.7.1. Гильбертовы пространства с воспроизводящими ядрами.....161 18.3.7.2. Сложность функции в ГПВЯ......................................................163 18.3.7.3. Теорема о представителе..........................................................163 18.3.7.4. Сравнение KRR с GPR................................................................164 18.4. ГП с негауссовыми правдоподобиями...................................................165 18.4.1. Бинарная классификация................................................................165 18.4.2. Многоклассовая классификация.....................................................167 18.4.3. Гауссовские процессы для регрессии Пуассона (процесс Кокса)...... 167 18.4.4. Другие правдоподобия....................................................................168 18.5. Масштабирование ГП-вывода на большие наборы данных................169 18.5.1. Подмножество данных.....................................................................169 18.5.1.1. Метод информативных векторов............................................169 18.5.1.2. Обсуждение...............................................................................170 18.5.2. Аппроксимация Нистрёма..............................................................170 18.5.3. Методы со вспомогательными точками.........................................171 18.5.3.1. SOR/DIC......................................................................................172 18.5.3.2. DTC.............................................................................................173 18.5.3.3. FITC............................................................................................173 18.5.3.4. Обучение вспомогательных точек...........................................174 18.5.4. Разреженные вариационные методы.............................................175 18.5.4.1. Гауссово правдоподобие...........................................................177 18.5.4.2. Негауссово правдоподобие.......................................................178 18.5.4.3. Мини-пакетный SVI..................................................................178 18.5.5. Использование распараллеливания и структуры путем умножения ядерных матриц......................................................................179 18.5.5.1. Использование метода сопряженных градиентов и метода Ланцоша...................................................................................179 18.5.5.2. Ядра с компактным носителем................................................180 18.5.5.3. KISS.............................................................................................181 18.5.5.4. Тензорные методы....................................................................181 18.5.6. Преобразование ГП в SSM...............................................................182 18.6. Обучение ядра.........................................................................................182 18.6.1. Эмпирический байесовский подход к параметрам ядра..............183 18.6.1.1. Пример.......................................................................................184 18.6.2. Байесовский вывод параметров ядра.............................................185 18.6.3. Обучение с несколькими ядрами для аддитивных ядер...............187 18.6.4. Автоматический поиск композиционных ядер.................................189 18.6.5. Обучение спектрального смесового ядра.......................................191 18.6.6. Глубокое обучение ядра...................................................................193 18.7. Гауссовские процессы и глубокие нейронные сети..............................195 18.7.1. Ядра, выведенные из бесконечно широких ГНС (NN-GP).............195 18.7.2. Нейронное касательное ядро (NTK)................................................197 18.7.3. Глубокие ГП.......................................................................................198 18.8. Гауссовские процессы как инструмент прогнозирования временных рядов.............................................................................................198 18.8.1. Пример: Мауна-Лоа.........................................................................199 Оглавление 9
Глава 19. За пределами предположения о независимости и одинаковом распределении........................201 19.1. Введение..................................................................................................201 19.2. Дрейф распределения.............................................................................201 19.2.1. Мотивирующие примеры................................................................202 19.2.2. Каузальный взгляд на дрейф распределения................................203 19.2.3. Четыре основных типа дрейфа распределения.............................204 19.2.3.1. Дрейф ковариат.........................................................................205 19.2.3.2. Дрейф концепта............................................................................205 19.2.3.3. Дрейф меток/априорного распределения...............................206 19.2.3.4. Дрейф проявления....................................................................206 19.2.4. Смещение выбора............................................................................206 19.3. Обнаружение дрейфа распределения....................................................207 19.3.1. Обнаружение дрейфа путем двухвыборочного критерия............207 19.3.2. Обнаружение не принадлежащих распределению входов...........208 19.3.2.1. Методы идентификации ID/OOD с учителем (выявление выбросов).............................................................................209 19.3.2.2. Методы, предсказывающие уверенность классификации.....209 19.3.2.3. Конформное предсказание......................................................209 19.3.2.4. Методы обучения без учителя..................................................210 19.3.3. Избирательное предсказание.........................................................211 19.3.3.1. Пример: SGLD и СГС для МСП..................................................211 19.3.4. Распознавание открытого множества и открытого мира.............212 19.4. Робастность к дрейфу распределения...................................................213 19.4.1. Пополнение данных.........................................................................213 19.4.2. Устойчивая к изменению распределения оптимизация...............213 19.5. Адаптация к дрейфу распределения.....................................................214 19.5.1. Адаптация с учителем с применением переноса обучения.........214 19.5.1.1. Предобучение и дообучение....................................................214 19.5.1.2. Дообучение с подсказками (обучение в контексте)...............215 19.5.2. Взвешенная ERM для дрейфа ковариат..........................................215 19.5.2.1. Почему дрейф ковариат является проблемой для дискриминантных моделей?...........................................................216 19.5.2.2. Как оценивать веса ERM?.........................................................216 19.5.3. Адаптация к домену без учителя для дрейфа ковариат................217 19.5.4. Методы без учителя для дрейфа меток..........................................217 19.5.5. Адаптация на этапе тестирования..................................................218 19.6. Обучение на примерах из нескольких распределений........................219 19.6.1. Многозадачное обучение................................................................220 19.6.2. Обобщение домена..........................................................................221 19.6.3. Минимизация инвариантного риска..............................................222 19.6.4. Метаобучение...................................................................................223 19.6.4.1. Метаобучение как вероятностный вывод для предсказания.....223 19.6.4.2. Нейронные процессы................................................................225 19.6.4.3. Градиентное метаобучение (MAML)........................................226 19.6.4.4. Метрическое обучение на нескольких примерах (прототипические сети)..........................................................................226 10 Оглавление