Вероятностное машинное обучение. Дополнительные темы: основания, вывод
Покупка
Новинка
Издательство:
ДМК Пресс
Автор:
Мэрфи Кевин П.
Перевод:
Слинкин Алексей Александрович
Год издания: 2024
Кол-во страниц: 772
Дополнительно
Вид издания:
Монография
Уровень образования:
ВО - Специалитет
ISBN: 978-5-93700-120-7
Артикул: 855967.01.99
Дополняя ранее изданную книгу «Вероятностное машинное обучение. Введение», этот классический труд знакомит читателя с деталями самых актуальных теорий и методов машинного обучения (МО).
В «Дополнительных темах» излагаются различные вопросы машинного обучения на более глубоком уровне. Рассмотрено обучение и тестирование при различных распределениях, порождение многомерных выходов, таких как изображения, текст и графы.
Во второй книге описано применение байесовского вывода к вероятностным моделям, начиная с основ и заканчивая алгоритмами вывода.
Издание предназначено специалистам в области МО и искусственного интеллекта, а также будет полезно студентам профильных специальностей. Предполагается, что читатель знаком с МО и другими математическими дисциплинами (теорией вероятностей, статистикой, линейной алгеброй).
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 01.03.05: Статистика
- ВО - Специалитет
- 01.05.01: Фундаментальные математика и механика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Кэвин П. Мэрфи Вероятностное машинное обучение. Дополнительные темы: основания, вывод
Probabilistic Machine Learning Advanced Topics Kevin P. Murphy
Вероятностное машинное обучение. Дополнительные темы: основания, вывод Кэвин П. Мэрфи Москва, 2024
УДК 004.048 ББК 32.972 М97 Кэвин П. Мэрфи М97 Вероятностное машинное обучение. Дополнительные темы: основания, вывод / пер. с англ. А. А. Слинкина. – М.: ДМК Пресс, 2024. – 770 с.: ил. ISBN 978-5-93700-120-7 Дополняя ранее изданную книгу «Вероятностное машинное обучение. Введение», этот классический труд знакомит читателя с деталями самых актуальных теорий и методов машинного обучения (МО). В «Дополнительных темах» излагаются различные вопросы машинного обуче-ния на более глубоком уровне. Рассмотрено обучение и тестирование при различных распределениях, порождение многомерных выходов, таких как изобра-жения, текст и графы. Во второй книге описано применение байесовского вывода к вероятностным моделям, начиная с основ и заканчивая алгоритмами вывода. Издание предназначено специалистам в области МО и искусственного интеллекта, а также будет полезно студентам профильных специальностей. Предполагается, что читатель знаком с МО и другими математическими дисциплинами (теорией вероятностей, статистикой, линейной алгеброй). УДК 004.048 ББК 32.972 Все права защищены. Любая часть этой книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. © 2023 Kevin P. Murphy © Оформление, издание, перевод, ДМК Пресс, 2024 ISBN (анг.) 978-0-26204-843-9 ISBN (рус.) 978-5-93700-120-7
Посвящается моей жене, Маргарет, которая уже больше 20 лет составляет счастье моей жизни
Оглавление Предисловие от издательства......................................................... 27 Предисловие....................................................................................... 28 Соавторы............................................................................................................29 Прочие соавторы...............................................................................................30 Об обложке.........................................................................................................30 Глава 1. Введение............................................................................... 31 ЧАСТЬ I. ОСНОВАНИЯ................................................................ 35 Глава 2. Вероятность.......................................................................... 37 2.1. Введение......................................................................................................37 2.1.1. Пространство вероятностей................................................................37 2.1.2. Дискретные случайные величины......................................................37 2.1.3. Непрерывные случайные величины...................................................38 2.1.4. Аксиомы вероятностей........................................................................39 2.1.5. Условная вероятность..........................................................................40 2.1.6. Формула Байеса....................................................................................40 2.2. Некоторые распространенные распределения вероятностей.................41 2.2.1. Дискретные распределения................................................................41 2.2.1.1. Распределение Бернулли и биномиальное распределение.......41 2.2.1.2. Категориальное и мультиномиальное распределения..............42 2.2.1.3. Распределение Пуассона..............................................................42 2.2.1.4. Отрицательное биномиальное распределение..........................42 2.2.2. Непрерывные распределения на ℝ.....................................................43 2.2.2.1. Гауссово (нормальное) распределение........................................43 2.2.2.2. Полунормальное распределение.................................................44 2.2.2.3. t-распределение Стьюдента.........................................................44 2.2.2.4. Распределение Коши....................................................................44 2.2.2.5. Распределение Лапласа................................................................45 2.2.2.6. Субгауссово и супергауссово распределения..............................45 2.2.3. Непрерывные распределения на ℝ+....................................................46 2.2.3.1. Гамма-распределение...................................................................46 2.2.3.2. Экспоненциальное распределение..............................................47 2.2.3.3. Распределение хи-квадрат...........................................................47 2.2.3.4. Обратное гамма-распределение..................................................48 2.2.3.5. Распределение Парето..................................................................48 2.2.4. Непрерывные распределения на отрезке [0, 1]..................................50 2.2.4.1. Бета-распределение......................................................................50
2.2.5. Многомерные непрерывные распределения.....................................50 2.2.5.1. Многомерное нормальное (гауссово) распределение................50 2.2.5.2. Многомерное распределение Стьюдента....................................50 2.2.5.3. Круговое нормальное (фон Физеса–Фишера) распределение.....51 2.2.5.4. Матричное нормальное распределение (MN).............................51 2.2.5.5. Распределение Уишарта...............................................................52 2.2.5.6. Обратное распределение Уишарта..............................................52 2.2.5.7. Распределение Дирихле................................................................53 2.3. Гауссовы совместные распределения........................................................55 2.3.1. Многомерное нормальное распределение........................................55 2.3.1.1. Определение..................................................................................55 2.3.1.2. Гауссовы оболочки........................................................................56 2.3.1.3. Маргинальные и условные распределения для MVN.................58 2.3.1.4. Информационная (каноническая) форма...................................58 2.3.1.5. Вывод: моментная форма............................................................59 2.3.1.6. Вывод: информационная форма.................................................61 2.3.2. Линейные гауссовы системы...............................................................62 2.3.2.1. Совместное распределение..........................................................62 2.3.2.2. Апостериорное распределение (формула Байеса для гауссовых распределений)....................................63 2.3.2.3. Пример: объединение показаний датчиков с известным шумом измерений.....................................................................................64 2.3.3. Общий математический анализ гауссовых систем...........................65 2.3.3.1. Моментная и каноническая параметризация............................65 2.3.3.2. Умножение и деление...................................................................66 2.3.3.3. Маргинализация...........................................................................66 2.3.3.4. Обусловливание фактами.............................................................67 2.3.3.5. Преобразование линейно-гауссова условного распределения вероятностей в канонический потенциал.....................67 2.3.3.6. Пример: произведение гауссовых распределений.....................68 2.4. Экспоненциальное семейство....................................................................68 2.4.1. Определение.........................................................................................69 2.4.2. Примеры...............................................................................................70 2.4.2.1. Распределение Бернулли..............................................................70 2.4.2.2. Категориальное распределение...................................................71 2.4.2.3. Одномерное гауссово распределение..........................................72 2.4.2.4. Одномерное гауссово распределение с фиксированной дисперсией..................................................................72 2.4.2.5. Многомерное гауссово распределение........................................73 2.4.2.6. Примеры противоположного свойства.......................................74 2.4.3. Логарифмическая функция разбиения является производящей функцией кумулянтов...................................................................................74 2.4.3.1. Вывод среднего.............................................................................75 2.4.3.2. Вывод дисперсии..........................................................................75 2.4.3.3. Связь с информационной матрицей Фишера.............................76 2.4.4. Канонические (натуральные) и средние (моментные) параметры.....76 2.4.5. Оценка максимального правдоподобия для экспоненциального семейства.......................................................................................................77 Оглавление 7
2.4.6. Экспоненциальное дисперсионное семейство..................................78 2.4.7. Вывод максимальной энтропии экспоненциального семейства.....78 2.5. Преобразования случайных величин........................................................79 2.5.1. Обратимые преобразования (биекции).............................................80 2.5.2. Аппроксимация Монте-Карло............................................................80 2.5.3. Интегральное преобразование вероятности.....................................81 2.6. Марковские цепи........................................................................................82 2.6.1. Параметризация..................................................................................83 2.6.1.1. Марковские переходные ядра......................................................83 2.6.1.2. Марковские матрицы переходов.................................................83 2.6.1.3. Марковские модели высшего порядка........................................84 2.6.2. Приложение: языковое моделирование.............................................85 2.6.3. Оценивание параметров.....................................................................85 2.6.3.1. Оценка максимального правдоподобия.....................................85 2.6.3.2. Проблема разреженных данных..................................................86 2.6.3.3. Оценка апостериорного максимума...........................................87 2.6.4. Стационарное распределение марковской цепи...............................87 2.6.4.1 Что такое стационарное распределение?....................................88 2.6.4.2. Вычисление стационарного распределения...............................89 2.6.4.3. Когда существует стационарное распределение?.......................89 2.6.4.4. Детальный баланс.........................................................................91 2.7. Меры расхождения распределений вероятностей....................................92 2.7.1. f-расхождение.......................................................................................92 2.7.1.1. Расхождение КЛ.............................................................................93 2.7.1.2. Альфа-расхождение......................................................................93 2.7.1.3. Расстояние Хеллингера ................................................................93 2.7.1.4. Расстояние хи-квадрат..................................................................94 2.7.2. Интегральные вероятностные метрики.............................................94 2.7.3. Максимальное среднее расхождение (МСР).......................................95 2.7.3.1. МСР как ИВМ.................................................................................95 2.7.3.2. Вычисление МСР с помощью ядерного трюка............................96 2.7.3.3. Вычисление за линейное время...................................................96 2.7.3.4. Выбор подходящего ядра..............................................................97 2.7.4. Расстояние полной вариации..............................................................97 2.7.5. Оценка отношения плотностей с помощью бинарных классификаторов...........................................................................................99 Глава 3. Статистика...........................................................................101 3.2. Байесовская статистика............................................................................101 3.2.1. Подбрасывание монеты....................................................................102 3.2.1.1. Правдоподобие............................................................................102 3.2.1.2. Априорное распределение.........................................................102 3.2.1.3. Апостериорное распределение......................................................103 3.2.1.4. Апостериорная мода (оценка MAP)...........................................104 3.2.1.5. Апостериорное среднее..............................................................105 3.2.1.6. Апостериорная дисперсия..........................................................105 3.2.1.7. Байесовские доверительные интервалы...................................106 8 Оглавление
3.2.1.8. Апостериорное предсказательное распределение...................107 3.2.1.9. Предельное правдоподобие.......................................................108 3.2.2. Моделирование более сложных данных...........................................109 3.2.3. Выбор априорного распределения...................................................110 3.2.4. Вычислительные проблемы..............................................................111 3.2.5. Перестановочность и теорема де Финетти......................................111 3.3. Частотная статистика...............................................................................112 3.3.1. Выборочные распределения.............................................................112 3.3.2 Бутстрэпная аппроксимация выборочного распределения............113 3.3.3. Асимптотическая нормальность выборочного распределения MLE.....................................................................................115 3.3.4. Информационная матрица Фишера.................................................115 3.3.4.1. Определение................................................................................115 3.3.4.2. Эквивалентность информационной матрицы Фишера и гессиана отрицательного логарифмического правдоподобия.........116 3.3.4.3. Пример: FIM для биномиального распределения....................117 3.3.4.4. Пример: FIM для одномерного гауссова распределения.........118 3.3.4.5. Пример: FIM для логистической регрессии..............................118 3.3.4.6. FIM для экспоненциального семейства.....................................119 3.3.5. Противоречащие интуиции свойства частотной статистики.........120 3.3.5.1. Доверительные интервалы.........................................................120 3.3.5.2. p-значения...................................................................................121 3.3.5.3. Обсуждение.................................................................................123 3.3.6. Почему не все исповедуют байесовский подход?............................123 3.4. Сопряженные априорные распределения..........................................125 3.4.1. Биномиальная модель.......................................................................125 3.4.2. Мультиномиальная модель...............................................................125 3.4.3. Одномерная гауссова модель............................................................126 3.4.3.1. Апостериорное μ при заданном σ2................................................126 3.4.3.2. Апостериорное σ2 при заданном μ............................................128 3.4.3.3. Апостериорное μ и σ2: сопряженное априорное распределение.........................................................................................130 3.4.3.4. Апостериорные μ и σ2: неинформативное априорное распределение......................................................................131 3.4.4. Многомерная гауссова модель..........................................................132 3.4.4.1. Апостериорное μ при заданной Σ.......................................................132 3.4.4.2. Апостериорная Σ при заданном μ..............................................133 3.4.4.3. Апостериорные Σ и μ..................................................................134 3.4.5. Модель их экспоненциального семейства.......................................139 3.4.5.1. Правдоподобие............................................................................139 3.4.5.2. Априорное распределение.........................................................139 3.4.5.3. Апостериорное распределение..................................................139 3.4.5.4. Предельное правдоподобие.......................................................140 3.4.5.5. Апостериорное предсказательное распределение...................140 3.4.5.6. Пример: распределение Бернулли.............................................140 3.4.6. За пределами сопряженных пар.......................................................141 3.4.6.1. Смеси сопряженных априорных распределений.....................142 Оглавление 9
3.4.6.2. Робастные (с тяжелыми хвостами) априорные распределения.........................................................................................143 3.4.6.3. Априорные распределения для скалярных дисперсий............144 3.4.6.4. Априорные распределения для ковариационных матриц......144 3.5. Неинформативные априорные распределения......................................146 3.5.1. Априорные распределения с максимальной энтропией................146 3.5.2. Априорные распределения Джеффриса...........................................147 3.5.2.1. Априорное распределение Джеффриса для биномиального распределения.......................................................148 3.5.2.2. Априорное распределение Джеффриса для мультиномиального распределения...............................................149 3.5.2.3. Априорное распределение Джеффриса для среднего и дисперсии одномерного гауссова распределения.............................149 3.5.3. Инвариантные априорные распределения......................................150 3.5.3.1. Трансляционно-инвариантные априорные распределения.......150 3.5.3.2. Масштабно-инвариантное априорное распределение............150 3.5.3.3. Обучение инвариантных априорных распределений..............151 3.5.4. Референтные априорные распределения........................................151 3.6. Иерархические априорные распределения............................................152 3.6.1. Иерархическая биномиальная модель.............................................153 3.6.1.1. Вывод апостериорного распределения ....................................154 3.6.1.2. Пример: набор данных о крысах...............................................154 3.6.2. Иерархическая гауссова модель........................................................155 3.6.2.1. Пример: набор данных о восьми школах..................................156 3.6.2.2. Нецентрированная параметризация.........................................157 3.6.3. Иерархические условные модели.....................................................158 3.7. Эмпирический байесовский анализ........................................................159 3.7.1. Эмпирический байесовский анализ для иерархической биномиальной модели................................................................................159 3.7.2. Эмпирический байесовский анализ для иерархической гауссовой модели.........................................................................................160 3.7.3. Эмпирический байесовский анализ для марковской модели (n-граммное сглаживание).........................................................................161 3.7.4. Эмпирический байесовский анализ для несопряженных моделей........................................................................................................164 3.8. Выбор модели............................................................................................164 3.8.1. Байесовский выбор модели...............................................................164 3.8.1.1. Пример: симметрична ли монета?............................................165 3.8.2. Байесовское усреднение моделей.....................................................166 3.8.3. Оценивание предельного правдоподобия.......................................166 3.8.3.1. Аналитическое решение для сопряженных моделей...............167 3.8.3.2. Оценка гармонического среднего.............................................167 3.8.3.3. Другие методы Монте-Карло.........................................................167 3.8.3.4. Вариационный байесовский анализ..........................................167 3.8.4. Связь между перекрестной проверкой и предельным правдоподобием..........................................................................................168 3.8.5. Условное предельное правдоподобие..............................................169 3.8.6. Байесовская оценка с исключением по одному (LOO)....................170 10 Оглавление
Похожие
Ошибка получения данных