Байесовские модели
Покупка
Тематика:
Программирование и алгоритмизация
Издательство:
ДМК Пресс
Автор:
Дауни А. Б.
Перевод:
Яроцкий Владимир Александрович
Год издания: 2018
Кол-во страниц: 182
Дополнительно
Вид издания:
Практическое пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-97060-664-3
Артикул: 714659.02.99
Если вы знаете, как программировать на Python, и немного знаете о теории вероятности, значит, вы готовы освоить байесовскую статистику. Эта книга расскажет вам, как решать статистические задачи с помощью языка Python вместо математических формул и использовать дискретные вероятностные распределения вместо непрерывной математики. Байесовские статистические методы становятся все более обширными и важными. Но в помощь начинающим доступно не слишком много источников. Изложенная в этой книге методика основана на материале проводимых автором студенческих
занятий и точно поможет вам сделать хороший старт! Издание будет полезно всем специалистам по анализу данных, кто должен использовать статистические данные в условиях их неполноты или решать другие нетривиальные задачи, связанные с вероятностными распределениями.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 02.03.02: Фундаментальная информатика и информационные технологии
- 09.03.03: Прикладная информатика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Аллен Б. Дауни Байесовские модели
Allen B. Downey Think Bayes Bayesian Statistics in Python Beijing • Cambridge • Farnham • Köln • Sebastopol • Tokyo
Аллен Б. Дауни Байесовские модели Байесовская статистика на языке программирования Python Москва, 2018
УДК 004.021 ББК 32.973.3 Д21 Дауни А. Б. Д21 Байесовские модели / пер. с анг. В. А. Яроцкого. – М.: ДМК Пресс, 2018. – 182 с.: ил. ISBN 978-5-97060-664-3 Если вы знаете, как программировать на Python, и немного знаете о теории вероятности, значит, вы готовы освоить байесовскую статистику. Эта книга расскажет вам, как решать статистические задачи с помощью языка Python вместо математических формул и использовать дискретные вероятностные распределения вместо непрерывной математики. Байесовские статистические методы становятся все более обширными и важными. Но в помощь начинающим доступно не слишком много источников. Изложенная в этой книге методика основана на материале проводимых автором студенческих занятий и точно поможет вам сделать хороший старт! Издание будет полезно всем специалистам по анализу данных, кто должен использовать статистические данные в условиях их неполноты или решать другие нетри виальные задачи, связанные с вероятностными распределениями. УДК 004.021 ББК 32.973.3 Original English language edition published by O’Reilly Media, Inc. Copyright © 2013 Allen B. Downey. Russian-language edition copyright © 2018 by DMK Press. All rights reserved. Все права защищены. Любая часть этой книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. ISBN 978-1-449-37078-7 (анг.) Copyright © 2013 Allen B. Downey ISBN 978-5-97060-664-3 (рус.) © Оформление, издание, перевод, ДМК Пресс, 2018
Содержание Вступительное слово ......................................................................................9 Предисловие ....................................................................................................10 Глава 1. Теорема Байеса ..............................................................................16 Условная вероятность ...........................................................................................16 Совместная вероятность ......................................................................................17 Задача о булочках .................................................................................................17 Теорема Байеса .....................................................................................................18 Диахроническая интерпретация .........................................................................19 Задача M&M ..........................................................................................................20 Задача Монти Холла .............................................................................................22 Обсуждение ...........................................................................................................24 Глава 2. Вычислительная статистика ......................................................25 Распределения ......................................................................................................25 Задача с булочками ...............................................................................................26 Байесовская структура .........................................................................................27 Задача Монти Холла .............................................................................................28 Формирование структуры программного пакета ..............................................29 Задача M&M ..........................................................................................................30 Обсуждение ...........................................................................................................31 Упражнение ...........................................................................................................32 Глава 3. Оценивание ......................................................................................33 Задача об игральных костях ................................................................................33 Задача о локомотиве ............................................................................................34 Что насчет этого приора? .....................................................................................36 Альтернативный приор ........................................................................................37 Доверительный интервал ....................................................................................39 Кумулятивные функции распределения .............................................................39 Задача о немецком танке .....................................................................................40 Обсуждение ...........................................................................................................41 Упражнение ...........................................................................................................41 Глава 4. Больше об оценивании ...............................................................43 Задача о евро .........................................................................................................43 Итоговый постериор ............................................................................................44
Содержание Подавление приоров ............................................................................................45 Оптимизация ........................................................................................................47 Бета-распределение .............................................................................................48 Обсуждение ...........................................................................................................50 Упражнения...........................................................................................................50 Глава 5. Отношение вероятностей и добавления .............................52 Отношение вероятностей ....................................................................................52 Теорема Байеса в форме отношения вероятностей ...........................................53 Группа крови Оливера ..........................................................................................54 Добавления ...........................................................................................................55 Максимизации ......................................................................................................58 Перемешивание ....................................................................................................60 Обсуждение ...........................................................................................................62 Глава 6. Анализ решений .............................................................................63 Задача «Справедливой цены» ..............................................................................63 Приор .....................................................................................................................64 Функция плотности вероятности ........................................................................65 Представление PDF ...............................................................................................65 Моделирование участников .................................................................................67 Правдоподобие .....................................................................................................69 Обновление ...........................................................................................................70 Оптимальное предложение цены .......................................................................71 Обсуждение ...........................................................................................................74 Глава 7. Предсказание ..................................................................................75 Задача о Бостон Брюинс .......................................................................................75 Процесс Пуассона .................................................................................................76 Постериоры ...........................................................................................................77 Распределение голов ............................................................................................78 Вероятность выигрыша ........................................................................................79 Выигрыш в дополнительное время .....................................................................80 Обсуждение ...........................................................................................................82 Упражнения...........................................................................................................83 Глава 8. Погрешность наблюдения .........................................................85 Задача о линии метрополитена ...........................................................................85 Модель ...................................................................................................................85 Время ожидания ...................................................................................................87 Предсказание ожидаемого времени ...................................................................89 Оценка времени прибытия ..................................................................................92
Содержание 7 Включение неопределенности ............................................................................94 Анализ решений ...................................................................................................95 Обсуждение ...........................................................................................................97 Упражнение ...........................................................................................................98 Глава 9. Двумерное измерение ................................................................99 Пейнтбол ...............................................................................................................99 Пакет гипотез ........................................................................................................99 Тригонометрия ...................................................................................................100 Правдоподобие ...................................................................................................102 Совместные распределения ...............................................................................102 Условные распределения ...................................................................................104 Доверительные интервалы ................................................................................105 Обсуждение .........................................................................................................107 Упражнение .........................................................................................................108 Глава 10. Аппроксимация при байесовских вычислениях ..........109 Гипотеза изменчивости .....................................................................................109 Среднее и стандартное отклонение ..................................................................110 Обновление .........................................................................................................112 Апостериорное распределение CV ....................................................................113 Потеря значимости .............................................................................................113 Логарифмическое правдоподобие ....................................................................115 Небольшая оптимизация ...................................................................................116 Аппроксимация при байесовских вычислениях (ABC) ....................................117 Робастное оценивание .......................................................................................118 Кто более изменчив? ..........................................................................................120 Обсуждение .........................................................................................................122 Упражнение .........................................................................................................122 Глава 11. Проверка гипотез ......................................................................124 Обратно к задаче о евро .....................................................................................124 Cправедливое сравнение ...................................................................................125 Треугольный приор ............................................................................................126 Обсуждение .........................................................................................................127 Упражнения.........................................................................................................128 Глава 12. Свидетельства ............................................................................129 Интерпретация оценки SAT ...............................................................................129 Шкала ...................................................................................................................129 Приор ...................................................................................................................130 Постериор ............................................................................................................132
Содержание Улучшенная модель ............................................................................................133 Градуировка ........................................................................................................135 Апостериорное распределение эффективности ..............................................136 Распределение предсказания ............................................................................138 Обсуждение .........................................................................................................138 Глава 13. Моделирование .........................................................................140 Проблема опухоли почек ...................................................................................140 Простая модель ...................................................................................................141 Более общая модель............................................................................................143 Реализация ..........................................................................................................144 Кеширование совместного распределения ......................................................145 Условные распределения ...................................................................................146 Последовательная корреляция ..........................................................................147 Обсуждение .........................................................................................................151 Глава 14. Иерархическая модель ..........................................................152 Задача о счетчике Гейгера ..................................................................................152 Простое начало ...................................................................................................153 Создание иерархии .............................................................................................154 Небольшая оптимизация ...................................................................................155 Извлечение постериоров ...................................................................................155 Обсуждение .........................................................................................................157 Упражнение .........................................................................................................157 Глава 15. Борьба с размерностью..........................................................158 Бактерии пупка ...................................................................................................158 Львы, тигры и медведи .......................................................................................158 Иерархическая версия ........................................................................................161 Случайная выборка.............................................................................................163 Оптимизация ......................................................................................................164 Сворачивание иерархии ....................................................................................165 Еще одна проблема .............................................................................................167 Мы сделали еще не все .......................................................................................168 Данные пупка ......................................................................................................170 Прогнозирующее распределение ......................................................................172 Совместный постериор ......................................................................................175 Перекрывающая зона .........................................................................................176 Обсуждение .........................................................................................................178 Предметный указатель ..............................................................................180
Вступительное слово Около десяти лет назад, когда изучение байесовских методов впервые заинтересовало меня, я обнаружил острую нехватку книг по данной теме на русском языке. Материала, в котором бы практически, с точки зрения реализации на конкретном языке программирования, описывались как базовые, так и более продвинутые методы анализа данных с помощью байесовских методов. При этом не составляло труда найти огромное количество достойных книг на английском языке, дающих глубокое практическое понимание этого отдельного важного класса методов, которые применимы в самом широком спектре областей: начиная от анализа экспериментальных данных и заканчивая современными системами принятия решений и даже блокчейном. Кстати, если говорить о последнем, то можно привести в пример NeuroChainTech – проект большой международной команды, в котором мне посчастливилось стать научным консультантом. Это реализация умного блокчейна с новым оригинальным алгоритмом консенсуса и элементами машинного обучения, включающими как раз байесовские сети. В этом году проект провел успешное ICO и в настоящее время находится в активной фазе своего развития. Кроме того, в настоящее время на байесовских методах базируются в том числе и современные системы принятия решений и анализа данных, которые активно используются для решения задач цифровизации экономики, выходящих в настоящее время на первый план в государственном и корпоративном развитии. Несколько лет назад мои статьи на русском языке, опубликованные на популярном ресурсе в сети Интернет, в которых описывались базовые принципы имплементации байесовских методов на Python’е, нашли очень живой отклик читателей. Более того, до сегодняшнего дня, спустя пять лет с момента их публикации, мне по-прежнему поступают вопросы, связанные с практическим воплощением алгоритмов байесовского анализа, что в очередной раз подтверждает неподдельный и неснижающийся интерес широкой аудитории к пониманию и практическим аспектам реализации байесовских методов. Появление перевода на русский язык отличной книги, подробно описывающей практическое воплощение байесовских методов на Python’е, – это безусловный повод для радости. Настоящая книга включает в себя описание базовых принципов реализации байесовских методов в самом широком спектре их применений, и я очень надеюсь, что она вызовет должный интерес у читателей и придаст новый импульс к изучению, активному применению и дальнейшему развитию байесовских методов. Желаю читателям успешного овладения инструментарием байесовских методов и интересных его применений в будущих проектах! Максим Иришкин, PhD, научный консультант NeuroChainTech, эксперт по инновационному развитию корпораций
Предисловие Мой подход Предпосылкой для этой книги, как и других книг серии Think X, является мысль о том, что если вы умеете программировать, вы можете использовать это умение, чтобы овладеть другими знаниями. Большинство книг по байесовской статистике используют математические формулировки и представляют эти идеи как исчисление в терминах математических концепций. В этой книге вместо математики используются язык программирования Python и дискретная аппроксимация вместо непрерывной математики. В результате то, что книгах по математике является интегралом, становится суммированием, а большинство операций с вероятностными распределениями – просто циклами. Мне кажется, что такое представление более понятно, по крайней мере для людей с навыками программиста. Оно также имеет более общий характер, потому что мы можем выбирать наиболее подходящую модель, не слишком беспокоясь, поддается ли она традиционному анализу реальных проблем. Глава 3 – хороший пример этого. Она начинается с простого примера с игральными костями – одного из основных в базовой теории вероятности. Затем небольшими шагами идет продвижение к задаче о локомотивах, которая позаимствована из книги Фредерика Мостеллера (Frederick Mosteller) «Пятьдесят интересных вероятностных задач с решениями» (Fifty Challenging Problems in Probability with Solutions. Dover, 1987) и затем к задаче о немецком танке, знаменитому успешному применению байесовского метода во время Второй мировой войны. Моделирование и аппроксиМация Многие задачи в этой книге мотивированы реальными проблемами, что влечет за собой необходимость построения модели. Прежде чем мы применим байесовские методы (как и любой другой анализ), мы должны принять решение о том, какую часть реальной системы мы включим в модель и от каких деталей мы можем абстрагироваться. Например, в главе 7 мотивирующей проблемой является предсказание победителя в игре в хоккей. Я применил для подсчета голов пуассоновский процесс, который подразумевает, что голы могут быть забиты равновероятно в любой момент игры. Это не совсем так, но эта модель, вероятно, подходит для многих других задач. В главе 12 мотивацией проблемы является интерпретация экзаменационных оценок SAT (SAT является стандартизированным тестом, используемым при поступлении в колледж в США). Я начинаю с простой модели, в которой