Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Байесовские модели

Покупка
Артикул: 714659.02.99
Доступ онлайн
490 ₽
В корзину
Если вы знаете, как программировать на Python, и немного знаете о теории вероятности, значит, вы готовы освоить байесовскую статистику. Эта книга расскажет вам, как решать статистические задачи с помощью языка Python вместо математических формул и использовать дискретные вероятностные распределения вместо непрерывной математики. Байесовские статистические методы становятся все более обширными и важными. Но в помощь начинающим доступно не слишком много источников. Изложенная в этой книге методика основана на материале проводимых автором студенческих занятий и точно поможет вам сделать хороший старт! Издание будет полезно всем специалистам по анализу данных, кто должен использовать статистические данные в условиях их неполноты или решать другие нетривиальные задачи, связанные с вероятностными распределениями.
Дауни, А. Б. Байесовские модели : практическое руководство / А. Б. Дауни ; пер. с анг. В. А. Яроцкого. - Москва : ДМК Пресс, 2018. - 182 с. - ISBN 978-5-97060-664-3. - Текст : электронный. - URL: https://znanium.com/catalog/product/1873506 (дата обращения: 22.11.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
Аллен Б. Дауни

Байесовские модели

Allen B. Downey

Think Bayes

Bayesian Statistics in Python

 
Beijing • Cambridge • Farnham • Köln • Sebastopol • Tokyo

Аллен Б. Дауни

Байесовские  
модели

Байесовская статистика  
на языке программирования Python

Москва, 2018

УДК 004.021
ББК 32.973.3
Д21

Дауни А. Б.
Д21 
Байесовские модели / пер. с анг. В. А. Яроцкого. – М.: ДМК Пресс, 2018. – 
182 с.: ил. 

ISBN 978-5-97060-664-3

Если вы знаете, как программировать на Python, и немного знаете о теории 
вероятности, значит, вы готовы освоить байесовскую статистику. Эта книга расскажет вам, как решать статистические задачи с помощью языка Python вместо 
математических формул и использовать дискретные вероятностные распределения 
вместо непрерывной математики.
Байесовские статистические методы становятся все более обширными и важными. Но в помощь начинающим доступно не слишком много источников. Изложенная 
в этой книге методика основана на материале проводимых автором студенческих 
занятий и точно поможет вам сделать хороший старт!
Издание будет полезно всем специалистам по анализу данных, кто должен использовать статистические данные в условиях их неполноты или решать другие 
нетри виальные задачи, связанные с вероятностными распределениями.

УДК 004.021
ББК 32.973.3

Original English language edition published by O’Reilly Media, Inc. Copyright © 2013 Allen B. 
Downey. Russian-language edition copyright © 2018 by DMK Press. All rights reserved.

Все права защищены. Любая часть этой книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения 
владельцев авторских прав.

ISBN 978-1-449-37078-7 (анг.) 
Copyright © 2013 Allen B. Downey
ISBN 978-5-97060-664-3 (рус.) 
© Оформление, издание, перевод,  
 
ДМК Пресс, 2018

Содержание

Вступительное слово ......................................................................................9
Предисловие ....................................................................................................10

Глава 1. Теорема Байеса ..............................................................................16
Условная вероятность ...........................................................................................16
Совместная вероятность ......................................................................................17
Задача о булочках .................................................................................................17
Теорема Байеса .....................................................................................................18
Диахроническая интерпретация .........................................................................19
Задача M&M ..........................................................................................................20
Задача Монти Холла .............................................................................................22
Обсуждение ...........................................................................................................24

Глава 2. Вычислительная статистика ......................................................25
Распределения ......................................................................................................25
Задача с булочками ...............................................................................................26
Байесовская структура .........................................................................................27
Задача Монти Холла .............................................................................................28
Формирование структуры программного пакета ..............................................29
Задача M&M ..........................................................................................................30
Обсуждение ...........................................................................................................31
Упражнение ...........................................................................................................32

Глава 3. Оценивание ......................................................................................33
Задача об игральных костях ................................................................................33
Задача о локомотиве ............................................................................................34
Что насчет этого приора? .....................................................................................36
Альтернативный приор ........................................................................................37
Доверительный интервал ....................................................................................39
Кумулятивные функции распределения .............................................................39
Задача о немецком танке .....................................................................................40
Обсуждение ...........................................................................................................41
Упражнение ...........................................................................................................41

Глава 4. Больше об оценивании ...............................................................43
Задача о евро .........................................................................................................43
Итоговый постериор ............................................................................................44

 Содержание

Подавление приоров ............................................................................................45
Оптимизация ........................................................................................................47
Бета-распределение .............................................................................................48
Обсуждение ...........................................................................................................50
Упражнения...........................................................................................................50

Глава 5. Отношение вероятностей и добавления .............................52

Отношение вероятностей ....................................................................................52
Теорема Байеса в форме отношения вероятностей ...........................................53
Группа крови Оливера ..........................................................................................54
Добавления ...........................................................................................................55
Максимизации ......................................................................................................58
Перемешивание ....................................................................................................60
Обсуждение ...........................................................................................................62

Глава 6. Анализ решений .............................................................................63

Задача «Справедливой цены» ..............................................................................63
Приор .....................................................................................................................64
Функция плотности вероятности ........................................................................65
Представление PDF ...............................................................................................65
Моделирование участников .................................................................................67
Правдоподобие .....................................................................................................69
Обновление ...........................................................................................................70
Оптимальное предложение цены .......................................................................71
Обсуждение ...........................................................................................................74

Глава 7. Предсказание ..................................................................................75

Задача о Бостон Брюинс .......................................................................................75
Процесс Пуассона .................................................................................................76
Постериоры ...........................................................................................................77
Распределение голов ............................................................................................78
Вероятность выигрыша ........................................................................................79
Выигрыш в дополнительное время .....................................................................80
Обсуждение ...........................................................................................................82
Упражнения...........................................................................................................83

Глава 8. Погрешность наблюдения .........................................................85

Задача о линии метрополитена ...........................................................................85
Модель ...................................................................................................................85
Время ожидания ...................................................................................................87
Предсказание ожидаемого времени ...................................................................89
Оценка времени прибытия ..................................................................................92

Содержание  7

Включение неопределенности ............................................................................94
Анализ решений ...................................................................................................95
Обсуждение ...........................................................................................................97
Упражнение ...........................................................................................................98

Глава 9. Двумерное измерение ................................................................99

Пейнтбол ...............................................................................................................99
Пакет гипотез ........................................................................................................99
Тригонометрия ...................................................................................................100
Правдоподобие ...................................................................................................102
Совместные распределения ...............................................................................102
Условные распределения ...................................................................................104
Доверительные интервалы ................................................................................105
Обсуждение .........................................................................................................107
Упражнение .........................................................................................................108

Глава 10. Аппроксимация при байесовских вычислениях ..........109

Гипотеза изменчивости .....................................................................................109
Среднее и стандартное отклонение ..................................................................110
Обновление .........................................................................................................112
Апостериорное распределение CV ....................................................................113
Потеря значимости .............................................................................................113
Логарифмическое правдоподобие ....................................................................115
Небольшая оптимизация ...................................................................................116
Аппроксимация при байесовских вычислениях (ABC) ....................................117
Робастное оценивание .......................................................................................118
Кто более изменчив? ..........................................................................................120
Обсуждение .........................................................................................................122
Упражнение .........................................................................................................122

Глава 11. Проверка гипотез ......................................................................124

Обратно к задаче о евро .....................................................................................124
Cправедливое сравнение ...................................................................................125
Треугольный приор ............................................................................................126
Обсуждение .........................................................................................................127
Упражнения.........................................................................................................128

Глава 12. Свидетельства ............................................................................129

Интерпретация оценки SAT ...............................................................................129
Шкала ...................................................................................................................129
Приор ...................................................................................................................130
Постериор ............................................................................................................132

 Содержание

Улучшенная модель ............................................................................................133
Градуировка ........................................................................................................135
Апостериорное распределение эффективности ..............................................136
Распределение предсказания ............................................................................138
Обсуждение .........................................................................................................138

Глава 13. Моделирование .........................................................................140
Проблема опухоли почек ...................................................................................140
Простая модель ...................................................................................................141
Более общая модель............................................................................................143
Реализация ..........................................................................................................144
Кеширование совместного распределения ......................................................145
Условные распределения ...................................................................................146
Последовательная корреляция ..........................................................................147
Обсуждение .........................................................................................................151

Глава 14. Иерархическая модель ..........................................................152
Задача о счетчике Гейгера ..................................................................................152
Простое начало ...................................................................................................153
Создание иерархии .............................................................................................154
Небольшая оптимизация ...................................................................................155
Извлечение постериоров ...................................................................................155
Обсуждение .........................................................................................................157
Упражнение .........................................................................................................157

Глава 15. Борьба с размерностью..........................................................158
Бактерии пупка ...................................................................................................158
Львы, тигры и медведи .......................................................................................158
Иерархическая версия ........................................................................................161
Случайная выборка.............................................................................................163
Оптимизация ......................................................................................................164
Сворачивание иерархии ....................................................................................165
Еще одна проблема .............................................................................................167
Мы сделали еще не все .......................................................................................168
Данные пупка ......................................................................................................170
Прогнозирующее распределение ......................................................................172
Совместный постериор ......................................................................................175
Перекрывающая зона .........................................................................................176
Обсуждение .........................................................................................................178

Предметный указатель ..............................................................................180

Вступительное слово

Около десяти лет назад, когда изучение байесовских методов впервые заинтересовало меня, я обнаружил острую нехватку книг по данной теме на русском 
языке. Материала, в котором бы практически, с точки зрения реализации на 
конкретном языке программирования, описывались как базовые, так и более 
продвинутые методы анализа данных с помощью байесовских методов. При 
этом не составляло труда найти огромное количество достойных книг на английском языке, дающих глубокое практическое понимание этого отдельного 
важного класса методов, которые применимы в самом широком спектре областей: начиная от анализа экспериментальных данных и заканчивая современными системами принятия решений и даже блокчейном. Кстати, если говорить 
о последнем, то можно привести в пример NeuroChainTech – проект большой 
международной команды, в котором мне посчастливилось стать научным консультантом. Это реализация умного блокчейна с новым оригинальным алгоритмом консенсуса и элементами машинного обучения, включающими как 
раз байесовские сети. В этом году проект провел успешное ICO и в настоящее 
время находится в активной фазе своего развития. Кроме того, в настоящее 
время на байесовских методах базируются в том числе и современные системы принятия решений и анализа данных, которые активно используются для 
решения задач цифровизации экономики, выходящих в настоящее время на 
первый план в государственном и корпоративном развитии.
Несколько лет назад мои статьи на русском языке, опубликованные на популярном ресурсе в сети Интернет, в которых описывались базовые принципы имплементации байесовских методов на Python’е, нашли очень живой отклик читателей. Более того, до сегодняшнего дня, спустя пять лет с момента 
их публикации, мне по-прежнему поступают вопросы, связанные с практическим воплощением алгоритмов байесовского анализа, что в очередной раз 
подтверждает неподдельный и неснижающийся интерес широкой аудитории 
к пониманию и практическим аспектам реализации байесовских методов. 
Появление перевода на русский язык отличной книги, подробно описывающей практическое воплощение байесовских методов на Python’е, – это безусловный повод для радости.  Настоящая книга включает в себя описание базовых 
принципов реализации байесовских методов в самом широком спектре их 
применений, и я очень надеюсь, что она вызовет должный интерес у читателей 
и придаст новый импульс к изучению, активному применению и дальнейшему 
развитию байесовских методов.
Желаю читателям успешного овладения инструментарием байесовских методов и интересных его применений в будущих проектах! 

Максим Иришкин, PhD,
научный консультант NeuroChainTech,
эксперт по инновационному развитию корпораций

Предисловие

Мой подход

Предпосылкой для этой книги, как и других книг серии Think X, является мысль 
о том, что если вы умеете программировать, вы можете использовать это умение, чтобы овладеть другими знаниями.
Большинство книг по байесовской статистике используют математические 
формулировки и представляют эти идеи как исчисление в терминах математических концепций. В этой книге вместо математики используются язык 
программирования Python и дискретная аппроксимация вместо непрерывной 
математики. В результате то, что книгах по математике является интегралом, 
становится суммированием, а большинство операций с вероятностными распределениями – просто циклами.
Мне кажется, что такое представление более понятно, по крайней мере для 
людей с навыками программиста. Оно также имеет более общий характер, потому что мы можем выбирать наиболее подходящую модель, не слишком беспокоясь, поддается ли она традиционному анализу реальных проблем. Глава 3 – 
хороший пример этого. Она начинается с простого примера с игральными 
костями – одного из основных в базовой теории вероятности. Затем небольшими шагами идет продвижение к задаче о локомотивах, которая позаимствована из книги Фредерика Мостеллера (Frederick Mosteller) «Пятьдесят интересных 
вероятностных задач с решениями» (Fifty Challenging Problems in Probability 
with Solutions. Dover, 1987) и затем к задаче о немецком танке, знаменитому 
успешному применению байесовского метода во время Второй мировой войны.

Моделирование и аппроксиМация

Многие задачи в этой книге мотивированы реальными проблемами, что влечет за собой необходимость построения модели. Прежде чем мы применим 
байесовские методы (как и любой другой анализ), мы должны принять решение о том, какую часть реальной системы мы включим в модель и от каких 
деталей мы можем абстрагироваться.
Например, в главе 7 мотивирующей проблемой является предсказание победителя в игре в хоккей. Я применил для подсчета голов пуассоновский процесс, 
который подразумевает, что голы могут быть забиты равновероятно в любой 
момент игры. Это не совсем так, но эта модель, вероятно, подходит для многих 
других задач.
В главе 12 мотивацией проблемы является интерпретация экзаменационных оценок SAT (SAT является стандартизированным тестом, используемым 
при поступлении в колледж в США). Я начинаю с простой модели, в которой 

Доступ онлайн
490 ₽
В корзину