Наглядная математическая статистика
Покупка
Основная коллекция
Издательство:
Лаборатория знаний
Автор:
Лагутин Михаил Борисович
Год издания: 2023
Кол-во страниц: 475
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-93208-651-3
Артикул: 094501.07.99
Основы теории вероятностей и математической статистики излагаются в форме примеров и задач с решениями. Книга также знакомит читателя с прикладными статистическими методами. Для понимания материала достаточно знания начал математического анализа. Включено большое количество рисунков, контрольных вопросов и числовых примеров. Для студентов, изучающих математическую статистику, исследователей и практиков (экономистов, социологов, биологов), применяющих статистические методы.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 01.03.01: Математика
- 01.03.02: Прикладная математика и информатика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Москва Лаборатория знаний 2023 НАГЛЯДНАЯ МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Учебное пособие 9-е издание, электронное Рекомендовано Учебно-методическим объединением по классическому университетскому образованию в качестве учебного пособия для студентов высших учебных заведений, обучающихся по направлению «Математика» и «Математика. Прикладная математика» М. Б. Лагутин
УДК 519.22 ББК 22.17 Л14 Р е ц е н з е н т ы: кандидат физ.-мат. наук Э. М. Кудлаев, зав. каф. матем. статистики ф-та ВМК МГУ академик РАН Ю. В. Прохоров, доктор физ.-мат. наук, проф. Ю. Н. Тюрин Лагутин М. Б. Л14 Наглядная математическая статистика : учебное пособие / М. Б. Лагутин. — 9-е изд., электрон. — М. : Лаборатория знаний, 2023. — 475 с. — Систем. требования: Adobe Reader XI ; экран 10". — Загл. с титул. экрана. — Текст : электронный. ISBN 978-5-93208-651-3 Основы теории вероятностей и математической статистики излагаются в форме примеров и задач с решениями. Книга также знакомит читателя с прикладными статистическими методами. Для понимания материала достаточно знания начал математического анализа. Включено большое количество рисунков, контрольных вопросов и числовых примеров. Для студентов, изучающих математическую статистику, исследователей и практиков (экономистов, социологов, биологов), применяющих статистические методы. УДК 519.22 ББК 22.17 Деривативное издание на основе печатного аналога: Наглядная математическая статистика : учебное пособие / М. Б. Лагутин. — 9-е изд. — М. : Лаборатория знаний, 2023. — 472 с. : ил. ISBN 978-5-93208-339-0 В соответствии со ст. 1299 и 1301 ГК РФ при устранении ограничений, установленных техническими средствами защиты авторских прав, правообладатель вправе требовать от нарушителя возмещения убытков или выплаты компенсации ISBN 978-5-93208-651-3 © Лаборатория знаний, 2015
ПРЕДИСЛОВИЕ Перед Вами, уважаемый читатель, итог размышлений автора о соЧто за польза от книги без картинок и разговоров? Льюис Кэрролл, «Приключения Алисы в стране чудес» держании начального курса математической статистики. Настоящая книга — это, в первую очередь, множество занимательных примеров и задач, собранных из различных источников. Задачи предназначены для активного освоения понятий и развития у читателя навыков квалифицированной статистической обработки данных. Для их решения достаточно знания элементов математического анализа и теории вероятностей (краткие сведения по теории вероятностей и линейной алгебре даны в приложении). Акцент делается на наглядном представлении материала и его неформальном пояснении. Теоремы, как правило, приводятся без доказательств (со ссылкой на источники, где их можно найти). Наша цель — и осветить практически наиболее важные идеи математической статистики, и познакомить читателя с прикладными методами. Первая часть книги (гл. 1–5) может служить введением в теорию вероятностей. Особенностью этой части является подход к освоению понятий теории вероятностей через решение ряда задач, относящихся к области статистического моделирования (имитации случайности на компьютере). Ее материал, в основном, доступен школьникам старших классов и студентам 1-го курса. Вторая и третья части (гл. 6–13) посвящены, соответственно, оценкам параметров статистических моделей и проверке гипотез. Они могут быть особенно полезны студентам при подготовке к экзамену по математической статистике. Четвертая и пятая части (гл. 14–21) предназначаются, в первую очередь, лицам, желающим применить статистические методы для анализа экспериментальных данных. Наконец, шестая часть (гл. 22–26) включает в себя ряд более специальных тем, обобщающих и дополняющих содержание предыдущих глав. Собранный в книге материал неоднократно использовался на занятиях по математической статистике на механико-математическом факультете МГУ им. М. В. Ломоносова. Автор будет считать свой труд небесполезным, если, перелистав книгу, читатель не потеряет к ней интереса, а захочет ознакомиться
Предисловие с теорией и приложениями статистики как по этому, так и по другим учебникам. Ей сна нет от французских книг, а мне от русских больно спится! Фамусов в «Горе от ума» А. С. Грибоедова При работе над книгой образцом для автора была популярная серия книг для школьников Я. И. Перельмана. Хотелось, по возможности, использовать живую форму изложения и стиль, характерный для этой серии. Никогда не теряй из виду, что гораздо легче многих не удовлетворить, чем удовольствовать. Козьма Прутков, «Мысли и афоризмы» Я благодарен моим коллегам по лаборатории Математической статистики МГУ им. М. В. Ломоносова М. В. Козлову и Э. М. Кудлаеву за прочтение рукописи этой книги и полезные замечания. М. Лагутин
К ЧИТАТЕЛЮ В книге Д. Пойа «Математическое открытие» (см. [62] в списке Основа, подлинное содержание всякого познания доставляется именно наглядной концепцией мира, которая может быть добыта лишь нами самими и отнюдь не может быть как-либо преподана извне. Артур Шопенгауэр, «Афоризмы житейской мудрости» литературы) выделены три принципа обучения. Первым (и важнейшим) из них является Стимулирование Надо заинтересовать учащегося, убедить в полезности изучения предмета. Для успешности учебы необходимо четкое представление о том, зачем нужна сообщаемая информация. Студент — это не гусь, которого надо нафаршировать, а факел, который нужно зажечь. Приведем мнение по этому вопросу известного героя детективного жанра (ведь восстановление по частностям общей картины есть также и задача математической статистики). «Мне представляется, что человеческий мозг похож на маленький пустой чердак, который вы можете обставить, как хотите. Дурак натащит туда всякой рухляди, какая попадется под руку, и полезные, нужные вещи уже некуда будет всунуть, или в лучшем случае до них среди всей этой завали и не докопаешься. А человек толковый тщательно отбирает то, что он поместит в свой мозговой чердак. Он возьмет лишь инструменты, которые понадобятся ему для работы, но зато их будет множество, и все он разложит в образцовом порядке. Напрасно люди думают, что у этой маленькой комнатки эластичные стены и их можно растягивать сколько угодно. Уверяю вас, придет время, когда, приобретая новое, вы будете забывать что-то из прежнего. Поэтому страшно важно, чтобы ненужные сведения не вытесняли собой нужных.» А. Конан Дойл, «Этюд в багровых тонах» Математическая статистика — один из наиболее часто используемых в приложениях разделов математики. На результаты практически любого научного эксперимента влияют неучтенные в модели факторы, накладывается случайный шум. Методы математической статистики, как правило, позволяют наиболее полно и надежно извлекать полезную информацию из зашумленных данных. В книгу включены многочисленные примеры применения статистических методов для решения практических задач. Чтобы побудить читателя глубже изучить теорию вероятностей, на языке которой формулируются статистические теоремы, многие главы завершаются вероятностным парадоксом или занимательным экспериментом.
К читателю Следующим принципом обучения является Активность То, что вы были вынуждены открыть сами, оставляет в вашем уме дорожку, которой вы можете снова воспользоваться, когда в этом возникнет необходимость. Г. Лихтенберг, «Aphorismen», Berlin, 1902–1906 По-настоящему разобраться в некоторой теории можно лишь самостоятельно решая задачи из данной области. Пассивного чтения даже хорошего учебника, увы, недостаточно для подлинного овладения предметом. Каждая глава этой книги (за исключением дополнительных При изложении математического рассуждения мастерство заключается в умении дать образованному читателю возможность сразу, не заботясь о деталях, схватить основную идею; последовательные дозы должны быть такими, чтобы их можно было глотать «с ходу»; в случае неудачи или если бы читатель захотел что-либо проверить, перед ним должна стоять четко ограниченная маленькая задача (например, проверить тождество; две пропущенные тривиальности могут в совокупности образовать непреодолимое препятствие). Дж. Литлвуд, «Математическая смесь» глав 22–26) содержит задачи (с решениями). Они обычно упорядочены по сложности, самые трудные отмечены звездочкой. Автор надеется, что читатель попробует решить некоторые из заинтересовавших его задач или, хотя бы, разберет решения, так как в них содержится значительная часть материала. Кроме того, по ходу изложения встречаются контрольные вопросы, ответы на которые приведены в конце соответствующей главы. Возможность активного усвоения материала во многом определяется стилем его изложения. Наконец, третий принцип — это соблюдение последовательности фаз обучения Исследование → формализация → усвоение Важно начинать новую тему с содержательных примеров, чтобы можно было «потрогать руками», прочувствовать ситуацию. Можно попробовать придумать какой-нибудь способ решения проблемы лишь на основе здравого смысла. Если он на самом деле окажется бесполезным, то это лишь подтвердит важность теории, позволяющей получить приемлемое решение. Абстрактные определения становятся по-настоящему понятны Всякое человеческое познание начинается с созерцаний, переходит от них к понятиям и заканчивается идеями. И. Кант, «Критика чистого разума» лишь тогда, когда они используются при решении конкретных задач в различных моделях. В книге «Теория катастроф» В. И. Арнольд пишет: «Абстрактные определения возникают при попытках обобщить «наивные» понятия, сохраняя их основные свойства. Теперь, когда мы знаем, что эти попытки не приводят к реальному расширению круга объектов (для многообразий это установил Уитни, для групп — Кэли, для алгоритмов — Черч), не лучше ли в преподавании вернуться к «наивным» определениям? (. . . ) Пуанкаре подробно обсуждает методические преимущества наивных определений окружности и дроби в «Науке и методе»: невозможно усвоить правило сложения дробей, не разрезая, хотя бы мысленно, яблоко или пирог.» При написании этой книги автор старался следовать указанным принципам обучения. Вероятно, какие-то методические приемы окажутся полезными преподавателям статистики, хотя, безусловно справедливо утверждал Козьма Прутков, что У всякого портного свой взгляд на искусство!
Часть I ВЕРОЯТНОСТЬ И СТАТИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ Глава 1 ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН В основе математической статистики лежит теория вероятностей. Вероятность — это важнейшее понятие в современной науке особенно потому, что никто совершенно не представляет, что оно означает. Бертран Рассел, из лекции, 1929 г. Аксиоматика теории вероятностей была разработана А. Н. Колмогоровым (опубликована в 1933 г.). Читателю, возможно, известны такие основные понятия этой теории, как независимость событий или математическое ожидание случайной величины. Тем не менее, будет полезно напомнить самое необходимое для дальнейшего изложения (см. также приложение П1*) и учебники [19], [39], [90] в списке литературы). Читал ли что-нибудь? Хоть мелочь? Репетилов в «Горе от ума» А. С. Грибоедова § 1. ФУНКЦИИ РАСПРЕДЕЛЕНИЯ И ПЛОТНОСТИ Пример 1. Измерим время ξ от первого включения до перегора Сперва аз да буки, а там и науки. ния электрической лампочки. Пример 2. Подбросим монетку. Если она упадет гербом вверх, будем считать, что ξ = 1, иначе положим ξ = 0. Обобщая эти примеры, представим, что проводится эксперимент, результат которого (действительное число ξ) зависит от случая. Как охарактеризовать случайную величину ξ, дать вероятностный закон ее поведения? Допустим, что возможно повторить эксперимент несколько раз. Обозначим через ξ1, . . . ,ξn полученные при этом значения. Тогда для произвольной точки x на прямой можно подсчитать νn — количество значений, попавших левее x (рис. 1). ξ ? x ξ1 ξ2 ξn ξ3 Рис. 1 Предположим, что существует некоторое число, к которому будет приближаться частота νn/n при неограниченном увеличении n. Естественно рассматривать это число как вероятность того, что ξ не больше, чем x. Обозначим эту вероятность через P(ξ ⩽ x). P: Probabilitas (лат.) — вероятность. (Формальные определения понятий вероятности и случайной величины приведены в П1.) Пример 3. На рис. 2 показан график частоты появлений буквы «а» в стихотворении М. Ю. Лермонтова «Бородино». Размах *) П1 обозначает ссылку на раздел 1 приложения.
Глава 1. Характеристики случайных величин Рис. 2 0 0,08 0,06 0,04 500 1000 1500 2000 2500 колебаний частоты быстро уменьшается, она стабилизируется на уровне чуть большем, чем 0,06. В таблице приведены вероятности, с которыми встречаются в большом по объему тексте буквы русского алфавита, включая «пробел» между словами (данные взяты из [92, с. 238]). Отметим, что итоговая частота появлений буквы «а» в стихотворении «Бородино», равная 162/2461 ≈ 0,066, лишь незначительно отличается от соответствующей вероятности 0,062. — о е, ¨е а и т н с 0,175 0,090 0,072 0,062 0,062 0,053 0,053 0,045 р в л к м д п у 0,040 0,038 0,035 0,028 0,026 0,025 0,023 0,021 я ы з ь, ъ б г ч й 0,018 0,016 0,016 0,014 0,014 0,013 0,012 0,010 х ж ю ш ц щ э ф 0,009 0,007 0,006 0,006 0,004 0,003 0,003 0,002 Зафиксируем n и рассмотрим поведение частоты νn/n при изменении «границы» x (см. рис. 1). При сдвиге точки x вправо, количество значений ξ1, . . . ,ξn, оказавшихся левее x, будет увеличиваться. Поэтому вероятность P(ξ ⩽ x) (как предел частоты) будет неубывающей функцией от x, которая стремится к 1 при x → +∞ и стремится к 0 при x → −∞. Определение. Функция Fξ(x) = P(ξ ⩽ x) называется функцией распределения случайной величины ξ. Зная Fξ(x), можно найти вероятность попадания ξ в любой промежуток (a,b] на прямой (рис. 3): P(a < ξ ⩽ b) = P(ξ ⩽ b) − P(ξ ⩽ a) = Fξ(b) − Fξ(a). 1 Fξ(b) Fξ(a) y = Fξ(x) 0 a b c Рис. 3 Если функция распределения Fξ(x) имеет разрыв в точке c, то величина скачка Fξ(c) − Fξ(c−) равна P(ξ = c) = P(ξ ⩽ c) − P(ξ < c). Вопрос 1. Как это доказать формально, используя свойство непрерывности из П1?
§ 1. Функции распределения и плотности 9 Случайные величины мы будем задавать с помощью функций распределения. Определение. Случайная величина η равномерно распределена на отрезке [0, 1], если Fη(x) = ⎧ ⎪ ⎨ ⎪ ⎩ 0 при x ⩽ 0, x при 0 < x < 1, 1 при x ⩾ 1. Такое распределение соответствует выбору точки наудачу из отрезка [0, 1], поскольку для любых 0 ⩽ a < b ⩽ 1 вероятность попадания значения η в отрезок [a, b] равна его длине b−a (рис. 4). 1 b−a a b 0 1 y = Fη(x) Рис. 4 Определение. Случайная величина τ называется показательной с параметром λ > 0, если Fτ(x) = 0 при x ⩽ 0, 1 − e−λx при x > 0. График функции распределения Fτ(x) приведен на рис. 5. 1 y = Fτ(x) Рис. 5 Показательное распределение можно использовать для описания времени эксперимента из примера 1. Вопрос 2. Чему равна P(τ > 3/λ) точно и приближенно? Определение. Если существует такая функция pξ(x) ⩾ 0, что для произвольных a < b P(a ⩽ ξ ⩽ b) = ba pξ(x) dx, то говорят, что случайная величина ξ (или ее распределение вероятностей) имеет плотность pξ(x) (рис. 6). a b 0 P(a ⩽ ξ ⩽ b) y = pξ(x) Рис. 6 Когда плотность существует, ее можно найти дифференцированием функции распределения: pξ(x) = d dx Fξ(x) = lim Δx→0 Fξ(x + Δx) − Fξ(x) Δx . Таким образом, плотностью равномерной величины η является функция I [0, 1] (здесь и далее IA обозначает индикатор множества A: IA(x) = 1 при x ∈ A, IA(x) = 0 при x /∈ A), а плотностью показательной величины τ служит pτ(x) = λe−λxI [0, +∞) (рис. 7). 0 x λ y = pτ(x) Рис. 7 Не у всякой случайной величины есть плотность. Например, ее нет у дискретных (принимающих конечное или счетное*) число значений) величин. Такова определяемая ниже бернуллиевская Я. Бернулли (1654–1705), швейцарский математик. случайная величина. *) Множество называют счетным, если его элементы можно перенумеровать натуральными числами.
Глава 1. Характеристики случайных величин Определение. Случайная величина ζ имеет распределение Бернулли с вероятностью «успеха» p (0 ⩽ p ⩽ 1), если она принимает значения 0 и 1 с такими вероятностями: P(ζ = 0) = 1 − p и P(ζ = 1) = p. График функции распределения Fζ(x) бернуллиевской случайной величины ζ приведен на рис. 8. Распределение Бернулли при p = 1/2 годится как вероятностная модель эксперимента из при 1 1 x 0 1 − p y = Fζ(x) Рис. 8 мера 2. Значение p ̸= 1/2 отвечает случаю несимметричной монеты. Вопрос 3. Как выглядит график функции распределения дискретной случайной величины ξ, принимающей значения x1 < x2 < ... с соответствующими вероятностями p1,p2,...? § 2. МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ И ДИСПЕРСИЯ Не всегда требуется полная информация о случайной величине ξ, выражающаяся в ее функции распределения Fξ(x). Иногда достаточно знать, где располагается область «типичных» значений ξ. Одной из важных характеристик «центра» этой области является математическое ожидание. Проблема. На тонком стержне (числовой прямой) в точках с координатами xk находятся массы mk (рис. 9). Где следует выбрать m1 m2 mk x1 x2 xk a 0 Рис. 9 точку a крепления стержня к вертикальной оси, чтобы минимизировать момент инерции относительно нее Ia = (xk − a)2mk? Оказывается, точку крепления стержня надо поместить в центр масс c = xkmk/ mk (см. задачу 1). Вероятностными аналогами центра масс c и момента инерции относительно него Ic служат математическое ожидание и дисперсия. Определение. Для дискретной случайной величины ξ, принимающей значения x1, x2, . . . с соответствующими вероятностями p1, p2, . . . , математическим ожиданием называется число Mξ = k xkpk. (1) Например, для бернуллиевской случайной величины ζ имеем Mζ = 0 · (1 − p) + 1 · p = p. Определение. Когда у случайной величины ξ есть плотность pξ(x), ее математическое ожидание вычисляется по формуле Mξ = +∞ −∞ x pξ(x) dx. (2) Для показательной случайной величины τ нетрудно подсчитать, интегрируя по частям, что Mτ = ∞0 x λe−λxdx= 1 λ ∞0 y e−ydy = 1 λ ⎡ ⎣0+ ∞0 e−ydy ⎤ ⎦= 1 λ .