Прикладная статистика
Покупка
Издательство:
ФЛИНТА
Год издания: 2024
Кол-во страниц: 100
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-9765-5410-8
Артикул: 825867.01.99
Рассматриваются вопросы сбора и первичной обработки информации, общие подходы к тестированию статистических гипотез. Для некоторых классов задач показано, как производится анализ статистических связей и делаются статистические выводы. Для каждого класса приведены формальные постановки и содержательные примеры, показаны методы решения.
Большинство примеров, представленных в пособии, являются реальными и взяты авторами из собственной практики.
Для студентов и аспирантов высших учебных заведений, использующих прикладную статистику в качестве инструмента анализа данных.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 01.03.01: Математика
- 01.03.02: Прикладная математика и информатика
- 01.03.04: Прикладная математика
- 01.03.05: Статистика
- ВО - Специалитет
- 01.05.01: Фундаментальные математика и механика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Министерство науки и высшего образования Российской Федерации Уральский федеральный университет имени первого Президента России Б. Н. Ельцина С. И. Солодушкин И. Ф. Юманова ПРИКЛАДНАЯ СТАТИСТИКА Учебное пособие 2-е издание, стереотипное Москва Екатеринбург Издательство «ФЛИНТА» Издательство Уральского университета 2024 2024
УДК 519.2(075.8) ББК 22.172я73 С60 Р е ц е н з е н т ы: кафедра прикладной математики и технической графики Уральского государственного архитектурно-художественного университета (зав. кафедрой д-р физ.-мат. наук, проф. С. С. Титов); А. Б. Ложников, канд. физ.-мат. наук, доцент, старший научный сотрудник отдела дифференциальных уравнений Института математики и механики УрО РАН С60 Солодушкин С. И. Прикладная статистика : учеб. пособие / С. И. Солодушкин, И. Ф. Юманова. – 2-е изд., стер. – Москва : ФЛИНТА ; Екатеринбург : Изд-во Урал. ун-та, 2024. – 100 с. : ил. – ISBN 978-5-9765-5410-8 (ФЛИНТА) ; ISBN 978-5-7996-3829-0 (Изд-во Урал. ун-та). – Текст : электронный. Рассматриваются вопросы сбора и первичной обработки информации, общие подходы к тестированию статистических гипотез. Для некоторых классов задач показано, как производится анализ статистических связей и делаются статистические выводы. Для каждого класса приведены формальные постановки и содержательные примеры, показаны методы решения. Большинство примеров, представленных в пособии, являются реальными и взяты авторами из собственной практики. Для студентов и аспирантов высших учебных заведений, использующих прикладную статистику в качестве инструмента анализа данных. УДК 519.2(075.8) ББК 22.172я73 ISBN 978-5-9765-5410-8 (ФЛИНТА) © Уральский федеральный университет, 2024 ISBN 978-5-7996-3829-0 (Изд-во Урал. ун-та) © Солодушкин С. И., Юманова И.Ф., 2024
Предисловие В настоящее время в связи с цифровизацией многих сфер деятельности поток информации, доступной исследователям, стал по истине огромным. При этом справедливым остается тезис: данных много, а знаний мало. В связи с этим уделяется большое внимание извлечению знаний из неструктурированных, зашумленных первич ных данных. Мы свидетели становления, по сути, нового направления в нау ке — анализа данных. Соответственно, бизнес и наука ставят перед высшим образованием задачу подготовки специалистов, способных этот анализ данных проводить. Наряду с нейронными сетями важ ным методом анализа данных является статистика. Учебное пособие «Прикладная статистика» написано авторами на основе опыта чтения одноименного курса в Уральском федераль ной университете. Цель курса — изучение методов сбора и первичной обработки информации, проверки статистических гипотез, анализа статистических связей. Пособие разбито на главы. Каждая глава соответствует одной рассматриваемой на занятиях теме и содержит необходимые теоре тические сведения, примеры, всесторонне иллюстрирующие теорию. В конце глав даются задания для самоконтроля. Авторы пособия — математики по образованию — в течение мно гих лет участвовали в клинических исследованиях, проводили ста тистический анализ медицинских данных. Большинство примеров, представленных в пособии, являются реальными и взяты авторами из собственной практики. Работа выполнена в рамках исследований Уральского математи ческого центра.
1.Выборочный метод 1.1. Предмет и задачи статистики Прикладная статистика — раздел математики, в котором разра батываются методы регистрации, описания и анализа данных наблю дений и экспериментов с целью построения вероятностных моделей массовых случайных явлений. Предметом прикладной статистики является изучение законо мерностей, которым подчиняются массовые случайные явления и процессы, с применением методов теории вероятностей. Первая задача прикладной статистики — указать способы сбора и группировки статистических сведений, полученных в результате наблюдений или специально поставленных экспериментов. Вторая задача прикладной статистики — разработать методы анализа стати стических данных в зависимости от целей исследования. Сюда отно сятся оценка неизвестной вероятности события, оценка неизвестной функции распределения, оценка параметров распределения, оценка зависимости случайной величины от одной или нескольких случай ных величин и т. д. Итак, задача прикладной статистики заключается в разработке методов сбора и обработки статистических данных для получения научных и практических выводов. Основным методом изучения мас совых случайных явлений в прикладной статистике является выборочный метод, суть которого состоит в том, что суждение обо всем множестве изучаемых объектов выносится на основе наблюдения за некоторой (возможно, относительно малой) частью. Неформальное описание выборочного метода дано в следующем параграфе, а необ ходимая формализация будет проведена позже, после введения по нятия случайной величины. Фундаментом прикладной статистики является математическая статистика. Прикладную статистику нельзя целиком относить к ма тематике, поскольку она включает в себя две внематематические об 4
ласти: методологию организации статистического исследования и ор ганизацию компьютерной обработки данных, в том числе разработку и использование баз данных, электронных таблиц, статистических программных продуктов и систем анализа данных. 1.2. Основные понятия выборочного метода: генеральная совокупность и выборка Пусть требуется изучить, как в совокупности однородных объек тов распределен некоторый качественный или количественный при знак, характеризующий эти объекты. Например, имеется множество банковских заемщиков, качественным признаком каждого из них мо жет служить пол, а количественным — годовой доход в рублях. Иногда проводят сплошное обследование, т. е. для каждого из объектов совокупности изучается интересующий признак. На практике, од нако, сплошное обследование применяют сравнительно редко. Так, если население города очень большое, то провести сплошное обсле дование всех жителей физически невозможно. Или, например, если обследование прибора связано с его разрушением, требует больших материальных затрат, то в этом случае проводить сплошное обсле дование практически не имеет смысла. В таких ситуациях случайно отбирают из всей совокупности ограниченное число объектов и под вергают их изучению. Определение 1. Выборочной совокупностью, или просто выбор кой, называют совокупность случайно отобранных объектов. При этом выборку осуществляют из генеральной совокупности. Определение 2. Генеральной совокупностью называют совокуп ность всех объектов, относительно которых предполагается де лать выводы при изучении конкретной задачи. Генеральная совокупность состоит из всех объектов, которые имеют качества, свойства, интересующие исследователя. 5
Вопрос отбора объектов из генеральной совокупности отнюдь не является тривиальным, и от способа организации этого отбора за висит качество выборки. Для того чтобы по данным выборки мож но было достаточно уверенно судить об интересующем признаке ге неральной совокупности, необходимо, чтобы объекты выборки пра вильно его представляли. Другими словами, выборка должна пра вильно представлять пропорции генеральной совокупности. Это тре бование коротко формулируют так: выборка должна быть репрезен тативной (представительной). В силу закона больших чисел [1] можно утверждать, что выбор ка будет репрезентативной, если ее осуществить случайно: каждый объект выборки отобран из генеральной совокупности случайно, т. е. никаким объектам при отборе не отдается предпочтение. Одним из наиболее известных исторических примеров нерепре зентативной выборки считается случай, происшедший во время пре зидентских выборов в США в 1936 г. Журнал «Литерари Дай джест», успешно прогнозировавший события нескольких предше ствующих выборов, ошибся в своих предсказаниях, разослав 10 млн пробных бюллетеней своим подписчикам, а также людям, выбран ным по телефонным книгам всей страны, и людям из регистрацион ных списков автомобилей. В 25 % вернувшихся бюллетеней (почти 2,5 млн) голоса были распределены следующим образом: 1) 57 % отдавали предпочтение кандидату-республиканцу А. Лэн дону; 2) 40 % выбрали действующего в то время президента-демократа Ф. Рузвельта. На выборах же, как известно, победил Рузвельт, набрав более 60 % голосов. Ошибка «Литерари Дайджест» заключалась в сле дующем: желая увеличить репрезентативность выборки, работники журнала, которым было известно, что большинство их подписчиков считают себя республиканцами, расширили выборку за счет людей, выбранных из телефонных книг и регистрационных списков. Однако они не учли современных реалий и набрали еще больше республи 6
канцев: во время Великой депрессии обладать телефонами и авто мобилями могли себе позволить в основном представители среднего и высшего класса (т. е. большинство республиканцев, а не демокра тов). Одна и та же выборка может рассматриваться как репрезентатив ная и как нерепрезентативная в зависимости от того, на какую ге неральную совокупность исследователь желает распространить свои выводы. П р и м е р. Выборка составлена по результатам периодическо го медицинского осмотра работников Богословского алюминиевого завода (выявление бронхолегочной патологии). Но если ставится за дача исследования структуры бронхолегочной патологии жителей Свердловской области, то такую выборку следует считать нерепре зентативной. Однако при исследовании структуры бронхолегочной патологии работников алюминиевого производства в Российской Фе дерации та же самая выборка может считаться репрезентативной. 1.3. Понятие случайной величины Строгое определение случайной величины требует привлечения понятийного аппарата теории функций вещественной переменной, но в рамках настоящего учебного пособия этого делать не нужно. Для изложения дальнейшего материала нам достаточно лишь обще го понимания того, что собой представляет случайная величина, а потому мы ограничимся неформальным определением. Определение 3. Случайная величина — это величина, которая в результате испытания принимает одно и только одно возможное значение, наперед неизвестное и зависящее от случайных причин, которые заранее не могут быть учтены. П р и м е р 1. Число мальчиков из 100 новорожденных есть ве личина случайная, возможные значения которой: 0, 1, 2, . . . , 100. П р и м е р 2. Дневная выручка магазина, выраженная в рублях. 7
П р и м е р 3. Среднесуточная температура в январе в Москве. Будем далее обозначать случайные величины прописными бук вами X, Y, Z, а их возможные значения — соответствующими строч ными буквами x, y, z. Например, если случайная величина X имеет три возможных значения, то они будут обозначены так: x1, x2, x3. Разберем примеры 1 – 3. В первом из них случайная величина X могла принять одно из следующих возможных значений: 0, 1, 2, . . . , 100. Эти значения отделены одно от другого промежутками, в ко торых нет возможных значений X. Таким образом, в этом примере случайная величина принимает отдельные, изолированные возмож ные значения. Во втором примере случайная величина также могла принимать только целочисленные неотрицательные значения, хотя ее границы точно неизвестны. В третьем примере случайная величи на могла принять любое из значений промежутка (a, b). Здесь нельзя отделить одно возможное значение от другого промежутком, не со держащим возможных значений случайной величины. Из сказанного можно сделать вывод о целесообразности разли чать случайные величины, принимающие лишь отдельные, изолиро ванные значения, и случайные величины, возможные значения ко торых сплошь заполняют некоторый промежуток. Определение 4. Дискретной называют случайную величину, ко торая принимает отдельные, изолированные возможные значения с определенными вероятностями. Число возможных значений дискретной случайной величины мо жет быть конечным или бесконечным. Определение 5. Непрерывной называют случайную величину, ко торая может принимать все значения из некоторого конечного или бесконечного промежутка. Очевидно, что число возможных значений непрерывной случай ной величины бесконечно. 8
Для задания (определения) дискретной случайной величины (ДСВ) необходимо указать все принимаемые ею значения и соот ветствующие вероятности, т. е. ее закон распределения. Определение 6. Закон распределения дискретной случайной вели чины — соответствие между возможными значениями и их веро ятностями. Обычно закон распределения ДСВ представляют в виде таблицы, первая строка которой содержит возможные значения, а вторая — их вероятности. Удобным способом представления закона распре деления ДСВ является графический. При этом на оси абсцисс от кладывают варианты xi, а на оси ординат — соответствующие им вероятности pi. Задание закона распределения в виде таблицы требует перечисления всех значений случайной величины. Очевидно, что такой спо соб задания неприменим для непрерывных случайных величин, со ответственно, необходимо дать общий способ задания любых типов случайных величин. С этой целью вводят функции распределения вероятностей случайной величины. Пусть x — действительное число. Вероятность события, состоя щего в том, что случайная величина X примет значение, меньшее x (т. е. вероятность события X < x), обозначим через FX(x). Разуме ется, если x изменяется, то, вообще говоря, изменяется и FX(x), т. е. FX(x) есть функция от x. Определение 7. Функцией распределений случайной величины X называется функция FX(x), определяющая вероятность того, что случайная величина X в результате испытания примет значение, меньшее x, т. е. P(X < x) = FX(x). Геометрически это равенство можно истолковать так: FX(x) есть вероятность того, что случайная величина X примет значение, ко торое лежит на числовой оси левее точки x. 9
В терминах функции распределения можно дать более точное определение непрерывной случайной величины: случайную величи ну называют непрерывной, если ее функция распределения есть непрерывная, кусочно-дифференцируемая функция с непрерывной производной. Другим способом определения непрерывной случайной величины является задание плотности распределения: Определение 8. Плотностью распределения вероятностей непрерывной случайной величины X называют функцию f(x) — первую производную от функции распределения F(x), т. е. f(x) = F ′(x). Зная плотность распределения, можно вычислить вероятность того, что непрерывная случайная величина примет значение, при надлежащее заданному интервалу. Правило вычисления дает следу ющее утверждение. Утверждение 1. Вероятность того, что непрерывная случайная величина X примет значение, принадлежащее интервалу (a, b), равна определенному интегралу от плотности распределения, взятому в пределах от a до b : P(a < X < b) = b a f(x)dx. Напомним, что геометрический смысл определенного интегра ла — площадь под кривой y = f(x) в промежутке от a до b. Это утверждение позволяет раскрыть вероятностный смысл плотности распределения. Вероятность того, что случайная величина примет значение, принадлежащее интервалу (x, x + ∆), приближенно равна произведению плотности вероятности в точке x на длину интервала. Зная плотность распределения, можно найти функцию распре деления: 10