Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Прикладная статистика

Покупка
Новинка
Артикул: 825867.01.99
Доступ онлайн
220 ₽
В корзину
Рассматриваются вопросы сбора и первичной обработки информации, общие подходы к тестированию статистических гипотез. Для некоторых классов задач показано, как производится анализ статистических связей и делаются статистические выводы. Для каждого класса приведены формальные постановки и содержательные примеры, показаны методы решения. Большинство примеров, представленных в пособии, являются реальными и взяты авторами из собственной практики. Для студентов и аспирантов высших учебных заведений, использующих прикладную статистику в качестве инструмента анализа данных.
Солодушкин, С. И. Прикладная статистика : учебное пособие / С. И. Солодушкин, И. Ф. Юманова. - 2-е изд., стер. - Москва : ФЛИНТА, 2024. - 100 с. - ISBN 978-5-9765-5410-8. - Текст : электронный. - URL: https://znanium.ru/catalog/product/2138726 (дата обращения: 03.03.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Министерство науки и высшего образования
Российской Федерации
Уральский федеральный университет
имени первого Президента России Б. Н. Ельцина

С. И. Солодушкин
И. Ф. Юманова

ПРИКЛАДНАЯ 
СТАТИСТИКА

Учебное пособие

2-е издание, стереотипное

           Москва                                                 Екатеринбург
Издательство «ФЛИНТА»            Издательство Уральского университета
                          2024                                                            2024
УДК 519.2(075.8)
ББК  22.172я73

С60

Р е ц е н з е н т ы:

кафедра прикладной математики и технической графики

Уральского государственного архитектурно-художественного
университета (зав. кафедрой д-р физ.-мат. наук, проф. С. С. Титов);

А. Б. Ложников, канд. физ.-мат. наук, доцент,

старший научный сотрудник отдела дифференциальных уравнений

Института математики и механики УрО РАН

С60

Солодушкин С. И.
          Прикладная статистика : учеб. пособие / С. И. Солодушкин, 
И. Ф. Юманова. – 2-е изд., стер. – Москва : ФЛИНТА ; Екатеринбург : 
Изд-во Урал. ун-та, 2024. – 100 с. : ил. – ISBN 
978-5-9765-5410-8 (ФЛИНТА) ; ISBN 978-5-7996-3829-0 (Изд-во 
Урал. ун-та). – Текст : электронный.

Рассматриваются вопросы сбора и первичной обработки информации,
общие подходы к тестированию статистических гипотез. Для некоторых
классов задач показано, как производится анализ статистических связей и
делаются статистические выводы. Для каждого класса приведены формальные
постановки и содержательные примеры, показаны методы решения.
Большинство примеров, представленных в пособии, являются реальными
и взяты авторами из собственной практики.

Для студентов и аспирантов высших учебных заведений, использующих
прикладную статистику в качестве инструмента анализа данных.

УДК 519.2(075.8)
ББК 22.172я73

ISBN 978-5-9765-5410-8 (ФЛИНТА)
© Уральский федеральный
университет, 2024

ISBN 978-5-7996-3829-0 (Изд-во Урал. ун-та)
© Солодушкин С. И., 

Юманова И.Ф., 2024
Предисловие

В настоящее время в связи с цифровизацией многих сфер деятельности 
поток информации, доступной исследователям, стал по-

истине огромным. При этом справедливым остается тезис: данных

много, а знаний мало. В связи с этим уделяется большое внимание

извлечению знаний из неструктурированных, зашумленных первич-

ных данных.

Мы свидетели становления, по сути, нового направления в нау-

ке — анализа данных. Соответственно, бизнес и наука ставят перед

высшим образованием задачу подготовки специалистов, способных

этот анализ данных проводить. Наряду с нейронными сетями важ-

ным методом анализа данных является статистика.

Учебное пособие «Прикладная статистика» написано авторами

на основе опыта чтения одноименного курса в Уральском федераль-

ной университете. Цель курса — изучение методов сбора и первичной

обработки информации, проверки статистических гипотез, анализа

статистических связей.

Пособие разбито на главы. Каждая глава соответствует одной

рассматриваемой на занятиях теме и содержит необходимые теоре-

тические сведения, примеры, всесторонне иллюстрирующие теорию.

В конце глав даются задания для самоконтроля.

Авторы пособия — математики по образованию — в течение мно-

гих лет участвовали в клинических исследованиях, проводили ста-

тистический анализ медицинских данных. Большинство примеров,

представленных в пособии, являются реальными и взяты авторами

из собственной практики.

Работа выполнена в рамках исследований Уральского математи-

ческого центра.
1.Выборочный метод

1.1. Предмет и задачи статистики

Прикладная статистика — раздел математики, в котором разра-

батываются методы регистрации, описания и анализа данных наблю-

дений и экспериментов с целью построения вероятностных моделей

массовых случайных явлений.

Предметом прикладной статистики является изучение законо-

мерностей, которым подчиняются массовые случайные явления и

процессы, с применением методов теории вероятностей.

Первая задача прикладной статистики — указать способы сбора

и группировки статистических сведений, полученных в результате

наблюдений или специально поставленных экспериментов. Вторая

задача прикладной статистики — разработать методы анализа стати-

стических данных в зависимости от целей исследования. Сюда отно-

сятся оценка неизвестной вероятности события, оценка неизвестной

функции распределения, оценка параметров распределения, оценка

зависимости случайной величины от одной или нескольких случай-

ных величин и т. д.

Итак, задача прикладной статистики заключается в разработке

методов сбора и обработки статистических данных для получения

научных и практических выводов. Основным методом изучения мас-

совых случайных явлений в прикладной статистике является выборочный 
метод, суть которого состоит в том, что суждение обо всем

множестве изучаемых объектов выносится на основе наблюдения за

некоторой (возможно, относительно малой) частью. Неформальное

описание выборочного метода дано в следующем параграфе, а необ-

ходимая формализация будет проведена позже, после введения по-

нятия случайной величины.

Фундаментом прикладной статистики является математическая

статистика. Прикладную статистику нельзя целиком относить к ма-

тематике, поскольку она включает в себя две внематематические об-

4
ласти: методологию организации статистического исследования и ор-

ганизацию компьютерной обработки данных, в том числе разработку

и использование баз данных, электронных таблиц, статистических

программных продуктов и систем анализа данных.

1.2. Основные понятия выборочного метода:
генеральная совокупность и выборка

Пусть требуется изучить, как в совокупности однородных объек-

тов распределен некоторый качественный или количественный при-

знак, характеризующий эти объекты. Например, имеется множество

банковских заемщиков, качественным признаком каждого из них мо-

жет служить пол, а количественным — годовой доход в рублях. Иногда 
проводят сплошное обследование, т. е. для каждого из объектов

совокупности изучается интересующий признак. На практике, од-

нако, сплошное обследование применяют сравнительно редко. Так,

если население города очень большое, то провести сплошное обсле-

дование всех жителей физически невозможно. Или, например, если

обследование прибора связано с его разрушением, требует больших

материальных затрат, то в этом случае проводить сплошное обсле-

дование практически не имеет смысла. В таких ситуациях случайно

отбирают из всей совокупности ограниченное число объектов и под-

вергают их изучению.

Определение 1. Выборочной совокупностью, или просто выбор-

кой, называют совокупность случайно отобранных объектов.

При этом выборку осуществляют из генеральной совокупности.

Определение 2. Генеральной совокупностью называют совокуп-

ность всех объектов, относительно которых предполагается де-

лать выводы при изучении конкретной задачи.

Генеральная совокупность состоит из всех объектов, которые
имеют качества, свойства, интересующие исследователя.

5
Вопрос отбора объектов из генеральной совокупности отнюдь не

является тривиальным, и от способа организации этого отбора за-

висит качество выборки. Для того чтобы по данным выборки мож-

но было достаточно уверенно судить об интересующем признаке ге-

неральной совокупности, необходимо, чтобы объекты выборки пра-

вильно его представляли. Другими словами, выборка должна пра-

вильно представлять пропорции генеральной совокупности. Это тре-

бование коротко формулируют так: выборка должна быть репрезен-

тативной (представительной).

В силу закона больших чисел [1] можно утверждать, что выбор-

ка будет репрезентативной, если ее осуществить случайно: каждый

объект выборки отобран из генеральной совокупности случайно, т. е.

никаким объектам при отборе не отдается предпочтение.

Одним из наиболее известных исторических примеров нерепре-

зентативной выборки считается случай, происшедший во время пре-

зидентских выборов в США в 1936 г. Журнал «Литерари Дай-

джест», успешно прогнозировавший события нескольких предше-

ствующих выборов, ошибся в своих предсказаниях, разослав 10 млн

пробных бюллетеней своим подписчикам, а также людям, выбран-

ным по телефонным книгам всей страны, и людям из регистрацион-

ных списков автомобилей. В 25 % вернувшихся бюллетеней (почти
2,5 млн) голоса были распределены следующим образом:

1) 57 % отдавали предпочтение кандидату-республиканцу А. Лэн-

дону;

2) 40 % выбрали действующего в то время президента-демократа

Ф. Рузвельта.
На выборах же, как известно, победил Рузвельт, набрав более

60 % голосов. Ошибка «Литерари Дайджест» заключалась в сле-

дующем: желая увеличить репрезентативность выборки, работники

журнала, которым было известно, что большинство их подписчиков

считают себя республиканцами, расширили выборку за счет людей,

выбранных из телефонных книг и регистрационных списков. Однако
они не учли современных реалий и набрали еще больше республи-

6
канцев: во время Великой депрессии обладать телефонами и авто-

мобилями могли себе позволить в основном представители среднего

и высшего класса (т. е. большинство республиканцев, а не демокра-

тов).

Одна и та же выборка может рассматриваться как репрезентатив-

ная и как нерепрезентативная в зависимости от того, на какую ге-

неральную совокупность исследователь желает распространить свои

выводы.

П р и м е р. Выборка составлена по результатам периодическо-

го медицинского осмотра работников Богословского алюминиевого

завода (выявление бронхолегочной патологии). Но если ставится за-

дача исследования структуры бронхолегочной патологии жителей

Свердловской области, то такую выборку следует считать нерепре-

зентативной. Однако при исследовании структуры бронхолегочной

патологии работников алюминиевого производства в Российской Фе-

дерации та же самая выборка может считаться репрезентативной.

1.3. Понятие случайной величины

Строгое определение случайной величины требует привлечения

понятийного аппарата теории функций вещественной переменной,

но в рамках настоящего учебного пособия этого делать не нужно.

Для изложения дальнейшего материала нам достаточно лишь обще-

го понимания того, что собой представляет случайная величина, а

потому мы ограничимся неформальным определением.

Определение 3. Случайная величина — это величина, которая в

результате испытания принимает одно и только одно возможное

значение, наперед неизвестное и зависящее от случайных причин,

которые заранее не могут быть учтены.

П р и м е р 1. Число мальчиков из 100 новорожденных есть ве-

личина случайная, возможные значения которой: 0, 1, 2, . . . , 100.
П р и м е р 2. Дневная выручка магазина, выраженная в рублях.

7
П р и м е р 3. Среднесуточная температура в январе в Москве.

Будем далее обозначать случайные величины прописными бук-

вами X, Y, Z, а их возможные значения — соответствующими строч-

ными буквами x, y, z. Например, если случайная величина X имеет

три возможных значения, то они будут обозначены так: x1, x2, x3.

Разберем примеры 1 – 3. В первом из них случайная величина X

могла принять одно из следующих возможных значений: 0, 1, 2, . . . ,

100. Эти значения отделены одно от другого промежутками, в ко-

торых нет возможных значений X. Таким образом, в этом примере

случайная величина принимает отдельные, изолированные возмож-

ные значения. Во втором примере случайная величина также могла

принимать только целочисленные неотрицательные значения, хотя

ее границы точно неизвестны. В третьем примере случайная величи-

на могла принять любое из значений промежутка (a, b). Здесь нельзя

отделить одно возможное значение от другого промежутком, не со-

держащим возможных значений случайной величины.

Из сказанного можно сделать вывод о целесообразности разли-

чать случайные величины, принимающие лишь отдельные, изолиро-

ванные значения, и случайные величины, возможные значения ко-

торых сплошь заполняют некоторый промежуток.

Определение 4. Дискретной называют случайную величину, ко-

торая принимает отдельные, изолированные возможные значения

с определенными вероятностями.

Число возможных значений дискретной случайной величины мо-

жет быть конечным или бесконечным.

Определение 5. Непрерывной называют случайную величину, ко-

торая может принимать все значения из некоторого конечного

или бесконечного промежутка.

Очевидно, что число возможных значений непрерывной случай-

ной величины бесконечно.

8
Для задания (определения) дискретной случайной величины

(ДСВ) необходимо указать все принимаемые ею значения и соот-

ветствующие вероятности, т. е. ее закон распределения.

Определение 6. Закон распределения дискретной случайной вели-

чины — соответствие между возможными значениями и их веро-

ятностями.
Обычно закон распределения ДСВ представляют в виде таблицы,

первая строка которой содержит возможные значения, а вторая —

их вероятности. Удобным способом представления закона распре-

деления ДСВ является графический. При этом на оси абсцисс от-

кладывают варианты xi, а на оси ординат — соответствующие им

вероятности pi.

Задание закона распределения в виде таблицы требует перечисления 
всех значений случайной величины. Очевидно, что такой спо-

соб задания неприменим для непрерывных случайных величин, со-

ответственно, необходимо дать общий способ задания любых типов

случайных величин. С этой целью вводят функции распределения

вероятностей случайной величины.

Пусть x — действительное число. Вероятность события, состоя-

щего в том, что случайная величина X примет значение, меньшее x

(т. е. вероятность события X < x), обозначим через FX(x). Разуме-

ется, если x изменяется, то, вообще говоря, изменяется и FX(x), т. е.

FX(x) есть функция от x.

Определение 7. Функцией распределений случайной величины X

называется функция FX(x), определяющая вероятность того, что

случайная величина X в результате испытания примет значение,

меньшее x, т. е. P(X < x) = FX(x).

Геометрически это равенство можно истолковать так: FX(x) есть

вероятность того, что случайная величина X примет значение, ко-

торое лежит на числовой оси левее точки x.

9
В терминах функции распределения можно дать более точное

определение непрерывной случайной величины: случайную величи-

ну называют непрерывной, если ее функция распределения есть

непрерывная, кусочно-дифференцируемая функция с непрерывной

производной.

Другим способом определения непрерывной случайной величины

является задание плотности распределения:

Определение 8. Плотностью
распределения
вероятностей

непрерывной случайной величины X называют функцию f(x) —
первую
производную
от
функции
распределения
F(x),
т.
е.

f(x) = F ′(x).

Зная плотность распределения, можно вычислить вероятность

того, что непрерывная случайная величина примет значение, при-

надлежащее заданному интервалу. Правило вычисления дает следу-

ющее утверждение.

Утверждение 1. Вероятность того, что непрерывная случайная

величина X примет значение, принадлежащее интервалу (a, b),

равна определенному интегралу от плотности распределения, взятому 
в пределах от a до b :

P(a < X < b) =
b

a
f(x)dx.

Напомним, что геометрический смысл определенного интегра-

ла — площадь под кривой y = f(x) в промежутке от a до b. Это

утверждение позволяет раскрыть вероятностный смысл плотности

распределения. Вероятность того, что случайная величина примет

значение, принадлежащее интервалу (x, x + ∆), приближенно равна

произведению плотности вероятности в точке x на длину интервала.

Зная плотность распределения, можно найти функцию распре-

деления:

10
Доступ онлайн
220 ₽
В корзину