Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Статистические методы анализа данных

Покупка
Артикул: 759867.02.99
Доступ онлайн
230 ₽
В корзину
Рассмотрены дисперсионный, корреляционный, регрессионный анализ, элементы анализа случайных процессов, некоторые методы многомерного анализа. По каждой из рассматриваемых тем кратко изложены основные теоретические положения, примеры решения задач, приведены задачи для самостоятельного решения, компьютерные методы решения соответствующих задач и задания для типового расчета. Для студентов, изучающих курс статистических методов анализа программы бакалавриата по техническим и экономическим направлениям.
Клячкин, В. Н. Статистические методы анализа данных : учебное пособие / В. Н. Клячкин, Ю. Е. Кувайскова, В. А. Алексеева. - Москва : Финансы и Статистика, 2021. - 240 с. - ISBN 978-5-00184-057-2. - Текст : электронный. - URL: https://znanium.com/catalog/product/1831431 (дата обращения: 29.11.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
ÝËÅÊÒÐÎÍÍÎÅ ÈÇÄÀÍÈÅ

Финансы и статистика
Москва

2021

Алексеева В.А., 2016, 2021

УДК [519.23/.25:004.382.7](075.8)
ББК 22.172я73-1+32.971.3-015я73-1
       К52

Рецензенты:
Кафедра общепрофессиональных дисциплин
Ульяновского института гражданской авиации  
им. Главного маршала авиации Б. П. Бугаева
(зав. кафедрой, канд. техн. наук, доцент В.В. Брокерт);
А.С. Андреев,
д-р физ.-мат. наук, профессор
(Ульяновский государственный университет)

Рассмотрены дисперсионный, корреляционный, регрессионный 
анализ, элементы анализа случайных процессов,  некоторые методы 
многомерного анализа. По каждой из рассматриваемых тем кратко изложены основные теоретические положения, примеры решения задач, 
приведены задачи для самостоятельного решения, компьютерные методы решения соответствующих задач и задания для типового расчета. 
Для студентов, изучающих курс статистических методов анализа 
программы бакалавриата по техническим и экономическим направлениям.

УДК [519.23/.25:004.382.7](075.8)
ББК 22.172я73-1+32.971.3-015я73-1

Клячкин В.Н., Кувайскова Ю.Е., Алексеева В.А.
Статистические методы анализа данных: учеб. пособие. –
Эл. изд. – 1 файл pdf: 240 с. – М.: Финансы и статистика,
2021. – Текст: электронный.
ISBN 978-5-00184-057-2

К52

© Клячкин В.Н., Кувайскова Ю.Е.,

© ООО «Издательство «Финансы
ISBN 978-5-00184-057-2
и статистика», 2021

ПРЕДИСЛОВИЕ 

Учебное пособие по статистическим методам анализа данных предназначено для использования при изучении 
студентами соответствующей дисциплины при реализации 
образовательной программы бакалавриата по различным направлениям. Включает два раздела: основы вероятностностатистических методов (без знания которых изучение анализа данных невозможно) и собственно методы статистического анализа. 
Рассмотрены дисперсионный, корреляционный, регрессионный анализ, элементы анализа случайных процессов 
(включая марковские процессы и модели авторегрессии и 
скользящего среднего для анализа временных рядов),  некоторые методы многомерного анализа (метод главных компонент и методы многомерной классификации: дискриминантный и кластерный анализ). 
По каждой из рассматриваемых тем кратко изложены основные теоретические положения, даются примеры подробного решения задач, приведены задачи для самостоятельного 
решения, компьютерные методы решения соответствующих 
задач и задания для типового расчета. 
Пособие ориентировано на активное использование компьютерной техники при решении задач статистического анализа, что позволяет приблизить студента к решению прикладных задач.
Для компьютерного решения задач рассмотрены основные статистические методы, реализованные в электронных 
таблицах Excel (используются встроенные статистические 
функции, средства графики, а также надстройка «Анализ 
данных») и системе Statistica.
Система Statistica – один из наиболее популярных статистических пакетов для визуализации данных, поиска закономерностей, прогнозирования, классификации. Используется 
в самых разных областях деятельности: в экономике, промышленности, научных исследованиях. Применение этой 

системы позволяет эффективно решать сложные проблемы 
и осуществлять аналитическую поддержку принятия решений. Система Statistica получает наивысшие оценки во всех 
сравнительных обзорах статистического программного обеспечения.
По некоторым направлениям подготовки предусмотрен 
лабораторный практикум, тогда компьютерные технологии 
решения задач статистического анализа осваиваются в рамках этих занятий. В других случаях студенты изучают компьютерные методы самостоятельно, базируясь на знаниях, 
полученных при изучении информатики. 
Отбор задач для типового расчета определяется содержанием учебного плана для конкретного направления или 
профиля подготовки бакалавра: если, например, студентыфинансисты изучают курс эконометрики, то вряд ли имеет 
смысл давать им в рамках общего курса статистического анализа задание по исследованию временного ряда. 
При подготовке пособия использован опыт работы авторов при проведении занятий на факультете информационных 
систем и технологий (направления 09.03.01 – Информатика 
и вычислительная техника, 09.03.02 – Информационные системы и технологии, 09.03.03 – Прикладная информатика, 
09.03.04 – Программная инженерия, 12.03.01 – Приборостроение, профиль Авиационные при боры и измерительновычислительные комплексы и другие) и инженерно-экономическом факультете (направление 38.03.01 – Экономика, 
профили: Финансы и кредит, Бухгалтерский учет, анализ 
и аудит, Налоги и налогообложение; направление 27.03.02 – 
Управление качеством и другие) .

1.1. ЭЛЕМЕНТЫ ТЕОРИИ ВЕРОЯТНОСТЕЙ

1.1.1. Случайные события

Краткие теоретические сведения

Статистические методы анализа данных, как и математическая статистика в целом, базируются на основных положениях теории вероятностей. Теория вероятностей – наука о 
закономерностях массовых случайных событий, то есть событий, которые при соблюдении определенного комплекса условий могут произойти, а могут и не произойти. Случайными 
событиями являются, например, взятие дефектной детали из 
партии изготовленной продукции, или выход из строя телевизора во время гарантийного периода. Степень возможности осуществления таких событий может быть большей или 
меньшей, она характеризуется вероятностью события.
Случайное событие можно рассматривать как результат 
некоторого эксперимента со случайными исходами, поставленного специально (взятие детали из партии) или в результате наблюдения за естественно происходящими событиями 
(выход из строя телевизора). 

ОСНОВЫ

ВЕРОЯТНОСТНО
СТАТИСТИЧЕСКИХ

МЕТОДОВ

Раздел 1

Предположим, что эксперимент можно повторять в одних и тех же условиях неоднократно. Рассмотрим некоторое 
событие А = {Взятая из партии деталь оказалась дефектной}. 
Если в серии из n опытов событие А произошло m раз, то 
отношение W(A) = m / n можно назвать относительной частотой события А. 
При небольших значениях n частота одного и того же 
события может колебаться в достаточно широких пределах. 
Однако при большом числе опытов эта величина стабилизируется, и ее колебания приближаются к некоторому пределу, 
который приближенно и характеризует вероятность осуществления рассматриваемого события:

( )
( )
.
n
m
A
W
A
P
=
≈
(1.1)

Такое определение вероятности называется статистическим.
Нетрудно видеть, что в общем случае 0 ≤ m ≤ n. При m = 0 
имеем невозможное событие: событие, которое при определенных условиях никогда не произойдет. Вероятность такого 
события равна нулю. 
В реальных ситуациях часто имеют место события, вероятность которых близка к нулю. Их называют практически 
невозможными. Например, если вероятность разрушения детали составляет 0,0001, то есть в среднем разрушается одна 
деталь из десяти тысяч, то разрушение детали – событие маловероятное, или практически невозможное.
При m = n имеем достоверное событие, которое обязательно произойдет при заданных условиях. Вероятность 
такого события равна единице. Если же вероятность некоторого события близка к единице, такое событие называют 
практически достоверным.
Для любого события А вероятность Р(А) лежит в пределах 
от нуля до единицы:

0 ≤ P(A) ≤ 1.
(1.2)

Если при проведении эксперимента множество возможных исходов Ω конечно, и сами исходы равновероятны, то 
вероятность события А составит:

( )
( )
( ) .
Ω
= N
A
N
A
P
(1.3)

где N(A) – число исходов, благоприятствующих событию А; 
N(Ω) – число всех возможных исходов. Определение (1.3) 
называется классическим. 
При использовании классического определения вероятности количество исходов часто удобно определять, используя формулы комбинаторики. Пусть, например, опыт состоит 
в отборе m элементов из n, при этом отобранные элементы 
не возвращаются и порядок их отбора безразличен. Тогда количество способов отбора m элементов из n называется числом сочетаний и вычисляется по формуле:

(
) .!
!
!
m
n
m
n
С m
n
−
=
(1.4)

В случаях, когда опыт заключается в отборе m элементов 
из n, и при этом отобранные элементы не возвращаются, но 
порядок их отбора существенен, рассчитывается число размещений по формуле:

(
) .!
!
m
n
n
A m
n
−
=

Классическое определение неприменимо к эксперименту 
с бесконечным числом возможных исходов. Пусть, например, плоская фигура ω является частью плоской фигуры Ω, 
при этом точка брошена в область Ω. Геометрической вероятностью называется отношение соответствующих площадей 

( )
( )
( ) ,
Ω
= S
ω
S
A
P
(1.5)

которое и определяет вероятность попадания брошенной 
точки в область ω. В общем случае в формуле (1.5) вместо 
площади может использоваться и другая мера области (длина, объем).
Событие ͞A, состоящее в том, что событие А не произойдет, называется противоположным событию А. 

Суммой событий А и В называется событие А + В, состоящее в том, что произойдет или событие А, или событие В, 
или оба события вместе. 
Произведение событий А и В – это событие АВ, состоящее 
в том, что произойдут совместно и событие А, и событие В. 
Пусть, например, А = {Изделие имеет царапину},  
B = {Изделие имеет вмятину}, тогда противоположное событие ͞A = {Изделие не имеет царапины}, произведение этих 
событий АВ = {Изделие имеет царапину и вмятину}, а их 
сумма А + В = {Изделие имеет или царапину, или вмятину, 
или царапину и вмятину одновременно}.
События А и В называются несовместными, если их одновременное осуществление невозможно; произведение таких 
событий – пустое множество: АВ = ∅.
Как уже отмечалось, вероятность осуществления события А зависит от соблюдения определенного комплекса условий. Предположим, что произошло некоторое событие В. 
Это обстоятельство может изменить вероятность события 
А. Вероятность события А при условии, что событие В произошло, называется условной вероятностью и обозначается 
Р(А / В).
События А и В называются независимыми, если вероятность осуществления одного из них не зависит от того, произошло ли другое событие. Для независимых событий А и В 
применима формула:

Р(А) = Р(А / В) = Р(А / ͞В).
(1.6)

Можно показать, что вероятность произведения независимых событий равна произведению их вероятностей:

Р(АB) = Р(А)Р(B).
(1.7)
В общем случае, когда события могут оказаться зависимыми, формула произведения вероятностей имеет вид:

Р(АВ) = Р(А)Р(В /А) = Р (B)Р(A /B).
(1.8)

Вероятность суммы несовместных событий равна сумме 
их вероятностей:

Р(А + В) = Р(А) + Р(В).
(1.9)

Для совместных событий формула сложения вероятностей имеет вид:

Р(А + В) = Р(А) + Р(В) – Р(АВ).
(1.10)
Из формулы (1.9), учитывая, что события А и ͞A являются 
несовместными, а их сумма (А + ͞A) – событие достоверное, 
следует формула для вероятности противоположного события:

Р(͞A) = 1 – Р(А).
(1.11)

Формулы (1.7) – (1.10) могут быть обобщены для любого 
числа событий. Например, для n попарно несовместных событий Аi (i = 1, … , n) формула (1.9) примет вид:

∑
=
=
+
+
+
n

i
i
n
A
P
A
A
A
P
1
2
1
)
(
)
...
(
.
(1.12)

Предположим, что событие А может произойти лишь при 
появлении одного из несовместных событий Н1, Н2,…, Нn. 
Вероятности этих событий Р(Нi) известны и в сумме равны 
единице: ∑Р(Нi) = 1, известны также условные вероятности 
Р(А/Нi) события А. Тогда вероятность события А определяется по формуле:

Р(А) = ∑Р(Нi) Р(А/Нi).
(1.13)

Формула (1.13) называется формулой полной вероятности. 
События Нi можно рассматривать как гипотезы, тогда Р(Нi) 
называют априорными, или доопытными вероятностями гипотез.
Пусть событие А произошло, тогда априорные вероятности могут измениться. Апостериорные или послеопытные 
вероятности Р(Нi/А) вычисляются по формуле Байеса:

Р(Нi/А) = Р(Нi)Р(А/Нi) / ∑Р(Нi)Р(А/Нi).
(1.14)

Эта формула, в частности, используется в задачах технической диагностики, когда априорные вероятности гипотез о 
причинах появления неисправности переоцениваются после 
поступления дополнительной информации.

Примеры 

Пример 1. Игральная кость подбрасывается один раз. Наблюдается число очков на верхней грани. Необходимо описать множество возможных исходов, найти вероятности событий: А = {выпало пять очков}, В = {выпало меньше пяти 
очков}, С = {выпало не меньше пяти очков}, D = {выпало 
больше трех очков}, Е = {выпало нечетное число очков},  
F = {выпало семь очков}, G = {выпало меньше семи очков}.
Множество возможных исходов включает шесть элементарных событий: Ω = {ω1, ω2, ω3, ω4, ω5, ω6}, где ωi = {X = i}, 
X – число очков на верхней грани кости. Таким образом, 
N(Ω) = 6.
Событию А благоприятствует лишь один исход из шести: 
А = {ω5}, поэтому N(A) = 1. В соответствии с формулой (1.3) 
вероятность этого события Р(А) = N(A) / N(Ω) = 1/6.
По аналогии В = {ω1, ω2, ω3, ω4}, N(В) = 4, Р(В) = 4/6 =  
= 2/3; С = {ω5, ω6}, N(С) = 2, Р(С) = 1/3; D = {ω4, ω5, ω6}, 
N(D) = 3, Р(D) = 1/2; E = {ω1, ω3, ω5}, N(E) = 3, Р(E) = 1/2;  
F = ∅ – такое событие невозможно, N(F) = 0, Р(F) = 0;  
G = {ω1, ω2, ω3, ω4, ω5, ω6} = Ω – это событие совпадает 
с множеством возможных исходов, достоверное событие,  
N(G) = 6, Р(G) = 1.

Пример 2. В ящике имеется 9 деталей, три из которых 
бракованные. Для контроля извлекаются 4 детали. Какова 
вероятность, что одна из них – бракованная? Какова вероятность, что все извлеченные детали – годные?
Для контроля из 9 деталей извлекается 4, поэтому число 
возможных исходов – это число сочетаний из 9 по 4; в соот
ветствии с (1.4) получим: 
( )
.
126
!
5!
4
!
9
4
9
=
=
=
Ω
C
N

Для выполнения события А = {из 4 извлеченных деталей 
одна бракованная} необходимо извлечь одну деталь из трех 

бракованных (количество возможных способов 
3
!
2
!1
!
3
1
3
=
=
С
)

и одновременно три детали из 6 годных (количество возмож
ных способов 
20
!
3!
3
!
6
3
6
=
=
С
). Тогда число исходов, благопри
Доступ онлайн
230 ₽
В корзину