Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Анализ данных в материаловедении. Часть 1

Покупка
Артикул: 751158.01.99
Доступ онлайн
2 000 ₽
В корзину
В учебном пособии рассмотрены вопросы статистического анализа данных, включая статистические оценки, проверку гипотез, дисперсионный и корреляционный анализ. По всем темам приводятся примеры решения реальных задач из металлургии и материаловедения в программе Excel. В пособие включены задания для самостоятельной работы. Предназначено для студентов, обучающихся по направлениям «Материаловедение» и «Металлургия». Может быть использовано аспирантами в области металлургии и материаловедения
Мельниченко, А. С. Анализ данных в материаловедении. Часть 1 : учебное пособие / А. С. Мельниченко. - Москва : Изд. Дом МИСиС, 2013. - 72 с. - ISBN 978-5-87623-666-1. - Текст : электронный. - URL: https://znanium.com/catalog/product/1223567 (дата обращения: 17.05.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ 
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ  
ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ  
«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ «МИСиС» 
 
 
 
 
 
 
 
 
 
 
№ 2201 
Кафедра металловедения и физики прочности
А.С. Мельниченко 
 
 
Анализ данных 
в материаловедении 
Часть 1 
Учебное пособие 
Допущено учебно-методическим объединением по образованию 
в области металлургии в качестве учебного пособия для студентов 
высших учебных заведений, обучающихся по направлениям 
150700 – Физическое материаловедение и Металлургия 
Москва  2013 
УДК 620.22 
 
М48 
Р е ц е н з е н т  
канд. техн. наук, доц. С.Н. Богданов 
Мельниченко, А.С. 
М48  
Анализ данных в материаловедении : учеб. пособие / 
 
А.С. Мельниченко. – М. : Изд. Дом МИСиС, 2013. – ч. 1. – 72 с. 
ISBN 978-5-87623-666-1 
В учебном пособии рассмотрены вопросы статистического анализа дан-
ных, включая статистические оценки, проверку гипотез, дисперсионный и 
корреляционный анализ. По всем темам приводятся примеры решения реаль-
ных задач из металлургии и материаловедения в программе Excel. В пособие 
включены задания для самостоятельной работы.  
Предназначено для студентов, обучающихся по направлениям «Материа-
ловедение» и «Металлургия». Может быть использовано аспирантами в об-
ласти металлургии и материаловедения. 
УДК 620.22 
ISBN 978-5-87623-666-1 
©
АА.С. Мельниченко, 2013 
ОГЛАВЛЕНИЕ 
Предисловие..............................................................................................4 
1. Функции распределений  и описательная статистика.......................5 
1.1. Функции распределений ...............................................................5 
1.2. Описательная статистика..............................................................9 
2. Сравнение средних и дисперсий.......................................................15 
2.1. Проверка статистических гипотез..............................................15 
2.2. Сравнение дисперсий..................................................................16 
2.3. Сравнение средних......................................................................17 
2.4. Проверка гипотезы однородности дисперсий ..........................25 
3. Проверка вида распределения и анализ выбросов ..........................29 
3.1. Проверка вида распределения....................................................29 
3.2. Проверка гипотезы о выбросах ..................................................38 
4. Дисперсионный анализ ......................................................................41 
4.1. Однофакторный дисперсионный анализ...................................41 
4.2. Двухфакторный дисперсионный анализ ...................................45 
4.3. Одно измерение в группе............................................................52 
5. Корреляционный анализ ....................................................................56 
5.1. Парный коэффициент корреляции и эллипс рассеяния...........56 
5.2. Анализ корреляционных матриц................................................64 
Библиографический список...................................................................71 
 
ПРЕДИСЛОВИЕ 
Электронные таблицы Excel – общепринятое программное средство 
для хранения и обработки результатов эксперимента. Сама обработка 
чаще всего ограничивается элементарными оценками средних 
и дисперсий и построением графиков. Между тем, вычислительных 
возможностей программы Excel достаточно для решения большинства 
стандартных задач статистической обработки. Цель данного 
пособия – научить студентов, выполняющих курсовые и дипломные 
исследовательские работы, проводить статистический анализ, не 
прибегая к другим программам и статистическим таблицам. В пособии 
рассмотрены задачи, которые по опыту кафедры металловедения 
и физики прочности чаще всего встречаются в научно-исследовательских 
работах студентов и аспирантов. Это точечные и интер-
вальные оценки, сравнение средних и дисперсий, проверка гипотез о 
виде распределения и выбросах, дисперсионный и корреляционный 
анализ. Задачи регрессионного анализа в силу их большого разнооб-
разия будут рассмотрены во второй части пособия. 
Каждой теме предпослано краткое теоретическое введение. Под-
робнее ознакомиться с вопросами теории можно в изданиях [1–4]. По 
каждой теме разобраны примеры типичных задач статистической 
обработки материаловедческих данных. Эти примеры являются гото-
выми шаблонами для решения аналогичных или близких задач. 
В пособии рассмотрены не все статистические функции програм-
мы Excel, а только те, которые необходимы для решения поставлен-
ных задач. Точно также в пособии подробно не разбираются вопро-
сы, относящиеся к самой программе Excel, такие как упорядочение 
данных, построение и форматирование графиков и т.п. Дополнитель-
ные сведения о программе Excel можно почерпнуть, например, в [5]. 
В пособии приняты следующие правила ссылок в формулах: если 
формула или функция относится к диапазону ячеек, то она приводит-
ся только для верхней левой ячейки диапазона, а на остальные ячей-
ки распространяется копированием; если формула относится к един-
ственной ячейке, то ссылки в ней относительные. 
 
1. ФУНКЦИИ РАСПРЕДЕЛЕНИЙ  
И ОПИСАТЕЛЬНАЯ СТАТИСТИКА 
1.1. Функции распределений 
Основными характеристиками распределения непрерывной слу-
чайной величины Х, имеющей плотность распределения 
( )
w x , явля-
ются:  
математическое ожидание 
 
( )d
x
xw x
x
∞
−∞
µ = ∫
, 
дисперсия  
 
2
2
(
)
( )d
x
x
x
w x
x
∞
−∞
σ =
− μ
∫
, 
стандартное отклонение 
 
2
x
x
σ =
σ , 
коэффициент асимметрии 
 
3
3
1
(
)
( )d
x
x
x
x
w x
x
∞
−∞
γ =
− μ
σ ∫
. 
Математическое ожидание 
x
μ  – характеристика центра распреде-
ления случайной величины Х, дисперсия 
2
x
σ  и стандартное отклоне-
ние 
x
σ  − характеристики разброса случайной величины вокруг цен-
тра распределения, коэффициент асимметрии 
x
γ  – характеристика 
симметрии распределения. Если функция 
( )
w x  симметрична относи-
тельно математического ожидания 
x
µ , то 
0
x
γ =
. Положительное 
значение 
x
γ  указывает на более длинный «хвост» распределения 
справа от 
x
μ , отрицательное – слева. Величины 
x
μ , 
2
x
σ , 
x
σ , 
x
γ  в ма-
тематической статистике называются параметрами генеральной совокупности.  
Для описания экспериментальных данных часто используются 
следующие распределения.  
Нормальное распределение 
 
2
2
1
(
)
( )
exp
2
2
x
w x
⎡
⎤
− μ
=
−
⎢
⎥
σ
σ
π
⎣
⎦
. 
 (1.1) 
Область определения 
x
−∞ <
< ∞ , параметры распределения μ , 
0
σ >
.  
Случайная величина распределена нормально, если ее разброс вызван 
множеством причин, среди которых нет единственной преобладающей 
причины. Нормальное распределение играет центральную 
роль в теоретической статистике. Большинство приводимых далее 
оценок и статистических критериев предполагают, что анализируемые 
случайные величины распределены нормально.  
Гамма-распределение 
 
1
(
)
exp(
)
( )
( )
b
x
x
w x
b
−
λ λ
−λ
=
Γ
, 
 (1.2) 
где Γ  – гамма-функция.  
Область определения 
0
x ≥
, параметры распределения: 
0
λ >
 – 
масштабный параметр, 
0
b >
 – параметр формы.  
Гамма-распределение – универсальное распределение для описания 
ограниченных снизу несимметрично распределенных случайных 
величин. По мере увеличения параметра b гамма-распределение становится 
более симметричным. Частный случай гамма-распределения 
с 
1
b =  и единственным параметром λ  называется экспоненциальным 
распределением. 
Логарифмически нормальное распределение 
 
2
2
1
(ln
)
( )
exp
2
2
x
w x
x
⎡
⎤
− μ
=
−
⎢
⎥
σ
πσ
⎣
⎦
. 
 (1.3) 
Область определения 
0,
x ≥
 параметры распределения μ , 
0
σ >
.  
Случайная величина, логарифм которой распределен нормально с 
параметрами μ  и σ , имеет логарифмически нормальное распределе-
ние. Используется наряду с гамма-распределением для описания огра-
ниченных снизу несимметрично распределенных случайных величин. 
В табл. 1.1 приводятся выражения математического ожидания 
x
μ , 
стандартного отклонения 
x
σ  и коэффициента асимметрии 
x
γ  рас-
пределений через их параметры. 
Таблица 1.1 
Распределение 
Математическое 
ожидание 
x
μ  
Стандартное откло-
нение 
x
σ  
Коэффициент 
асимметрии 
x
γ  
Нормальное (1.1) 
µ  
σ  
0 
Гамма (1.2) 
b
λ  
b
λ  
2
b
 
Логарифмически 
нормальное (1.3) 
2
exp
2
⎛
⎞
σ
μ −
⎜
⎟
⎝
⎠
 
(
)
(
)
2
2
exp 2
exp
1
μ + σ
×
×
σ
−
 
(
)
(
)
2
2
exp
2
exp
1
⎡
⎤
σ
+
×
⎣
⎦
×
σ
−
 
В статистическом анализе используются следующие распределения. 
Распределение Пирсона (
2
χ -распределение) – распределение суммы 
квадратов нормально распределенных случайных величин 
1
2
,
,...,
k
U U
U  
с математическими ожиданиями 
0
i
u
µ
=
 и стандартными отклоне-
ниями 
1
i
u
σ
=  (
1, 2,...,
i
k
=
).  
 
2
2
2
2
1
2
...
k
U
U
U
χ =
+
+
+
. 
 (1.4) 
Параметр распределения 
k
ν ≤
 – число степеней свободы (ч.с.с.).  
2
χ -распределение – частный случай гамма-распределения с пара-
метрами 
1 2
λ =
 и 
2
b = ν
. 
Распределение Стьюдента (t-распределение) – распределение 
случайной величины 
 
0
2
2
2
1
2
(
...
)
k
U
t
U
U
U
=
+
+
+
ν
, 
 (1.5) 
где 
0
1
,
,...,
k
U
U
U  – нормально распределенные случайные величины. 
Параметр распределения – ч.с.с. 
k
ν ≤
. 
Распределение Фишера (F-распределение) – распределение слу-
чайной величины  
 
2
2
2
1
2
1
2
2
2
1
2
2
(
...
)/
(
...
)/
k
m
U
U
U
F
V
V
V
+
+
+
ν
=
+
+
+
ν
, 
 (1.6) 
где 
1
1
,...,
,
,...,
k
m
U
U
V
V  – нормально распределенные случайные вели-
чины. Параметры распределения – 
1
k
ν ≤
 – ч.с.с. среднего квадрата в 
числителе, 
2
m
ν ≤
 – ч.с.с. среднего квадрата в знаменателе.  
Функция распределения случайной величины Х, имеющей плот-
ность распределения 
( )
w x  по значению аргумента х, вычисляет ве-
роятность р того, что 
:
X
x
≤
 
 
( )d
x
p
w u
u
−∞
= ∫
, 
 (1.7) 
а обратная функция распределения по величине вероятности р рас-
считывает значение аргумента функции распределения х.  
В табл. 1.2 приведены встроенные функции программы Excel, 
рассчитывающие рассмотренные функции распределений. 
Таблица 1.2 
Плотность распределения 
Функция распределения 
Обратная функция  
распределения 
Нормальное, μ – математическое ожидание, σ – стандартное отклонение 
НОРМРАСП(x; μ; σ;0) 
НОРМРАСП(x; μ; σ; 1) 
НОРМОБР(p; μ; σ)  
Гамма, λ – масштабный параметр, b – параметр формы 
ГАММАРАСП(x;b;1/λ;0) 
ГАММАРАСП(x; b; 1/λ; 1) 
ГАММАОБР(p; b; 1/λ)  
Экспоненциальное, λ – параметр распределения 
ЭКСПРАСП(х; λ;0) 
ЭКСПРАСП(х; λ;1) 
ГАММАОБР(p; 1; 1/λ)  
Логарифмически нормальное, μ, σ – параметры 
 
ЛОГНОРМРАСП(x; μ; σ) 
ЛОГНОРМОБР(p; μ; σ) 
χ2-распределение (Пирсона), ν – число степеней свободы 
 
1−ХИ2РАСП(x; ν) 
ХИ2ОБР(1−p; ν) 
t-распределение (Стьюдента), ν – число степеней свободы 
 
СТЬЮДРАСП(−x; ν; 1),  
если х < 0;  
1-СТЬЮДРАСП(x; ν; 1),  
если х ≥ 0 
−СТЬЮДРАСПОБР(2p; ν), 
если р ≤ 0,5;  
СТЬЮДРАСПОБР(2(1–p); ν), 
если р > 0,5 
F-распределение (Фишера), ν1, ν2 – числа степеней свободы 
 
1−FРАСП(x; ν1; ν2) 
FРАСПОБР(1−p; ν1; ν2) 
Функции распределения используются в расчетах уровней значимо-
сти статистических критериев. Приводимые в статистических таблицах 
значения обратных функций распределения называются квантилями 
(иначе – процентными точками) распределений и обозначаются хр.  
1.2. Описательная статистика 
Цель описательной статистики – получить общее представление о 
выборке 
1
2
,
,...,
n
x
x
x  и оценить ее основные параметры. Считаем все 
наблюдения независимыми и равноточными. По выборке оцениваются: 
выборочное среднее – оценка математического ожидания 
x
µ , 
 
1
1
n
i
i
x
x
n
=
= ∑
; 
 (1.8) 
выборочная дисперсия – оценка дисперсии генеральной совокуп-
ности 
2
x
σ , 
 
2
2
1
1
(
)
1
n
x
i
i
s
x
x
n
=
=
−
− ∑
; 
 (1.9) 
выборочное стандартное отклонение – оценка стандартного от-
клонения генеральной совокупности 
x
σ , 
 
2
2
1
1
(
)
1
n
x
x
i
i
s
s
x
x
n
=
=
=
−
− ∑
; 
 (1.10) 
выборочный коэффициент асимметрии – оценка коэффициента 
асимметрии генеральной совокупности 
x
γ , 
 
3
1
3 2
2
1
(
)
1
2
(
)
n
i
i
x
n
i
i
x
x
n n
g
n
x
x
=
=
−
−
=
−
⎡
⎤
−
⎢
⎥
⎣
⎦
∑
∑
. 
 (1.11) 
Далее применительно к оценкам будем опускать слово «выборочная». 
Иногда как дополнительная характеристика рассчитывается ко-
эффициент вариации 
 
x
x
s
v
x
=
. 
Он показывает, какую долю среднего составляет его стандартное 
отклонение, служит мерой относительного разброса данных. Также 
определяются максимальное и минимальное значения выборки и их 
разность – размах. 
Оценки (1.8) – (1.11) называются точечными, так как они оцени-
вают параметры генеральной совокупности одним числом. При этом 
неясно, насколько отличается оценка от истинного значения пара-
метра генеральной совокупности. Интервальные оценки определяют 
границы интервала, в который истинное значение параметра гене-
ральной совокупности попадает с заданной вероятностью Р, назы-
ваемой доверительной.  
Наиболее употребительна интервальная оценка математического 
ожидания 
x
μ . Она основана на том, что величина 
 
x
x
x
T
s
n
− µ
=
 
 (1.12) 
является случайной величиной типа (1.5) и подчиняется распределе-
нию Стьюдента с 
1
n
ν =
−  степенями свободы (ч.с.с. дисперсии 
2
x
s ).  
 
Рис. 1.1. Плотность распределения Стьюдента  
Выберем доверительную вероятность Р, и пусть 
1
P
α = −
. Найдем 
квантиль распределения Стьюдента 1
/ 2
t −α
. Плотность распределения 
Стьюдента 
( )
w t  симметрична относительно 
0
t =
, поэтому квантиль 
/ 2
1
/2
t
t
α
−α
= −
 (рис. 1.1). Случайная величина Т находится в интервале 
/2
1
/2
(
;
)
t
t
α
−α
 с вероятностью Р. Тогда математическое ожидание 
x
µ  с 
той же доверительной вероятностью Р находится внутри интервала 
(
;
)
x
x
x
x
− Δ
+ Δ
, где 
1
/2 x
x
t
s
n
−α
Δ =
 
 (1.13) 
– полуширина доверительного интервала. 
Преобразование выборки 
i
x  (
1, 2,...,
i
n
=
) в выборку 
i
z , где 
 
i
i
x
x
x
z
s
−
=
, 
 (1.14) 
называется стандартизацией. Данные стандартизованной выборки 
безразмерные, единица их измерения – собственное стандартное от-
клонение 
x
s . Среднее значение стандартизованной выборки 
0
z =
, а 
стандартное отклонение 
1
z
s = . Представляют интерес минимальное 
и максимальное стандартизованные значения. Они показывают, на 
сколько стандартных отклонений крайние значения выборки отли-
чаются от ее среднего значения. 
При первичном анализе данных кроме точечных и интервальных 
оценок рассчитывается и строится гистограмма распределения, 
дающая наглядное представление о распределении данных. Для это-
го диапазон изменения выборки разбивается на m равных интервалов 
и подсчитывается число данных в каждом интервале 
1
2
,
,...,
m
n n
n . Да-
лее строится график, обычно столбчатая диаграмма, где границы ин-
тервалов откладываются по горизонтальной оси, а величины 
i
n  – по 
вертикальной. 
Пусть данные 
1
2
,
,...,
n
x
x
x  находятся в диапазоне ячеек А1:Аn ра-
бочего листа Excel. Для вычисления оценок используются следую-
щие функции Excel:  
среднее значение (1.8) – СРЗНАЧ(А1:Аn); 
дисперсия (1.9) – ДИСП(А1:Аn); 
стандартное отклонение (1.10) – СТАНДОТКЛОН(А1:Аn); 
коэффициент асимметрии (1.11) – СКОС(А1:Аn). 
Величина 
1
/2,
t −α
ν , необходимая для расчета границ 100Р%-ного 
доверительного интервала (1.13), рассчитывается обратной функцией 
t-распределения СТЬЮДРАСПРОБР(1 – Р,ν).  
Гистограмма 
распределения 
рассчитывается 
функцией 
ЧАСТОТА(А1:Аn; В1:Вm). Функция ЧАСТОТА возвращает m + 1 
значение, каждое из которых – число данных из выборки 
1
2
,
,...,
,
n
x x
x  
попавших в интервалы, границы которых записаны в ячейках В1:Вm. 
Первым считается интервал (–∞; В1], последним – интервал (Вm:∞).  
Доступ онлайн
2 000 ₽
В корзину