Анализ данных в материаловедении. Часть 1
Покупка
Тематика:
Материаловедение
Издательство:
Издательский Дом НИТУ «МИСиС»
Год издания: 2013
Кол-во страниц: 72
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-87623-666-1
Артикул: 751158.01.99
Доступ онлайн
В корзину
В учебном пособии рассмотрены вопросы статистического анализа данных, включая статистические оценки, проверку гипотез, дисперсионный и корреляционный анализ. По всем темам приводятся примеры решения реальных задач из металлургии и материаловедения в программе Excel. В пособие включены задания для самостоятельной работы. Предназначено для студентов, обучающихся по направлениям «Материаловедение» и «Металлургия». Может быть использовано аспирантами в области металлургии и материаловедения
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 22.03.01: Материаловедение и технологии материалов
- 22.03.02: Металлургия
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов.
Для полноценной работы с документом, пожалуйста, перейдите в
ридер.
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ «НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ «МИСиС» № 2201 Кафедра металловедения и физики прочности А.С. Мельниченко Анализ данных в материаловедении Часть 1 Учебное пособие Допущено учебно-методическим объединением по образованию в области металлургии в качестве учебного пособия для студентов высших учебных заведений, обучающихся по направлениям 150700 – Физическое материаловедение и Металлургия Москва 2013
УДК 620.22 М48 Р е ц е н з е н т канд. техн. наук, доц. С.Н. Богданов Мельниченко, А.С. М48 Анализ данных в материаловедении : учеб. пособие / А.С. Мельниченко. – М. : Изд. Дом МИСиС, 2013. – ч. 1. – 72 с. ISBN 978-5-87623-666-1 В учебном пособии рассмотрены вопросы статистического анализа дан- ных, включая статистические оценки, проверку гипотез, дисперсионный и корреляционный анализ. По всем темам приводятся примеры решения реаль- ных задач из металлургии и материаловедения в программе Excel. В пособие включены задания для самостоятельной работы. Предназначено для студентов, обучающихся по направлениям «Материа- ловедение» и «Металлургия». Может быть использовано аспирантами в об- ласти металлургии и материаловедения. УДК 620.22 ISBN 978-5-87623-666-1 © АА.С. Мельниченко, 2013
ОГЛАВЛЕНИЕ Предисловие..............................................................................................4 1. Функции распределений и описательная статистика.......................5 1.1. Функции распределений ...............................................................5 1.2. Описательная статистика..............................................................9 2. Сравнение средних и дисперсий.......................................................15 2.1. Проверка статистических гипотез..............................................15 2.2. Сравнение дисперсий..................................................................16 2.3. Сравнение средних......................................................................17 2.4. Проверка гипотезы однородности дисперсий ..........................25 3. Проверка вида распределения и анализ выбросов ..........................29 3.1. Проверка вида распределения....................................................29 3.2. Проверка гипотезы о выбросах ..................................................38 4. Дисперсионный анализ ......................................................................41 4.1. Однофакторный дисперсионный анализ...................................41 4.2. Двухфакторный дисперсионный анализ ...................................45 4.3. Одно измерение в группе............................................................52 5. Корреляционный анализ ....................................................................56 5.1. Парный коэффициент корреляции и эллипс рассеяния...........56 5.2. Анализ корреляционных матриц................................................64 Библиографический список...................................................................71
ПРЕДИСЛОВИЕ Электронные таблицы Excel – общепринятое программное средство для хранения и обработки результатов эксперимента. Сама обработка чаще всего ограничивается элементарными оценками средних и дисперсий и построением графиков. Между тем, вычислительных возможностей программы Excel достаточно для решения большинства стандартных задач статистической обработки. Цель данного пособия – научить студентов, выполняющих курсовые и дипломные исследовательские работы, проводить статистический анализ, не прибегая к другим программам и статистическим таблицам. В пособии рассмотрены задачи, которые по опыту кафедры металловедения и физики прочности чаще всего встречаются в научно-исследовательских работах студентов и аспирантов. Это точечные и интер- вальные оценки, сравнение средних и дисперсий, проверка гипотез о виде распределения и выбросах, дисперсионный и корреляционный анализ. Задачи регрессионного анализа в силу их большого разнооб- разия будут рассмотрены во второй части пособия. Каждой теме предпослано краткое теоретическое введение. Под- робнее ознакомиться с вопросами теории можно в изданиях [1–4]. По каждой теме разобраны примеры типичных задач статистической обработки материаловедческих данных. Эти примеры являются гото- выми шаблонами для решения аналогичных или близких задач. В пособии рассмотрены не все статистические функции програм- мы Excel, а только те, которые необходимы для решения поставлен- ных задач. Точно также в пособии подробно не разбираются вопро- сы, относящиеся к самой программе Excel, такие как упорядочение данных, построение и форматирование графиков и т.п. Дополнитель- ные сведения о программе Excel можно почерпнуть, например, в [5]. В пособии приняты следующие правила ссылок в формулах: если формула или функция относится к диапазону ячеек, то она приводит- ся только для верхней левой ячейки диапазона, а на остальные ячей- ки распространяется копированием; если формула относится к един- ственной ячейке, то ссылки в ней относительные.
1. ФУНКЦИИ РАСПРЕДЕЛЕНИЙ И ОПИСАТЕЛЬНАЯ СТАТИСТИКА 1.1. Функции распределений Основными характеристиками распределения непрерывной слу- чайной величины Х, имеющей плотность распределения ( ) w x , явля- ются: математическое ожидание ( )d x xw x x ∞ −∞ µ = ∫ , дисперсия 2 2 ( ) ( )d x x x w x x ∞ −∞ σ = − μ ∫ , стандартное отклонение 2 x x σ = σ , коэффициент асимметрии 3 3 1 ( ) ( )d x x x x w x x ∞ −∞ γ = − μ σ ∫ . Математическое ожидание x μ – характеристика центра распреде- ления случайной величины Х, дисперсия 2 x σ и стандартное отклоне- ние x σ − характеристики разброса случайной величины вокруг цен- тра распределения, коэффициент асимметрии x γ – характеристика симметрии распределения. Если функция ( ) w x симметрична относи- тельно математического ожидания x µ , то 0 x γ = . Положительное значение x γ указывает на более длинный «хвост» распределения справа от x μ , отрицательное – слева. Величины x μ , 2 x σ , x σ , x γ в ма- тематической статистике называются параметрами генеральной совокупности.
Для описания экспериментальных данных часто используются следующие распределения. Нормальное распределение 2 2 1 ( ) ( ) exp 2 2 x w x ⎡ ⎤ − μ = − ⎢ ⎥ σ σ π ⎣ ⎦ . (1.1) Область определения x −∞ < < ∞ , параметры распределения μ , 0 σ > . Случайная величина распределена нормально, если ее разброс вызван множеством причин, среди которых нет единственной преобладающей причины. Нормальное распределение играет центральную роль в теоретической статистике. Большинство приводимых далее оценок и статистических критериев предполагают, что анализируемые случайные величины распределены нормально. Гамма-распределение 1 ( ) exp( ) ( ) ( ) b x x w x b − λ λ −λ = Γ , (1.2) где Γ – гамма-функция. Область определения 0 x ≥ , параметры распределения: 0 λ > – масштабный параметр, 0 b > – параметр формы. Гамма-распределение – универсальное распределение для описания ограниченных снизу несимметрично распределенных случайных величин. По мере увеличения параметра b гамма-распределение становится более симметричным. Частный случай гамма-распределения с 1 b = и единственным параметром λ называется экспоненциальным распределением. Логарифмически нормальное распределение 2 2 1 (ln ) ( ) exp 2 2 x w x x ⎡ ⎤ − μ = − ⎢ ⎥ σ πσ ⎣ ⎦ . (1.3) Область определения 0, x ≥ параметры распределения μ , 0 σ > . Случайная величина, логарифм которой распределен нормально с параметрами μ и σ , имеет логарифмически нормальное распределе- ние. Используется наряду с гамма-распределением для описания огра- ниченных снизу несимметрично распределенных случайных величин.
В табл. 1.1 приводятся выражения математического ожидания x μ , стандартного отклонения x σ и коэффициента асимметрии x γ рас- пределений через их параметры. Таблица 1.1 Распределение Математическое ожидание x μ Стандартное откло- нение x σ Коэффициент асимметрии x γ Нормальное (1.1) µ σ 0 Гамма (1.2) b λ b λ 2 b Логарифмически нормальное (1.3) 2 exp 2 ⎛ ⎞ σ μ − ⎜ ⎟ ⎝ ⎠ ( ) ( ) 2 2 exp 2 exp 1 μ + σ × × σ − ( ) ( ) 2 2 exp 2 exp 1 ⎡ ⎤ σ + × ⎣ ⎦ × σ − В статистическом анализе используются следующие распределения. Распределение Пирсона ( 2 χ -распределение) – распределение суммы квадратов нормально распределенных случайных величин 1 2 , ,..., k U U U с математическими ожиданиями 0 i u µ = и стандартными отклоне- ниями 1 i u σ = ( 1, 2,..., i k = ). 2 2 2 2 1 2 ... k U U U χ = + + + . (1.4) Параметр распределения k ν ≤ – число степеней свободы (ч.с.с.). 2 χ -распределение – частный случай гамма-распределения с пара- метрами 1 2 λ = и 2 b = ν . Распределение Стьюдента (t-распределение) – распределение случайной величины 0 2 2 2 1 2 ( ... ) k U t U U U = + + + ν , (1.5) где 0 1 , ,..., k U U U – нормально распределенные случайные величины. Параметр распределения – ч.с.с. k ν ≤ . Распределение Фишера (F-распределение) – распределение слу- чайной величины 2 2 2 1 2 1 2 2 2 1 2 2 ( ... )/ ( ... )/ k m U U U F V V V + + + ν = + + + ν , (1.6)
где 1 1 ,..., , ,..., k m U U V V – нормально распределенные случайные вели- чины. Параметры распределения – 1 k ν ≤ – ч.с.с. среднего квадрата в числителе, 2 m ν ≤ – ч.с.с. среднего квадрата в знаменателе. Функция распределения случайной величины Х, имеющей плот- ность распределения ( ) w x по значению аргумента х, вычисляет ве- роятность р того, что : X x ≤ ( )d x p w u u −∞ = ∫ , (1.7) а обратная функция распределения по величине вероятности р рас- считывает значение аргумента функции распределения х. В табл. 1.2 приведены встроенные функции программы Excel, рассчитывающие рассмотренные функции распределений. Таблица 1.2 Плотность распределения Функция распределения Обратная функция распределения Нормальное, μ – математическое ожидание, σ – стандартное отклонение НОРМРАСП(x; μ; σ;0) НОРМРАСП(x; μ; σ; 1) НОРМОБР(p; μ; σ) Гамма, λ – масштабный параметр, b – параметр формы ГАММАРАСП(x;b;1/λ;0) ГАММАРАСП(x; b; 1/λ; 1) ГАММАОБР(p; b; 1/λ) Экспоненциальное, λ – параметр распределения ЭКСПРАСП(х; λ;0) ЭКСПРАСП(х; λ;1) ГАММАОБР(p; 1; 1/λ) Логарифмически нормальное, μ, σ – параметры ЛОГНОРМРАСП(x; μ; σ) ЛОГНОРМОБР(p; μ; σ) χ2-распределение (Пирсона), ν – число степеней свободы 1−ХИ2РАСП(x; ν) ХИ2ОБР(1−p; ν) t-распределение (Стьюдента), ν – число степеней свободы СТЬЮДРАСП(−x; ν; 1), если х < 0; 1-СТЬЮДРАСП(x; ν; 1), если х ≥ 0 −СТЬЮДРАСПОБР(2p; ν), если р ≤ 0,5; СТЬЮДРАСПОБР(2(1–p); ν), если р > 0,5 F-распределение (Фишера), ν1, ν2 – числа степеней свободы 1−FРАСП(x; ν1; ν2) FРАСПОБР(1−p; ν1; ν2) Функции распределения используются в расчетах уровней значимо- сти статистических критериев. Приводимые в статистических таблицах значения обратных функций распределения называются квантилями (иначе – процентными точками) распределений и обозначаются хр.
1.2. Описательная статистика Цель описательной статистики – получить общее представление о выборке 1 2 , ,..., n x x x и оценить ее основные параметры. Считаем все наблюдения независимыми и равноточными. По выборке оцениваются: выборочное среднее – оценка математического ожидания x µ , 1 1 n i i x x n = = ∑ ; (1.8) выборочная дисперсия – оценка дисперсии генеральной совокуп- ности 2 x σ , 2 2 1 1 ( ) 1 n x i i s x x n = = − − ∑ ; (1.9) выборочное стандартное отклонение – оценка стандартного от- клонения генеральной совокупности x σ , 2 2 1 1 ( ) 1 n x x i i s s x x n = = = − − ∑ ; (1.10) выборочный коэффициент асимметрии – оценка коэффициента асимметрии генеральной совокупности x γ , 3 1 3 2 2 1 ( ) 1 2 ( ) n i i x n i i x x n n g n x x = = − − = − ⎡ ⎤ − ⎢ ⎥ ⎣ ⎦ ∑ ∑ . (1.11) Далее применительно к оценкам будем опускать слово «выборочная». Иногда как дополнительная характеристика рассчитывается ко- эффициент вариации x x s v x = . Он показывает, какую долю среднего составляет его стандартное отклонение, служит мерой относительного разброса данных. Также определяются максимальное и минимальное значения выборки и их разность – размах.
Оценки (1.8) – (1.11) называются точечными, так как они оцени- вают параметры генеральной совокупности одним числом. При этом неясно, насколько отличается оценка от истинного значения пара- метра генеральной совокупности. Интервальные оценки определяют границы интервала, в который истинное значение параметра гене- ральной совокупности попадает с заданной вероятностью Р, назы- ваемой доверительной. Наиболее употребительна интервальная оценка математического ожидания x μ . Она основана на том, что величина x x x T s n − µ = (1.12) является случайной величиной типа (1.5) и подчиняется распределе- нию Стьюдента с 1 n ν = − степенями свободы (ч.с.с. дисперсии 2 x s ). Рис. 1.1. Плотность распределения Стьюдента Выберем доверительную вероятность Р, и пусть 1 P α = − . Найдем квантиль распределения Стьюдента 1 / 2 t −α . Плотность распределения Стьюдента ( ) w t симметрична относительно 0 t = , поэтому квантиль / 2 1 /2 t t α −α = − (рис. 1.1). Случайная величина Т находится в интервале /2 1 /2 ( ; ) t t α −α с вероятностью Р. Тогда математическое ожидание x µ с той же доверительной вероятностью Р находится внутри интервала ( ; ) x x x x − Δ + Δ , где
1 /2 x x t s n −α Δ = (1.13) – полуширина доверительного интервала. Преобразование выборки i x ( 1, 2,..., i n = ) в выборку i z , где i i x x x z s − = , (1.14) называется стандартизацией. Данные стандартизованной выборки безразмерные, единица их измерения – собственное стандартное от- клонение x s . Среднее значение стандартизованной выборки 0 z = , а стандартное отклонение 1 z s = . Представляют интерес минимальное и максимальное стандартизованные значения. Они показывают, на сколько стандартных отклонений крайние значения выборки отли- чаются от ее среднего значения. При первичном анализе данных кроме точечных и интервальных оценок рассчитывается и строится гистограмма распределения, дающая наглядное представление о распределении данных. Для это- го диапазон изменения выборки разбивается на m равных интервалов и подсчитывается число данных в каждом интервале 1 2 , ,..., m n n n . Да- лее строится график, обычно столбчатая диаграмма, где границы ин- тервалов откладываются по горизонтальной оси, а величины i n – по вертикальной. Пусть данные 1 2 , ,..., n x x x находятся в диапазоне ячеек А1:Аn ра- бочего листа Excel. Для вычисления оценок используются следую- щие функции Excel: среднее значение (1.8) – СРЗНАЧ(А1:Аn); дисперсия (1.9) – ДИСП(А1:Аn); стандартное отклонение (1.10) – СТАНДОТКЛОН(А1:Аn); коэффициент асимметрии (1.11) – СКОС(А1:Аn). Величина 1 /2, t −α ν , необходимая для расчета границ 100Р%-ного доверительного интервала (1.13), рассчитывается обратной функцией t-распределения СТЬЮДРАСПРОБР(1 – Р,ν). Гистограмма распределения рассчитывается функцией ЧАСТОТА(А1:Аn; В1:Вm). Функция ЧАСТОТА возвращает m + 1 значение, каждое из которых – число данных из выборки 1 2 , ,..., , n x x x попавших в интервалы, границы которых записаны в ячейках В1:Вm. Первым считается интервал (–∞; В1], последним – интервал (Вm:∞).
Доступ онлайн
В корзину