Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Анализ данных в материаловедении. Часть 2. Регрессионный анализ

Покупка
Артикул: 751047.01.99
Доступ онлайн
2 000 ₽
В корзину
Во второй части пособия рассмотрены практические вопросы регрессионного анализа, включая линейную и нелинейную регрессию, регрессию ортогональными полиномами, множественную регрессию. По всем темам приводятся краткие теоретические сведения и примеры решения реальных задач из металлургии и материаловедения в программе Excel. В пособие включены задания для самостоятельной работы. Предназначено для выполнения курсовых и дипломных исследовательских работ бакалаврами и магистрами, обучающимися по направлениям «Материаловедение» и «Металлургия». Может быть использовано аспирантами в области металлургии и материаловедения.
Мельниченко, А. С. Анализ данных в материаловедении. Часть 2. Регрессионный анализ : учебное пособие / А. С. Мельниченко. - Москва : Изд. Дом МИСиС, 2014. - 87 с. - ISBN 978-5-87623-775-0. - Текст : электронный. - URL: https://znanium.com/catalog/product/1222920 (дата обращения: 22.11.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
ǘǔǙǔǝǞǑǜǝǞǎǚ ǚǍǜnjǓǚǎnjǙǔǫ ǔ Ǚnjǟǖǔ ǜǠ 
ȱ 2381 
ǠǑǐǑǜnjǗǨǙǚǑ ǏǚǝǟǐnjǜǝǞǎǑǙǙǚǑ njǎǞǚǙǚǘǙǚǑ ǚǍǜnjǓǚǎnjǞǑǗǨǙǚǑ ǟǣǜǑǒǐǑǙǔǑ  
ǎǧǝǤǑǏǚ ǛǜǚǠǑǝǝǔǚǙnjǗǨǙǚǏǚ ǚǍǜnjǓǚǎnjǙǔǫ  
«ǙnjǢǔǚǙnjǗǨǙǧǕ ǔǝǝǗǑǐǚǎnjǞǑǗǨǝǖǔǕ ǞǑǡǙǚǗǚǏǔǣǑǝǖǔǕ ǟǙǔǎǑǜǝǔǞǑǞ «ǘǔǝǴǝ» 
ǖǬȀDZǰǼǬ ǸDZǾǬǷǷǺǮDZǰDZǹǴȋ Ǵ ȀǴdzǴǶǴ ǻǼǺȃǹǺǽǾǴ
 
nj.ǝ. ǘDZǷȈǹǴȃDZǹǶǺ 
 
 
 
 
njǹǬǷǴdz  ǰǬǹǹȇȁ 
Ǯ  ǸǬǾDZǼǴǬǷǺǮDZǰDZǹǴǴ 
 
ǣǬǽǾȈ 2. ǜDZǯǼDZǽǽǴǺǹǹȇǵ ǬǹǬǷǴdz 
 
ǟȃDZǭǹǺDZ ǻǺǽǺǭǴDZ 
 
 
ǐǺǻǿȅDZǹǺ ǿȃDZǭǹǺ-ǸDZǾǺǰǴȃDZǽǶǴǸ ǺǭȆDZǰǴǹDZǹǴDZǸ 
ǻǺ ǺǭǼǬdzǺǮǬǹǴȊ Ǯ ǺǭǷǬǽǾǴ ǸDZǾǬǷǷǿǼǯǴǴ Ǯ ǶǬȃDZǽǾǮDZ 
ǿȃDZǭǹǺǯǺ ǻǺǽǺǭǴȋ ǰǷȋ ǽǾǿǰDZǹǾǺǮ ǮȇǽȄǴȁ ǿȃDZǭǹȇȁ dzǬǮDZǰDZǹǴǵ, 
ǺǭǿȃǬȊȅǴȁǽȋ ǻǺ ǹǬǻǼǬǮǷDZǹǴȊ ǘDZǾǬǷǷǿǼǯǴȋ 
 
ǘǺǽǶǮǬ  2014 


УДК 620.22 
 
М48 
Р е ц е н з е н т  
канд. техн. наук, доц. С.Н. Богданов 
Мельниченко, А.С. 
М48  
Анализ  данных в  материаловедении. Ч. 2.  Регрессионный 
анализ : учеб. пособие / А.С. Мельниченко. – М. : Изд. Дом 
МИСиС, 2014. – 87 с. 
ISBN 978-5-87623-775-0 
Во второй части пособия рассмотрены практические вопросы регрессионного анализа, включая линейную и нелинейную регрессию, регрессию ортогональными полиномами, множественную регрессию. По всем темам приводятся краткие теоретические сведения и примеры решения реальных задач 
из металлургии и материаловедения в программе Excel. В пособие включены 
задания для самостоятельной работы.  
Предназначено для выполнения курсовых и дипломных исследовательских работ бакалаврами и магистрами, обучающимися по направлениям «Материаловедение» и «Металлургия». Может быть использовано аспирантами в 
области металлургии и материаловедения. 
УДК 620.22 
 
 
 
ISBN 978-5-87623-775-0 
© А.С. Мельниченко, 2014 
2 


ОГЛАВЛЕНИЕ 
Предисловие..............................................................................................4 
6. Регрессионная модель..........................................................................5 
6.1.  Метод наименьших квадратов ...................................................5 
6.2.  Анализ регрессионной модели...................................................6 
6.3.  Регрессионный анализ в программе Excel ..............................11 
7. Линейная регрессия............................................................................13 
7.1.  Линейная модель .......................................................................13 
7.2.  Общая модель линейной регрессии.........................................20 
7.3.  Регрессия двумя функциями ....................................................28 
8. Ортогональные базисные функции...................................................36 
8.1.  Регрессия ортогональными базисными функциями ..............36 
8.2.  Ортогональные полиномы........................................................38 
8.3.  Ортогональные тригонометрические функции ......................50 
9. Нелинейная регрессия........................................................................59 
10. Множественная регрессия ...............................................................71 
Библиографический список  .................................................................86 
 
3 


ПРЕДИСЛОВИЕ 
Во второй части учебного пособия рассмотрены практические задачи регрессионного анализа. Цель второй части пособия, как и первой [1], – дать возможность студентам, выполняющим курсовые и 
дипломные исследовательские работы, проводить регрессионный 
анализ, используя вычислительные средства Excel и не прибегая к 
другим программам и статистическим таблицам. Структура второй 
части пособия аналогична структуре первой части – краткое теоретическое введение и подробный разбор типичных примеров, заимствованных из материаловедческой практики. Более полно с теорией регрессионного анализа можно ознакомиться в учебнике [2] или фундаментальном труде [3].  
Поскольку вторая часть пособия является продолжением первой, 
нумерация глав в обеих частях – сплошная, а ссылки в тексте на разделы и формулы из первой части даются без указания источника. Во 
второй части действует то же правило ссылок в формулах: если формула или функция относится к диапазону ячеек, то она приводится 
только для верхней левой ячейки диапазона, а на остальные ячейки 
распространяется копированием.  
4 


6. РЕГРЕССИОННАЯ МОДЕЛЬ 
6.1. Метод наименьших квадратов 
Цель регрессионного анализа – построение по экспериментальным данным аналитической (формульной) зависимости переменной 
Y  – свойства – от независимой переменной Х – фактора. Предполагается, что зависимая переменная Y содержит случайную ошибку, причины которой многообразны, например, сам метод измерений, фиксирующий случайный поток импульсов, влияние неучтенных в эксперименте факторов, нестабильность работы измерительных приборов и др. Фактор Х изменяется в определенных границах и не является случайным в том смысле, что ошибка его измерения много меньше интервала его варьирования. Зависимость между переменными Х 
и Y (математическая модель) ищется в виде  
 
0
1
(
,
,...,
,
)
p
Y
F
X
!
F F
F
. 
(6.1)                   
Здесь F – известная функция переменной Х, содержащая 
1
p   неопределенных независимых параметров 
0
1
,
,...,
p
F F
F . Эти параметры 
оцениваются по результатам n (
1)
n
p
"

 пар наблюдений фактора Х 
и зависимой переменной Y 
,
(
1, 2,..., )
i
i
x y
i
n
!
 методом наименьших 
квадратов (МНК).  
МНК оценки параметров 
0
1
,
,...,
p
F F
F  – значения 
0
1
,
,...,
p
b b
b , минимизирующие сумму квадратов разностей наблюдаемых значений 
свойства 
i
y  
и 
рассчитанных 
по 
модели 
(6.1) 
величин 
0
1
(
,
,...,
,
)
i
p
i
Y
F b b
b
x
!
: 
n
n
 
<
>
0


2
2
2
0
1
,...,
1
1
min
(
,
, ...,
,
)
p
i
i
i
p
i
i
i
S
y
Y
y
F
x
F
F
F F
F
£
²
¦
¦
¦
¦
 
¯




¤
»
¡
°
¢
±
¦
¦
¦
¦
¥
¼
œ
œ
. 
 (6.2) 
Уравнение 
(6.1) 
называется 
уравнением 
регрессии, 
функция 
0
1
(
,
, ...,
,
)
p
F
X
F F
F
 – функцией регрессии, а оценки 
0
1
,
, ...,
p
b b
b  – 
коэффициентами регрессии.  
Если функция регрессии линейна относительно параметров 
0
1
,
,...,
p
F F
F : 
 
0
1
0
1 1
(
,
, ...,
,
)
(
)
...
(
)
k
p
p
F
X
f X
f
X
F F
F
!F F

F
, 
(6.3) 
5 


то регрессия называется линейной. В противном случае – нелинейной. 
В моделях линейной регрессии все функции 
1
2
(
),
(
),...,
(
)
p
f X
f
X
f
X , 
называемые базисными, полностью определены, а оцениваемые параметры 
0
1
,
,...,
p
F F
F  не являются их аргументами. Такая структура 
функции регрессии позволяет рассчитать 
1
p   коэффициент регрессии 
0
1
,
, ...,
p
b b
b  путем решения системы линейных уравнений независимо от вида базисных функций. В моделях нелинейной регрессии 
нет единого метода расчета коэффициентов регрессии; в большинстве случаев минимизация суммы 
2
S  (6.2) по параметрам 
0
1
,
,...,
p
F F
F  
проводится численно. 
6.2. Анализ регрессионной модели 
После расчета коэффициентов регрессии 
0
1
,
, ...,
p
b b
b  проводится 
анализ качества полученной модели, поскольку даже при наилучших 
МНК 
оценках 
рассчитанные 
по 
модели 
значения 
i
Y !  
= 
0
1
(
,
,...,
,
)
p
i
F b b
b
x
 могут значительно отличаться от наблюдаемых 
i
y , 
если сама функция регрессии 
0
1
(
,
, ...,
,
)
p
F
X
F F
F
 выбрана неудачно.  
Используются следующие характеристики качества регрессионной модели:  
Остаточная дисперсия  
n
 
2
2
1
(
)
(
1)
s
y
Y
n
p




 œ
.  
 (6.4) 
1
e
i
i
i
Остаточная дисперсия – дисперсия наблюдений 
i
y  относительно модели, характеристика разброса наблюдений вокруг модели. Число, 
стоящее в знаменателе, 
 
(
1)
e
n
p
R !


 
(6.5) 
называется числом степеней свободы (ч.с.с.) остаточной дисперсии. 
Остаточная дисперсия и остаточное стандартное отклонение  
n
 
2
2
1
(
)
(
1)
s
s
y
Y
n
p





 œ
 
 (6.6) 
e
e
i
i
i
1
служат для сравнения различных регрессионных моделей и для вычисления других характеристик качества модели. 
6 


Множественный коэффициент детерминации 
n
2

Y
y
	


2
1

R
, 
 (6.7) 
 
i
i
n
2

œ
y
y
	

œ

i
i
1
1
n
где среднее 
1
i
i
y
y
n

 œ
. Коэффициент 
2
R  (
2
0
1
R
g
g ) характеризует долю суммы квадратов отклонений наблюдений yi от среднего y , 
объясняемую регрессионной моделью. Коэффициент 
n
2

Y
y
	


1

 
  
 (6.8) 
R
i
i
n
2

œ
y
y
	

œ

1
i
i
называется множественным коэффициентом корреляции. Это парный коэффициент корреляции между наблюдаемыми yi и предсказанными моделью Yi значениями: R = ryY (его также можно рассчитать по (5.4) именно как ryY). Если R2 и R близки к единице, то предсказанные величины Yi близки к наблюдаемым yi. Наблюдения yi  содержат случайные ошибки. Поэтому модель с высокими R2 и R, но 
малым числом степеней свободы νe, необязательно наилучшая. Кроме функциональной зависимости свойства от фактора, такая модель 
может описывать и случайные отклонения от нее.   
F-критерий значимости регрессии 
2
 
2
r
s
F
s
!
. 
 (6.9) 
e
Здесь 
2
r
s  – средний квадрат отклонений модели от среднего y  (средний квадрат, обусловленный регрессией): 
1
n
 
	

2
2
s
Y
y
p



œ
.  
 (6.10) 
r
i
i
1
Число его степеней свободы  
7 


 
r
p
R 
.    
  (6.11) 
Если дисперсия в числителе значимо больше дисперсии в знаменателе F-критерия (6.9), то регрессионная модель описывает наблюдения 
значимо лучше, чем просто среднее y . По постановке задачи 
F-критерий (6.9) является односторонним, поэтому риск ошибочного 
отклонения гипотезы о равенстве дисперсий (уровень значимости 
критерия) ( )
F
E
 вычисляется как 
F
w
u
u
E
 
( )
( )d
F
d
¨
, 
(6.12) 
F
где 
( )
F
w
u  – плотность распределения Фишера. Если риск (6.12) мал 
(например, меньше 0,05), то дисперсия 
2
r
s  значимо больше остаточной дисперсии 
2
e
s  и регрессия значима. 
Значимость коэффициентов регрессии 
Коэффициенты регрессии 
0
1
,
, ...,
p
b b
b  рассчитываются по результатам эксперимента, содержащим случайные ошибки, поэтому сами 
являются случайными величинами – оценками некоторых истинных 
значений. Как и всякие оценки, они могут незначимо отличаться от 
нуля. Для проверки этого рассчитываются их стандартные ошибки. В 
моделях линейной регрессии (6.3) эти ошибки 
 
j
b
jj e
s
c s
=
,   
 (6.13) 
где коэффициенты cjj вычисляются в процессе решения системы линейных уравнений для коэффициентов регрессии. Ниже в отдельных 
случаях приводятся явные выражения для 
.
j
b
s
 
Далее вычисляются t-критерии коэффициентов регрессии 
j
 
b
t
s

 
(6.14)  
j
b
j
и риск ошибочного отклонения гипотезы о равенстве нулю коэффициента регрессии (уровень значимости t-критерия) 
( )
j
t
E
 (2.5) с ч.с.с. 
остаточной дисперсии 
e
R . Если уровень значимости 
( )
j
t
E
 превосходит некоторое заданное значение, то коэффициент регрессии 
j
b  незначимо отличается от нуля, и его можно приравнять к нулю. Исключение части коэффициентов регрессии упрощает модель, но изменяет саму модель. Поэтому после исключения надо повторить всю 
процедуру регрессионного анализа с новой моделью.   
8 


Анализ остатков. Остатками называются разности между наблюдаемыми 
i
y  и рассчитанными по модели 
i
Y  значениями зависимой 
переменной: 
 
i
i
i
e
y
Y


. 
 (6.15) 
Метод наименьших квадратов предполагает, что остатки являются 
нормально распределенными случайными величинами. Если единственная причина отклонения модели от наблюдений – экспериментальный случайный разброс, то и последовательность остатков является случайной. Для проверки этого строится точечный график зависимости остатков ei от значений фактора xi. Точки на графике должны только случайно отклоняться от нулевой линии и располагаться 
без видимых закономерностей, трендов или периодичностей. Если 
это не так, то регрессионная модель не полностью описывает зависимость свойства от фактора и является неадекватной.  
Для оценки близости распределения остатков к нормальному распределению строится нормальный вероятностный график. Сначала 
определяется ранг остатка j (
1, 2, ...,
j
n

) – его номер в упорядоченном по возрастанию ряду остатков, затем  по величине ранга  j  рассчитывается квантиль нормального распределения                            
er
1 3
1, ,
3
1
( )
 
¬

-
ž
-
ž
-
ž
Ÿ
®


,   
   (6.16) 
 
j
W
e s
n
z j
s
er
где W
−1 – обратная функция нормального распределения с выборочn
ным средним остатков 

œ
 и выборочным стандартным отклоi
i
e
e
1
нением остатков  
n
2
 
	

1
1
s
e
e
n



 œ
.  
 (6.17) 
1
er
i
i
Далее строится точечный график в координатах е – z. Если распределение остатков близко к нормальному, точки на этом графике 
группируются около прямой. Если точки систематически отклоняются от прямой (часто в виде буквы S), то распределение остатков отличается от нормального. 
 
9 


Доступ онлайн
2 000 ₽
В корзину