Анализ данных в материаловедении. Часть 2. Регрессионный анализ
Покупка
Тематика:
Материаловедение
Издательство:
Издательский Дом НИТУ «МИСиС»
Год издания: 2014
Кол-во страниц: 87
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-87623-775-0
Артикул: 751047.01.99
Во второй части пособия рассмотрены практические вопросы регрессионного анализа, включая линейную и нелинейную регрессию, регрессию ортогональными полиномами, множественную регрессию. По всем темам приводятся краткие теоретические сведения и примеры решения реальных задач из металлургии и материаловедения в программе Excel. В пособие включены задания для самостоятельной работы. Предназначено для выполнения курсовых и дипломных исследовательских работ бакалаврами и магистрами, обучающимися по направлениям «Материаловедение» и «Металлургия». Может быть использовано аспирантами в области металлургии и материаловедения.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 22.03.02: Металлургия
- ВО - Магистратура
- 22.04.02: Металлургия
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
ǘǔǙǔǝǞǑǜǝǞǎǚ ǚǍǜnjǓǚǎnjǙǔǫ ǔ Ǚnjǟǖǔ ǜǠ ȱ 2381 ǠǑǐǑǜnjǗǨǙǚǑ ǏǚǝǟǐnjǜǝǞǎǑǙǙǚǑ njǎǞǚǙǚǘǙǚǑ ǚǍǜnjǓǚǎnjǞǑǗǨǙǚǑ ǟǣǜǑǒǐǑǙǔǑ ǎǧǝǤǑǏǚ ǛǜǚǠǑǝǝǔǚǙnjǗǨǙǚǏǚ ǚǍǜnjǓǚǎnjǙǔǫ «ǙnjǢǔǚǙnjǗǨǙǧǕ ǔǝǝǗǑǐǚǎnjǞǑǗǨǝǖǔǕ ǞǑǡǙǚǗǚǏǔǣǑǝǖǔǕ ǟǙǔǎǑǜǝǔǞǑǞ «ǘǔǝǴǝ» ǖǬȀDZǰǼǬ ǸDZǾǬǷǷǺǮDZǰDZǹǴȋ Ǵ ȀǴdzǴǶǴ ǻǼǺȃǹǺǽǾǴ nj.ǝ. ǘDZǷȈǹǴȃDZǹǶǺ njǹǬǷǴdz ǰǬǹǹȇȁ Ǯ ǸǬǾDZǼǴǬǷǺǮDZǰDZǹǴǴ ǣǬǽǾȈ 2. ǜDZǯǼDZǽǽǴǺǹǹȇǵ ǬǹǬǷǴdz ǟȃDZǭǹǺDZ ǻǺǽǺǭǴDZ ǐǺǻǿȅDZǹǺ ǿȃDZǭǹǺ-ǸDZǾǺǰǴȃDZǽǶǴǸ ǺǭȆDZǰǴǹDZǹǴDZǸ ǻǺ ǺǭǼǬdzǺǮǬǹǴȊ Ǯ ǺǭǷǬǽǾǴ ǸDZǾǬǷǷǿǼǯǴǴ Ǯ ǶǬȃDZǽǾǮDZ ǿȃDZǭǹǺǯǺ ǻǺǽǺǭǴȋ ǰǷȋ ǽǾǿǰDZǹǾǺǮ ǮȇǽȄǴȁ ǿȃDZǭǹȇȁ dzǬǮDZǰDZǹǴǵ, ǺǭǿȃǬȊȅǴȁǽȋ ǻǺ ǹǬǻǼǬǮǷDZǹǴȊ ǘDZǾǬǷǷǿǼǯǴȋ ǘǺǽǶǮǬ 2014
УДК 620.22 М48 Р е ц е н з е н т канд. техн. наук, доц. С.Н. Богданов Мельниченко, А.С. М48 Анализ данных в материаловедении. Ч. 2. Регрессионный анализ : учеб. пособие / А.С. Мельниченко. – М. : Изд. Дом МИСиС, 2014. – 87 с. ISBN 978-5-87623-775-0 Во второй части пособия рассмотрены практические вопросы регрессионного анализа, включая линейную и нелинейную регрессию, регрессию ортогональными полиномами, множественную регрессию. По всем темам приводятся краткие теоретические сведения и примеры решения реальных задач из металлургии и материаловедения в программе Excel. В пособие включены задания для самостоятельной работы. Предназначено для выполнения курсовых и дипломных исследовательских работ бакалаврами и магистрами, обучающимися по направлениям «Материаловедение» и «Металлургия». Может быть использовано аспирантами в области металлургии и материаловедения. УДК 620.22 ISBN 978-5-87623-775-0 © А.С. Мельниченко, 2014 2
ОГЛАВЛЕНИЕ Предисловие..............................................................................................4 6. Регрессионная модель..........................................................................5 6.1. Метод наименьших квадратов ...................................................5 6.2. Анализ регрессионной модели...................................................6 6.3. Регрессионный анализ в программе Excel ..............................11 7. Линейная регрессия............................................................................13 7.1. Линейная модель .......................................................................13 7.2. Общая модель линейной регрессии.........................................20 7.3. Регрессия двумя функциями ....................................................28 8. Ортогональные базисные функции...................................................36 8.1. Регрессия ортогональными базисными функциями ..............36 8.2. Ортогональные полиномы........................................................38 8.3. Ортогональные тригонометрические функции ......................50 9. Нелинейная регрессия........................................................................59 10. Множественная регрессия ...............................................................71 Библиографический список .................................................................86 3
ПРЕДИСЛОВИЕ Во второй части учебного пособия рассмотрены практические задачи регрессионного анализа. Цель второй части пособия, как и первой [1], – дать возможность студентам, выполняющим курсовые и дипломные исследовательские работы, проводить регрессионный анализ, используя вычислительные средства Excel и не прибегая к другим программам и статистическим таблицам. Структура второй части пособия аналогична структуре первой части – краткое теоретическое введение и подробный разбор типичных примеров, заимствованных из материаловедческой практики. Более полно с теорией регрессионного анализа можно ознакомиться в учебнике [2] или фундаментальном труде [3]. Поскольку вторая часть пособия является продолжением первой, нумерация глав в обеих частях – сплошная, а ссылки в тексте на разделы и формулы из первой части даются без указания источника. Во второй части действует то же правило ссылок в формулах: если формула или функция относится к диапазону ячеек, то она приводится только для верхней левой ячейки диапазона, а на остальные ячейки распространяется копированием. 4
6. РЕГРЕССИОННАЯ МОДЕЛЬ 6.1. Метод наименьших квадратов Цель регрессионного анализа – построение по экспериментальным данным аналитической (формульной) зависимости переменной Y – свойства – от независимой переменной Х – фактора. Предполагается, что зависимая переменная Y содержит случайную ошибку, причины которой многообразны, например, сам метод измерений, фиксирующий случайный поток импульсов, влияние неучтенных в эксперименте факторов, нестабильность работы измерительных приборов и др. Фактор Х изменяется в определенных границах и не является случайным в том смысле, что ошибка его измерения много меньше интервала его варьирования. Зависимость между переменными Х и Y (математическая модель) ищется в виде 0 1 ( , ,..., , ) p Y F X ! F F F . (6.1) Здесь F – известная функция переменной Х, содержащая 1 p неопределенных независимых параметров 0 1 , ,..., p F F F . Эти параметры оцениваются по результатам n ( 1) n p " пар наблюдений фактора Х и зависимой переменной Y , ( 1, 2,..., ) i i x y i n ! методом наименьших квадратов (МНК). МНК оценки параметров 0 1 , ,..., p F F F – значения 0 1 , ,..., p b b b , минимизирующие сумму квадратов разностей наблюдаемых значений свойства i y и рассчитанных по модели (6.1) величин 0 1 ( , ,..., , ) i p i Y F b b b x ! : n n < > 0 2 2 2 0 1 ,..., 1 1 min ( , , ..., , ) p i i i p i i i S y Y y F x F F F F F £ ² ¦ ¦ ¦ ¦ ¯ ¤ » ¡ ° ¢ ± ¦ ¦ ¦ ¦ ¥ ¼ . (6.2) Уравнение (6.1) называется уравнением регрессии, функция 0 1 ( , , ..., , ) p F X F F F – функцией регрессии, а оценки 0 1 , , ..., p b b b – коэффициентами регрессии. Если функция регрессии линейна относительно параметров 0 1 , ,..., p F F F : 0 1 0 1 1 ( , , ..., , ) ( ) ... ( ) k p p F X f X f X F F F !F F F , (6.3) 5
то регрессия называется линейной. В противном случае – нелинейной. В моделях линейной регрессии все функции 1 2 ( ), ( ),..., ( ) p f X f X f X , называемые базисными, полностью определены, а оцениваемые параметры 0 1 , ,..., p F F F не являются их аргументами. Такая структура функции регрессии позволяет рассчитать 1 p коэффициент регрессии 0 1 , , ..., p b b b путем решения системы линейных уравнений независимо от вида базисных функций. В моделях нелинейной регрессии нет единого метода расчета коэффициентов регрессии; в большинстве случаев минимизация суммы 2 S (6.2) по параметрам 0 1 , ,..., p F F F проводится численно. 6.2. Анализ регрессионной модели После расчета коэффициентов регрессии 0 1 , , ..., p b b b проводится анализ качества полученной модели, поскольку даже при наилучших МНК оценках рассчитанные по модели значения i Y ! = 0 1 ( , ,..., , ) p i F b b b x могут значительно отличаться от наблюдаемых i y , если сама функция регрессии 0 1 ( , , ..., , ) p F X F F F выбрана неудачно. Используются следующие характеристики качества регрессионной модели: Остаточная дисперсия n 2 2 1 ( ) ( 1) s y Y n p . (6.4) 1 e i i i Остаточная дисперсия – дисперсия наблюдений i y относительно модели, характеристика разброса наблюдений вокруг модели. Число, стоящее в знаменателе, ( 1) e n p R ! (6.5) называется числом степеней свободы (ч.с.с.) остаточной дисперсии. Остаточная дисперсия и остаточное стандартное отклонение n 2 2 1 ( ) ( 1) s s y Y n p (6.6) e e i i i 1 служат для сравнения различных регрессионных моделей и для вычисления других характеристик качества модели. 6
Множественный коэффициент детерминации n 2 Y y 2 1 R , (6.7) i i n 2 y y i i 1 1 n где среднее 1 i i y y n . Коэффициент 2 R ( 2 0 1 R g g ) характеризует долю суммы квадратов отклонений наблюдений yi от среднего y , объясняемую регрессионной моделью. Коэффициент n 2 Y y 1 (6.8) R i i n 2 y y 1 i i называется множественным коэффициентом корреляции. Это парный коэффициент корреляции между наблюдаемыми yi и предсказанными моделью Yi значениями: R = ryY (его также можно рассчитать по (5.4) именно как ryY). Если R2 и R близки к единице, то предсказанные величины Yi близки к наблюдаемым yi. Наблюдения yi содержат случайные ошибки. Поэтому модель с высокими R2 и R, но малым числом степеней свободы νe, необязательно наилучшая. Кроме функциональной зависимости свойства от фактора, такая модель может описывать и случайные отклонения от нее. F-критерий значимости регрессии 2 2 r s F s ! . (6.9) e Здесь 2 r s – средний квадрат отклонений модели от среднего y (средний квадрат, обусловленный регрессией): 1 n 2 2 s Y y p . (6.10) r i i 1 Число его степеней свободы 7
r p R . (6.11) Если дисперсия в числителе значимо больше дисперсии в знаменателе F-критерия (6.9), то регрессионная модель описывает наблюдения значимо лучше, чем просто среднее y . По постановке задачи F-критерий (6.9) является односторонним, поэтому риск ошибочного отклонения гипотезы о равенстве дисперсий (уровень значимости критерия) ( ) F E вычисляется как F w u u E ( ) ( )d F d ¨ , (6.12) F где ( ) F w u – плотность распределения Фишера. Если риск (6.12) мал (например, меньше 0,05), то дисперсия 2 r s значимо больше остаточной дисперсии 2 e s и регрессия значима. Значимость коэффициентов регрессии Коэффициенты регрессии 0 1 , , ..., p b b b рассчитываются по результатам эксперимента, содержащим случайные ошибки, поэтому сами являются случайными величинами – оценками некоторых истинных значений. Как и всякие оценки, они могут незначимо отличаться от нуля. Для проверки этого рассчитываются их стандартные ошибки. В моделях линейной регрессии (6.3) эти ошибки j b jj e s c s = , (6.13) где коэффициенты cjj вычисляются в процессе решения системы линейных уравнений для коэффициентов регрессии. Ниже в отдельных случаях приводятся явные выражения для . j b s Далее вычисляются t-критерии коэффициентов регрессии j b t s (6.14) j b j и риск ошибочного отклонения гипотезы о равенстве нулю коэффициента регрессии (уровень значимости t-критерия) ( ) j t E (2.5) с ч.с.с. остаточной дисперсии e R . Если уровень значимости ( ) j t E превосходит некоторое заданное значение, то коэффициент регрессии j b незначимо отличается от нуля, и его можно приравнять к нулю. Исключение части коэффициентов регрессии упрощает модель, но изменяет саму модель. Поэтому после исключения надо повторить всю процедуру регрессионного анализа с новой моделью. 8
Анализ остатков. Остатками называются разности между наблюдаемыми i y и рассчитанными по модели i Y значениями зависимой переменной: i i i e y Y . (6.15) Метод наименьших квадратов предполагает, что остатки являются нормально распределенными случайными величинами. Если единственная причина отклонения модели от наблюдений – экспериментальный случайный разброс, то и последовательность остатков является случайной. Для проверки этого строится точечный график зависимости остатков ei от значений фактора xi. Точки на графике должны только случайно отклоняться от нулевой линии и располагаться без видимых закономерностей, трендов или периодичностей. Если это не так, то регрессионная модель не полностью описывает зависимость свойства от фактора и является неадекватной. Для оценки близости распределения остатков к нормальному распределению строится нормальный вероятностный график. Сначала определяется ранг остатка j ( 1, 2, ..., j n ) – его номер в упорядоченном по возрастанию ряду остатков, затем по величине ранга j рассчитывается квантиль нормального распределения er 1 3 1, , 3 1 ( ) ¬ - - - ® , (6.16) j W e s n z j s er где W −1 – обратная функция нормального распределения с выборочn ным средним остатков и выборочным стандартным отклоi i e e 1 нением остатков n 2 1 1 s e e n . (6.17) 1 er i i Далее строится точечный график в координатах е – z. Если распределение остатков близко к нормальному, точки на этом графике группируются около прямой. Если точки систематически отклоняются от прямой (часто в виде буквы S), то распределение остатков отличается от нормального. 9