Обработка экспериментальных данных. Часть 2
Покупка
Год издания: 2018
Кол-во страниц: 136
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-7882-2262-2
Артикул: 788062.01.99
Приведен теоретический материал по обработке экспериментальных данных из различных сфер производственной деятельности, построению регрессионных линейных, нелинейных и много факторных моделей: рассмотрены примеры выполнения лабораторных работ. Для оценки уровня усвоения студентами пройденного материала предложены варианты заданий для самостоятельной работы.
Предназначено для студентов, обучающихся по направлениям подготовки 22.03.01 «Материаловедение и технологии материалов», 18.03.01 «Химическая технология», 28.03.02 «Наноинженерия».
Подготовлено на кафедре информатики и прикладной математики.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 18.03.01: Химическая технология
- 22.03.01: Материаловедение и технологии материалов
- 28.03.02: Наноинженерия
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Министерство науки и высшего образования Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования «Казанский национальный исследовательский технологический университет» Р. Ф. Тазиева, А. Н. Титов ОБРАБОТКА ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ Часть 2 Учебное пособие Казань Издательство КНИТУ 2018
УДК 004.451.7(075) ББК 32.973.2я7 Т13 Печатается по решению редакционно-издательского совета Казанского национального исследовательского технологического университета Рецензенты: д-р техн. наук, проф. М. Х. Хайруллин канд. экон. наук О. С. Семичева Т13 Тазиева Р. Ф. Обработка экспериментальных данных : учебное пособие: в 2 ч. Ч. 2 / Р. Ф. Тазиева, А. Н. Титов; Минобрнауки России, Казан. нац. исслед. технол. ун-т. – Казань : Изд-во КНИТУ, 2018. – 136 с. ISBN 978-5-7882-2260-8 ISBN 978-5-7882-2262-2 (ч. 2) Приведен теоретический материал по обработке экспериментальных данных из различных сфер производственной деятельности, построению регрессионных линейных, нелинейных и многофакторных моделей; рассмотрены примеры выполнения лабораторных работ. Для оценки уровня усвоения студентами пройденного материала предложены варианты заданий для самостоятельной работы. Предназначено для студентов, обучающихся по направлениям подготовки 22.03.01 «Материаловедение и технологии материалов», 18.03.01 «Химическая технология», 28.03.02 «Наноинженерия». Подготовлено на кафедре информатики и прикладной математики. УДК 004.451.7(075) ББК 32.973.2я7 ISBN 978-5-7882-2262-2 (ч. 2) © Тазиева Р. Ф., Титов А. Н., 2018 ISBN 978-5-7882-2260-8 © Казанский национальный исследовательский технологический университет, 2018
ВВЕДЕНИЕ В первой части пособия рассмотрены вопросы первичной обработки экспериментальных данных: расчет выборочных характеристик статистического распределения, построение доверительных интервалов для оценки параметров, общий подход к проверке гипотез о законе распределения случайной величины (критерии согласия Пирсона, Романовского, Колмогорова–Смирнова, Ястремского и др.). Во второй части пособия рассматриваются вопросы корреляционной зависимости между независимыми (факторными) переменными Xi и зависимой (результативной) переменной Y; построения регрессионных моделей, исследования их свойств и выявления степени их соответствия опытным данным. Суть корреляционной взаимозависимости двух или нескольких случайных величин заключается в закономерном изменении результативных признаков при уменьшении или увеличении факторных. При расчете корреляций пытаются определить, существует ли статистически достоверная связь между двумя или несколькими переменными в одной или нескольких выборках. Например, взаимосвязь между успеваемостью и результатами выполнения теста IQ, между стажем работы и производительностью труда и т.д. В одних случаях связь (зависимость) между признаками оказывается очень тесной (например, часовая выработка и заработная плата), а в других случаях связь между признаками не обнаруживается или выражается очень слабо (например, пол студентов и их успеваемость). Чем теснее связь между признаками, тем точнее принимаемые решения и легче управление системами. После выявления и обоснования факторных признаков, оказывающих существенное влияние на результативную переменную, переходят непосредственно к построению модели регрессии. Построение однофакторных линейных и нелинейных моделей регрессии рассмотрено в главе 4. Глава 5 посвящена моделям множественной регрессии. Построение моделей множественной регрессии состоит из следующих этапов: 1) выбор формы связи (уравнения регрессии); 2) определение факторов, включаемых в модель; 3) определение параметров выбранного уравнения; 4) анализ качества уравнения и поверка адекватности уравнения эмпирическим данным.
4. ПОСТРОЕНИЕ РЕГРЕССИОННЫХ МОДЕЛЕЙ 4.1. Этапы решения задачи моделирования Часто на практике возникает следующая задача (рис. 4.1). Имеется объект исследования (ОИ), который характеризуется набором переменных: входных ( k i xi ,..., 2,1 , ) и выходной y. Рис. 4.1. Схема объекта исследования Требуется найти зависимость выходной переменной от входных ) ,..., , ( 2 1 kx x x f y . (4.1) При этом считается, что механизмы процессов, протекающих внутри объекта исследования, неизвестны, а имеются только соответствующие значения входных и выходных параметров. Такая задача носит название задачи «черного ящика». Рассмотрим простейший случай, когда на вход действует только одна переменная x и требуется найти ) (x f y . (4.2) Решение задачи моделирования в этом случае состоит из 4 этапов: 1) Проведение эксперимента. 2) Выбор вида экспериментальной зависимости. 3) Нахождение параметров выбранной зависимости. 4) Проверка адекватности модели и выводы. На первом этапе задаем значения входной переменной x из возможного диапазона и замеряем соответствующие значения выходной переменной y. Получаем таблицу: x x1 … xn y y1 … yn Если n велико, то для удобства работы экспериментальные данные можно сгруппировать, не забывая при этом, что группировка вносит погрешности в результаты вычислений. Результаты опытных данных в этом случае будут представлены в виде корреляционной таблицы
X Y ∆1 ∆2 … ∆k ∆k+1 11 n 12 n … k n1 … … … … … ∆k+m 1 m n 2 m n mk n Здесь ∆i – интервалы, в которые попали соответствующие значения переменной X ) ,1 ( k i и функции Y ) ,1 ( m k k i , nij – частота появления пары (xi ,yj). Обычно вместо самих интервалов берут значения их середины. Получают таблицу: X Y x1 x2 … xk y1 11 n 12 n … k n1 1p … … … … … ym 1 m n 2 m n mk n m p 1 w 2 w k w В этой таблице m i ij j n w 1 – частота признака xj, k j ij i n p 1 – частота признака yi , m i k j ij k j j m i i n w p n 1 1 1 1 – объем выборки. На втором этапе исследования возможны два случая: когда форма экспериментальной кривой известна, и когда она неизвестна. В последнем случае могут помочь рекомендации, приведенные в [1, 2], подсказки в справке Excel о выборе линии тренда, метод средних точек для выбора между некоторыми видами зависимостей (см. с. 66), а также интуитивные представления и опыт решения подобных задач другими исследователями [3, 4].
На практике чаще всего подходящий вид уравнения регрессии выбирают по виду расположения экспериментальных данных в корреляционном поле [5]. В основе регрессионного анализа лежит принцип наименьших квадратов, в соответствии с которым в качестве уравнения регрессии y=f(x) выбирается функция, доставляющая минимум сумме квадратов разностей n i i i y x f K 1 2] ) ( [ , а неизвестные коэффициенты сглажи вающей кривой y=f(x) находят из условия ее минимума. Так, если мы ищем кривую в виде bx e a y (см. с. 61), то из условия min K мы должны найти неизвестные коэффициенты a и b. Геометрически критерий метода наименьших квадратов означает: из всех кривых заданного вида выбирают ту, у которой сумма площадей квадратов отклонений – наименьшая. Если аргументом считать y, а x – функцией (то есть если искомую кривую ищут в виде x=g(y)), то говорят о регрессии X на Y. Отклонения в этом случае откладывают по оси X (рис. 4.3). Рис. 4.2. Регрессия Y на X
Рис. 4.3. Регрессия X на Y Количественной мерой рассеяния значений yi вокруг регрессии f(x) является дисперсия 2 1 1 [ ( ) ] n i i i D f x y n q , где q – число коэффициентов, входящих в аналитическое выражение регрессии [6]. Если искомое уравнение – алгебраический полином, то есть ) , ( ... ) ( 2 2 1 0 j p p c x Q x c x c x c c x f , (4.3) то задача поиска минимума K сводится к составлению и решению системы нормальных уравнений (4.5). При этом степень аппроксимирующего полинома p и число узлов таблицы n связаны соотношением p≤n-1. (4.4) Так, если функция задана в виде таблицы из пяти точек, то аппроксимировать ее можно полиномами до 4 степени включительно (p ≤ 4).
n i n i n i n i p i p p i p i i p i n i n i n i n i p i p i i i i n i n i n i p i p i i x c x c x c y x x c x c x c y x x c x c c n y 1 1 1 1 2 1 1 0 1 1 1 1 1 2 1 0 1 1 1 1 0 ... ..... .......... .......... .......... .......... .......... ... ... (4.5) Существуют и другие подходы к поиску коэффициентов сi в формуле (4.3): метод наименьших модулей, минимаксный подход к задаче аппроксимации и др. [6]. После того как модель построена, то есть найдены значения коэффициентов сi, необходимо удостовериться в ее качестве. С этой целью выполняют проверку адекватности модели объекту исследования, для которого она построена. Проверить адекватность модели – значит установить, насколько хорошо она описывает реальный процесс и можно ли ее использовать для прогнозирования развития данного процесса. Для того чтобы проверить адекватность модели, необходима некоторая экспериментальная информация, полученная на этапе функционирования системы или при проведении специального эксперимента. Проверка адекватности заключается в доказательстве факта, что точность результатов, полученных по модели, сопоставима с точностью расчетов, произведенных на основании экспериментальных данных. Процедура оценки адекватности разработанной модели реально существующей системе основана на сравнении измерений, полученных по реальной системе и результатов модельного эксперимента и может проводиться различными способами. Наиболее распространенные из них [7]: – по средним значениям откликов модели и системы; – дисперсиям отклонений откликов модели от среднего значения откликов системы; – максимальному значению относительных отклонений откликов модели от откликов системы. Адекватность математической модели в простейших случаях может быть установлена визуально путем сравнения экспериментальных значений yi co значениями f(xi) модельной функции в тех же точках таблицы.
Определенную информацию об адекватности уравнения регрессии дает исследование остатков вида ei=yi-f(xi). Наличие грубых отклонений (промахов, выбросов), не связанных с естественным разбросом, может приводить к существенным ошибкам при построении регрессии, что, в свою очередь, может привести к грубым ошибкам прогноза. Некоторые методы выявления выбросов: критерии Эктона, Титьена–Мура– Бекмана, Прескотта–Лунда и другие – рассмотрены в [6]. Одной из наиболее эффективных оценок адекватности регрессионной модели, мерой качества уравнения регрессии является коэффициент детерминации, определяемый по формуле 2 2 1 2 1 ( ) 1 , n i i i n i i y f x R y y (4.6) где n y y n i i 1 . В случае линейной связи между X и Y, учитывая, что n i n i n i i i i i x f y y x f y y 1 1 1 2 2 2 )) ( ( ) ) ( ( ) ( , R2 можно вычислить по формуле 2 2 1 2 1 ( ) . n i i n i i f x y R y y (4.7) R2 показывает, насколько предсказание по модели лучше, чем предсказание по среднему значению отклика [1]. R2 характеризует долю разброса отклика, описываемую регрессией, и лежит в пределах от 0 до 1. Чем ближе R2 к единице, тем лучше модель описывает экспериментальные данные. В более сложных случаях, в частности, когда данные заданы корреляционной таблицей, адекватность может быть установлена применением различных статистических критериев. Чаще всего для оценки адекватности регрессионной модели применяют критерий Фишера–Снедекора [6, 8].
Пояснение. Говорят, что случайная величина распределена по закону Фишера–Снедекора, если ее плотность распределения вычисляется по формуле 1 2 1 2 1 2 1 2 2 2 1 1 , 1 2 2 2 1 ( ) 1 , 0 , , 2 2 v v v v v v v v I x x x x v v v v B где v1 и v2 – параметры распределения; B(y,z) – бета-функция [2]. Математическое ожидание, дисперсия, мода и коэффициент асимметрии этого распределения равны соответственно .6 при ) 2 ( ) 6 ( ) 4 ( 8 2 2 ) ( .2 при 2 2 ) ( .4 при ) 4 ( ) 2 ( ) 2 ( 2 ) ( .2 при 2 ) ( 2 2 1 1 2 2 2 1 1 2 2 1 1 2 2 2 2 1 2 1 2 2 2 2 2 X A X Mo X D X M s Графики функции плотности распределения Фишера–Снедекора при различных значениях v1 и v2 приведены на рис. 4.4. Программа для построения графиков: clc scf(5) //Открываем окно номер 5 clf() //Очищаем его function y=fish(x,v1,v2) y=1/beta(v1/2,v2/2)*(v1/v2)^(v1/2*v2/2-1)*x.*(1+v1/v2*x)^(-(v1+v2)/2) endfunction x=0:.1:6; plot(x,fish(x,3,5),x,fish(x,2,3),x,fish(x,2,5)) //Построение графиков функции плотности распределения //Фишера–Снедекора при значениях v1 и v2, равным 3 и 5 для //первого графика, 2 и 3 для второго и 2 и 5 для третьего xgrid() legend('v1=3, v2=5','v1=2, v2=3', 'v1=2, v2=5')