Методы построения регрессионных моделей
Покупка
Основная коллекция
Издательство:
Новосибирский государственный технический университет
Автор:
Лисицин Даниил Валерьевич
Год издания: 2011
Кол-во страниц: 76
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
Профессиональное образование
ISBN: 978-5-7782-1621-1
Артикул: 636904.01.99
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 01.03.04: Прикладная математика
- ВО - Магистратура
- 01.04.04: Прикладная математика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Министерство образования и науки Российской Федерации НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ Д.В. лисицин МЕТОДЫ ПОСТРОЕНИЯ РЕГРЕССИОННЫХ МОДЕЛЕЙ Утверждено Редакционно-издательским советом университета в качестве учебного пособия НОВОСИБИРСК 2011
УДК 519.237(075.8) Л 632 Рецензенты: д-р техн. наук, профессор А. А Попов, канд. техн. наук, доцент В. С. Карманов Работа подготовлена на кафедре прикладной математики для студентов старших курсов, обучающихся по направлению «Прикладная математика и информатика» Лисицин Д.В. Л.632 Методы построения регрессионных моделей : учеб. пособие / Д.В. Лисицин. - Новосибирск : Изд-во НГТУ, 2011.-76 с. ISBN 978-5-7782-1621-1 В учебном пособии рассматриваются методы выбора структуры одномерных (однооткликовых) регрессионных моделей и методы построения многомерных (многооткликовых) регрессионных моделей (оценивание параметров, проверка гипотез, выбор структуры). Большое внимание уделяется способам организации эффективных вычислений при переборе структур. Пособие предназначено для студентов старших курсов, обучающихся по направлению «Прикладная математика и информатика». Оно будет полезно аспирантам и научным работникам, разрабатывающим или использующим статистические методы анализа данных. Лисицин Даниил Валерьевич МЕТОДЫ ПОСТРОЕНИЯ РЕГРЕССИОННЫХ МОДЕЛЕЙ Учебное пособие Редактор ИЛ. Кескееич Выпускающий редактор И.П. Броваиова Корректор Л.Н. Киншт Дизайн обложки А.В. Ладыжская Компьютерная верстка В.Н Зенина Подписано в печать 30.03.2011. Формат 60x84 1/16. Бумага офсетная. Тираж 70 экз. Уч.-изд. л. 4,41. Печ. л. 4,75. Изд. № 32. Заказ № Цена договорная Отпечатано в типографии Новосибирского государственного технического университета 630092, г. Новосибирск, пр. К. Маркса, 20 УДК519.237(075.8) ISBN 978-5-7782-1621-1 © Лисицин Д.В., 2011 © Новосибирский государственный технический университет, 2011
ВВЕДЕНИЕ В условиях большой сложности или недостаточной изученности объекта исследования построение математической модели основывается на концепции «черного ящика», когда исследователь фиксирует отклики, описание или прогноз которых он желает получить, и воздействующие на них факторы, а функция, описывающая механизм воздействия факторов на отклики, неизвестна. Часто исследователь может выделить достаточно большое количество факторов, влияющих на отклики. В качестве зависимости часто выбирают полиномиальные модели, количество регрессоров (функций факторов) в которых существенно больше, чем факторов. Однако не все регрессоры одинаково полезны для описания или прогнозирования значений откликов. Какие-то регрессоры являются полезными (информативными), какие-то - нет. Часто регрессоры оказываются взаимозависимыми и в модель достаточно включить только некоторые из них. Кроме того, исключение из модели части взаимозависимых и неинформативных регрессоров может улучшить статистические свойства оценок параметров модели. По указанным причинам выбор структуры модели является стандартным этапом в процедуре построения регрессионной модели. В учебном пособии главное внимание уделяется методам выбора структуры одномерных (однооткликовых) и многомерных (многооткликовых) регрессионных моделей и способам организации эффективных вычислений при переборе структур. Рассматриваются также методы оценивания параметров и проверки гипотез для многомерных регрессионных моделей. Отдельное внимание обращается на методы, реализованные в системе статистического анализа SAS. 3
1. МЕТОДЫ ПОСТРОЕНИЯ ОДНОМЕРНОЙ РЕГРЕССИОННОЙ МОДЕЛИ 1.1. ПОШАГОВЫЕ МЕТОДЫ ВЫБОРА СТРУКТУРЫ Пусть регрессионная модель имеет вид у = X ■ б + е , N х1 Nх т т х1 N х1 где у - вектор N значений отклика; X - матрица N значений т регрессоров; б = (0₁,...,бт)Т - вектор оцениваемых параметров; е -N -мерный вектор ошибок наблюдений. Ошибки являются некоррелированными одинаково распределенными случайными величинами с нулевым математическим ожиданием и дисперсией о² . Средства построения одномерной регрессионной модели имеются, пожалуй, во всех статистических пакетах общего назначения. Наиболее распространенными способами выбора структуры модели являются пошаговые методы, состоящие из шагов включения и исключения регрессоров [1, 4, 6, 7, 9, 17]. Выделяют три основных метода: метод включения, метод исключения и пошаговую регрессию. Метод исключения подразумевает процедуру последовательного удаления регрессоров из первоначально полной модели. Удаляются регрессоры, в наименьшей степени объясняющие отклик. Метод включения подразумевает процедуру последовательного добавления регрессоров в первоначально пустую модель. Добавляются регрессоры, в наибольшей степени объясняющие отклик. Под пустой моделью может подразумеваться модель, содержащая аддитивную постоянную. Обычно в статистических пакетах предпола 4
гается, что аддитивная постоянная всегда либо присутствует, либо отсутствует в модели, что пользователь должен специально указать. В дальнейшем будем предполагать, что аддитивная постоянная всегда присутствует в модели. Пошаговая регрессия является улучшенным вариантом метода включения. Улучшение состоит в том, что происходит дополнительное исследование на каждой стадии регрессоров, включенных в модель на предыдущих стадиях. Регрессор, который может быть наилучшим отдельным регрессором, достойным введения в модель на ранней стадии, на более поздней стадии может оказаться излишним из-за взаимосвязи между этим и другими регрессорами, содержащимися теперь в модели. В общем случае процедура начинается с произвольной модели и состоит из шагов включения и исключения регрессоров, чередующихся по определенным правилам. Выбор включаемого-исключаемого регрессора в пределах шага осуществляется в соответствии с минимумом остаточной суммы квадратов получаемой модели. Разные пошаговые методы могут приводить к различным решениям и не обеспечивают нахождение модели с минимальной остаточной суммой квадратов для фиксированного количества регрессоров. Все же часто получаемое решение близко к оптимальному, и поэтому данные методы считаются полезными на практике. Решение о включении-исключении регрессора или остановке процесса принимается на основе F -статистики проверки гипотезы о незначимое™ коэффициента, стоящего при этом регрессоре: н₀:еₖ = 0. В предположении нормальности ошибок наблюдений для проверки гипотезы Н₀ используется F -статистика вида RSSн - RSS F =------------, RSS/( N - п) где п - число регрессоров в модели (включая регрессор при еₖ); RSS - остаточная сумма квадратов модели без ограничения, накладываемого гипотезой, RSSН - остаточная сумма квадратов модели с ограничением, накладываемым гипотезой. 5
Обозначим g - значение остаточной суммы квадратов для текущей модели в пошаговом методе; h(к) - уменьшение g , вызываемое включением-исключением к -го регрессора (в случае исключения h(к) < 0); р - число регрессоров до включения-исключения регрессора. Тогда для случая исключения регрессора модель без ограничения должна перейти в модель с ограничением-. g = RSS, g -h(к) = RSSн, откуда h(к) = RSS - RSSн . В результате F -статистика исключения определяется формулой F„ га₍ к).- h ⁽к > . g/(N - р) Для случая включения регрессора модель с ограничением должна перейти в модель без ограничения'. g = RSS н, g - h (к) = RSS, откуда h(к) = RSSн -RSS. Как следствие, F -статистика включения определяется формулой F кл( к ) =-------—-----------[ g - h (к)]/[ N - (р +1)] (р +1 в знаменателе - количество регрессоров с учетом включенного регрессора Хк). Для исключения выбирается регрессор к *, предварительно включенный в модель, который определяется следующим образом: к * = min[ g - h (к)], к или к * = min[-h (к)], к 6
или к * = min FHCкл( к). к Согласно логике проверки гипотез гипотеза Н₀ должна приниматься (точнее, не отвергаться), тогда возможно исключать регрессор, поскольку он незначим: Дкл(к *) < /-,.<, где F^ - пороговое значение для исключения. Если minFHCю(к) > Ди\ю, к то все включенные регрессоры значимы, и исключать нечего. Для включения выбирается регрессор к *, для которого справедливо к * = min[ g - h (к)], к а следовательно, к * = max h (к) к И к * = max КК л (к). к Чтобы включить регрессор, гипотезу о незначимости коэффициента О к необходимо отвергнуть - коэффициент значим, т. е. Д м(к *) > I, где Д^д - пороговое значение для включения. И если max FBjjjj ⁽к⁾ < Д К₁, к то все невключенные регрессоры незначимы и никакой регрессор не может быть включен в модель. 7
При проверке гипотез величина вычисляемой F -статистики сравнивается с некоторым квантилем F -распределения. Однако в пошаговых методах на каждом шаге происходит выбор оптимального значения FB ₁<л (к *) или FHCм (к *), в связи с чем последние величины не подчиняются F -распределению. По этой причине величины Fkj и Fick., мы не называем квантилями. На практике значения Fкл и Fickjt либо выбирают постоянными, либо используют квантили, несмотря на некорректность этого. Формализуем набор правил, по которому происходит работа пошагового метода. 1. Исключается регрессор, приводящий к наименьшему увеличению остаточной суммы квадратов, если значение его F-статистики исключения ниже установленного порога. 2. Включается регрессор, приводящий к наибольшему уменьшению остаточной суммы квадратов, если значение его F-статистики включения не ниже установленного порога. 3. Правило 2 выполняется, только когда нет возможности выполнить правило 1. Если ни одно из них не может быть выполнено, наступает остановка. Таким образом, преимущество имеет шаг исключения. 1.2. ОРГАНИЗАЦИЯ ВЫЧИСЛЕНИЙ В ПОШАГОВЫХ МЕТОДАХ Рассмотрим организацию вычислений в пошаговых методах [7]. Определим оператор выметания. Пусть А - квадратная матрица, к -й диагональный элемент которой акк не равен нулю: акк Ф о. Результатом выметания матрицы А по ее к -му диагональному элементу является новая матрица А той же самой размерности с элементами ¹ а1к ~ ак ~ а1к ак/ акк =----, а гк =-,ак/ = , ау = ау----------, акк акк акк акк гхгх гхгх гхгх гхгх где i Ф к , j Ф к . 8