Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Регрессионный анализ социально-экономических явлений и процессов

Покупка
Артикул: 800905.01.99
Доступ онлайн
400 ₽
В корзину
В учебном пособии изложены основы теории, связанной с построением регрессионных моделей, рассмотрены примеры эконометрического моделирования стоимости жилья, государственных расходов на образование, деятельности строительных организаций, приведено подробное описание проведения регрессионного анализа в системе STATISTICA и ППП MS Excel, а также представлены варианты заданий и исходные данные для самостоятельного компьютерного исследования студентами статистических зависимостей. Для студентов направлений подготовки 09.03.03 «Прикладная информатика», 38.03.01 «Экономика», 38.05.01 «Экономическая безопасность», 38.03.05 «Бизнес-информатика», изучающих дисциплины «Эконометрика», «Эконометрическое моделирование», может быть полезным для преподавателей, научных сотрудников и аспирантов, применяющих методы статистического моделирования в исследовании социально-экономических явлений и процессов.
Игнашева, Т. А. Регрессионный анализ социально-экономических явлений и процессов : учебное пособие / Т. А. Игнашева. - Йошкар-Ола : Поволжский государственный технологический университет, 2022. - 138 с. - ISBN 978-5-8158-2276-4. - Текст : электронный. - URL: https://znanium.com/catalog/product/1972673 (дата обращения: 21.11.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
Т. А. ИГНАШЕВА

РЕГРЕССИОННЫЙ АНАЛИЗ 

СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ 

ЯВЛЕНИЙ И ПРОЦЕССОВ

Учебное пособие

Йошкар-Ола 

2022

УДК 330.43(075.8)
ББК  65в6я73

И 26

Рецензенты:
профессор кафедры прикладной статистики и информатики Марийского
государственного университета, доктор экономических наук, доцент
А. В. Бурков;
профессор кафедры информационных систем в экономике Поволжского
государственного технологического университета, доктор экономических наук, профессор А. В. Швецов

Печатается по решению 

редакционно-издательского совета ПГТУ

Игнашева, Т. А.

И 26
Регрессионный анализ социально-экономических явлений и про
цессов: учебное пособие / Т. А. Игнашева. – Йошкар-Ола: Поволжский государственный технологический университет, 2022. – 138 с.
ISBN 978-5-8158-2276-4

В учебном пособии изложены основы теории, связанной с построением регрес
сионных моделей, рассмотрены примеры эконометрического моделирования стоимости жилья, государственных расходов на образование, деятельности строительных организаций, приведено подробное описание проведения регрессионного анализа в системе STATISTICA и ППП MS Excel, а также представлены варианты заданий и исходные данные для самостоятельного компьютерного исследования студентами статистических зависимостей.

Для студентов направлений подготовки 09.03.03 «Прикладная информатика», 

38.03.01 «Экономика», 38.05.01 «Экономическая безопасность», 38.03.05 «Бизнесинформатика», изучающих дисциплины «Эконометрика», «Эконометрическое моделирование», может быть полезным для преподавателей, научных сотрудников и 
аспирантов, применяющих методы статистического моделирования в исследовании 
социально-экономических явлений и процессов.

УДК 330.43(075.8)
ББК  65в6я73

ISBN 978-5-8158-2276-4
© Т. А. Игнашева, 2022
© Поволжский государственный 
технологический университет, 2022

ВВЕДЕНИЕ

В промышленной, инвестиционной сфере, строительстве, деятельно
сти сельскохозяйственного сектора экономики, маркетинговых и социологических исследованиях, при контроле качества в промышленности и 
других социально-экономических областях исследователь имеет дело с 
многомерными совокупностями, каждый объект наблюдения в которых 
характеризуется целым набором признаков. Процесс принятия решений 
в подобной ситуации подразумевает качественный, тщательный анализ 
информации, позволяющий выявить закономерности, взаимосвязи, зависимости между различными показателями.

На практике при исследовании взаимозависимостей между явлени
ями и признаками, их характеризующими, все больший интерес проявляется к статистическим методам, в частности, к регрессионному анализу, 
и к компьютерным программам для их реализации.

Пособие содержит основы теории, связанные с построением парных 

и многофакторных регрессионных моделей в линейной и нелинейной 
спецификации, методами проверки свойств оценок коэффициентов уравнений, примеры построения парных и множественных зависимостей, подробное описание проведения регрессионного анализа в системе 
Statistica и ППП MS Excel, а также варианты заданий и исходные данные 
для реализации ручного счета и компьютерного исследования студентами экономико-статистических взаимосвязей.

ППП Statistica и MS Excel, функционирующие в среде Windows, яв
ляются одними из наиболее доступных и признанных в мировой практике 
систем для анализа статистических зависимостей. Пакеты предоставляют 
пользователю уникальную среду, в которой статистическая обработка 
становится увлекательным исследованием с использованием новейших 
компьютерных технологий и современных методов.

Процесс построения моделей с помощью систем Statistica и MS Excel, 

как правило, включает следующие этапы:

−
ввод первичных статистических данных в систему;

−
преобразование выборки, адекватное выбранным методам моделирования;

−
визуализацию данных с помощью различных типов графиков;

−
реализацию алгоритма метода моделирования;

−
вывод результатов построения модели в виде графиков и электронных таблиц с численной и текстовой информацией;

−
интерпретацию полученных результатов.

Процесс построения моделей в ППП Statistica и MS Excel реализуется 

в соответствии с данными этапами.

Пособие написано с учетом опыта использования статистических па
кетов прикладных программ в учебном процессе по курсам «Методы социально-экономического прогнозирования», «Эконометрика», «Эконометрическое моделирование», читаемым для студентов направлений 
подготовки 09.03.03 «Прикладная информатика», 38.03.01 «Экономика», 
38.05.01 «Экономическая безопасность», 38.03.05 «Бизнес-информатика».

Пособие содержит достаточное количество иллюстраций и примеров, 

детальный перевод всех необходимых команд и терминов и призвано облегчить пользователям работу по исследованию социально-экономических явлений и процессов при использовании пакетов обработки данных.

Пособие предназначено для студентов, аспирантов, преподавателей и 

научных сотрудников, занимающихся применением методов моделирования при анализе социально-экономических процессов.

Глава 1

ВВЕДЕНИЕ В РЕГРЕССИОННЫЙ АНАЛИЗ

1.1. ПАРНАЯ РЕГРЕССИЯ

Регрессионный анализ представляет собой статистический метод 

анализа зависимости случайной величины y от переменных 𝑥, определяемых в качестве неслучайных величин в независимости от их истинного 
закона распределения.

Различие простой (парной) и множественной регрессии обусловлено 

числом объясняющих переменных, включаемых в уравнение регрессии.

Простая регрессия – это зависимость между двумя величинами 𝑦 и 

𝑥, т.е. модель вида

𝑦̂ = 𝑓(𝑥),

где 𝑦 – результативный признак (зависимая, объясняемая переменная);

𝑥 – признак-фактор (независимая, объясняющая переменная).
Множественная регрессия – это модель результативного признака 

от двух и более объясняющих переменных (регрессоров), т.е. уравнение 
вида

𝑦̂ = 𝑓(𝑥1, 𝑥2, … , 𝑥𝑛 ).

На практике в каждом отдельном случае величина результативного 

признака содержит два слагаемых:

𝑦𝑗 = 𝑦̂𝑥𝑗 + 𝜀𝑗,

где 𝑦𝑗 – наблюдаемая величина результативного признака;

𝑦̂𝑥𝑗 – расчетное (теоретическое) значение объясняемой переменной, 

найденное исходя из уравнения регрессии между 𝑦 и 𝑥;

𝜀𝑗 – случайная (стохастическая) компонента, называемая возмуще
нием. Данная величина характеризует отклонение наблюдаемой величины результативного признака от теоретического значения, найденного 
исходя из уравнения связи. Ее значение включает влияние неучтенных в 
модели факторов, случайных ошибок и особенностей измерения.

При построении парной модели выбор вида математической функции 

может быть осуществлен тремя способами:

- графическим;
- аналитическим;
- экспериментальным.

Линейная регрессия                                  Гиперболическая регрессия                  

𝑦̂𝑥 = 𝑎 + 𝑏𝑥
𝑦̂𝑥 = 𝑎 + 𝑏 ∙

1

𝑥

Степенная регрессия

𝑦̂𝑥 = 𝑎 ∙ 𝑥𝑏

В том случае если линия регрессии проходит через все точки диа
граммы рассеяния (корреляционного поля), то фактические значения результативного признака совпадают с расчетными величинами. Величина 
остаточной дисперсии в таком случае равна нулю. На практике, как правило, имеет место существование некоторого разброса точек относительно линии регрессии. Данное рассеивание обусловлено воздействием 
прочих неучтенных в регрессионной модели факторов, т.е. присутствуют 
отклонения фактических данных от теоретических значений (𝑦 − 𝑦̂𝑥). 

Численный размер отклонений представляет собой основу вычисле
ния остаточной дисперсии 

y
y

x
x
0
0

y

x
0

Дост = 1

𝑛 ∑(𝑦 − 𝑦̂𝑥)2.

Модель регрессии более точно описывает наблюдаемое явление при 

минимальной величине остаточной дисперсии. В случае моделирования 
данных с помощью ЭВМ производится перебор различных математических функций, и из них выбирают уравнение, для которого величина 
остаточной дисперсии минимальна. 

Модель регрессии в линейном виде сводится к уравнению вида 

𝑦̂𝑥 = 𝑎 + 𝑏𝑥 или 𝑦̂𝑥 = 𝑎 + 𝑏𝑥 + 𝜀.

Построение линейной регрессии представляет собой процесс оцени
вания ее параметров. Существуют различные подходы к оцениванию параметров линейной функции, при этом классический подход основан на 
методе наименьших квадратов (МНК). Данный метод позволяет определить такие оценки 𝑎 и 𝑏, при величине которых сумма квадратов отклонений наблюдаемых значений результативного признака y от теоретических величин 𝑦̂𝑥 будет минимальной:

∑(𝑦 − 𝑦̂𝑥)2 → min,

т.е. из всей совокупности прямых линий линия регрессии определяется 
таким образом, чтобы сумма квадратов расстояний по вертикали между 
точками, отстоящими от прямой регрессии, и данной линией была 
наименьшей: 𝜀𝑖 = 𝑦 − 𝑦̂𝑥, ∑ 𝜀𝑖

2 → min.

Для определения минимума функции требуется взять частные произ
водные по каждому из параметров 𝑎 и 𝑏 и приравнять их к нулю.

Обозначив ∑ 𝜀𝑖

2 через S, получим

𝑆 = ∑(𝑦 − 𝑦̂𝑥)2 = ∑(𝑦 − 𝑎 − 𝑏 ∙ 𝑥)2;

{

𝑑𝑆
𝑑𝑎 = −2 ∑ 𝑦 + 2 ∙ 𝑛 ∙ 𝑎 + 2 ∙ 𝑏 ∑ 𝑥 = 0,

𝑑𝑆
𝑑𝑏 = −2 ∑ 𝑦 ∙ 𝑥 + 2 ∙ 𝑎 ∑ 𝑥 + 2 ∙ 𝑏 ∑ 𝑥2 = 0.

В полученной системе разделим оба уравнения на 2, на основе чего 

формируется следующая система нормальных уравнений для оценки параметров 𝑎 и 𝑏:

{

𝑛𝑎 + 𝑏 ∑ 𝑥 = ∑ 𝑦,

𝑎 ∑ 𝑥 + 𝑏 ∑ 𝑥2 = ∑ 𝑦𝑥.

Решение указанной системы нормальных уравнений при их предвари
тельном делении на 𝑛 позволяет определить искомые оценки параметров 
𝑎 и 𝑏: 

𝑎 = 𝑦 − 𝑏 ⋅ 𝑥, 𝑏 = cov(𝑥, 𝑦)

𝜎𝑥2
= 𝑦 ∙ 𝑥
̅̅̅̅̅̅ − 𝑦̅ ∙ 𝑥̅

𝑥2
̅̅̅ − (𝑥̅)2 ,

где 𝑦 – среднее значение признака-результата;

𝑥 – среднее значение регрессора;
𝑦 ∙ 𝑥
̅̅̅̅̅̅ – среднее значение из произведений результата и регрессора;
𝑥2
̅̅̅ – среднее значение квадратов регрессора;
(𝑥̅)2 – квадрат среднего значения регрессора.
Коэффициент 𝑏 представляет собой коэффициент модели, величина 

которого характеризует среднее изменение объясняемой переменной при 
изменении объясняющей переменной на 1 единицу шкалы ее измерения.

Регрессионная модель обычно дополняется характеристиками тесноты 

взаимосвязи. В случае линейной регрессии тесноту связи изучаемых переменных оценивает линейный коэффициент парной корреляции

𝑟𝑥𝑦 = 𝑦 ∙ 𝑥
̅̅̅̅̅̅ − 𝑦̅ ∙ 𝑥̅

𝜎𝑥 ∙ 𝜎𝑦

= 𝑏 ∙ 𝜎𝑥

𝜎𝑦

,

где 𝜎𝑥 = √

1

𝑛 ∑
(𝑥𝑖 − 𝑥 )2
𝑛
𝑖=1
– среднеквадратическое отклонение признака
фактора;

𝜎𝑦 = √

1

𝑛 ∑
(𝑦𝑖 − 𝑦 )2
𝑛
𝑖=1
– среднеквадратическое отклонение результа
тивного признака.

Парный коэффициент корреляции изменяется в диапазоне [−1 ; + 1]. 

В том случае если коэффициент регрессии 𝑏 > 0, то 0 ≤ 𝑟𝑥𝑦 ≤ 1; при 
𝑏 < 0 парный коэффициент корреляции −1 ≤ 𝑟𝑥𝑦 ≤ 0.

Оценку качества подобранной линейной функции позволяет охарак
теризовать квадрат линейного коэффициента корреляции – коэффициент детерминации. Его величина определяет долю дисперсии результата, объясняемую регрессионной моделью, в общей дисперсии объясняемой переменной:

𝑟𝑥𝑦

2 =

𝜎𝑦объясн.

2

𝜎𝑦общ.

2
=

∑(𝑦̂𝑥 − 𝑦)2

∑(𝑦 − 𝑦)2 .

Величина (1 – 𝑟2) описывает долю дисперсии признака-результата y, 

определяемую воздействием остальных, не учтенных в модели факторов.

Оценить качество построенной модели возможно также при исполь
зовании средней ошибки аппроксимации – среднего отклонения теоретических величин от фактических данных:

𝐴 = 1

𝑛 ∑ |𝑦 − 𝑦

∧

𝑦
| ⋅ 100, %.

Допустимый предел значений 𝐴 варьирует в пределах 8-10 %.
Оценивание статистической значимости коэффициентов регрессии и 

корреляции основывается на использовании t-критерия Стьюдента и 
доверительных интервалов каждого из параметров модели. При этом 
выдвигается нулевая гипотеза 𝐻0 относительно случайной природы оцениваемых показателей, т.е. о незначимом их отличии от нуля. Далее на 
основе t-критерия Стьюдента производится сопоставление значений параметров модели и коэффициента корреляции с величиной случайной 
ошибки:

𝑡𝑎 = 𝑎

𝑚𝑎

;
𝑡𝑏 = 𝑏

𝑚𝑏

;
𝑡𝑟𝑥𝑦 = 𝑟𝑥𝑦

𝑚𝑟𝑥𝑦

.

Случайные ошибки оценок параметров линейной модели и коэффи
циента корреляции рассчитывают по формулам

𝑚𝑎 =

√((𝑦 − 𝑦̂𝑥)2/(𝑛 − 2)) ∙ ∑ 𝑥2

𝑛𝜎𝑥

;
𝑚𝑏 =

√((𝑦 − 𝑦̂𝑥)2/(𝑛 − 2))

𝜎𝑥√𝑛
;

𝑚𝑟𝑥𝑦 = √1 − 𝑟𝑥𝑦
2

𝑛 − 2 .

Из условия 𝑡табл (α; ν = n – 2) определяется критическое значение 

t-критерия.

Сравнение наблюдаемого и критического (табличного) значений 

t-критерия (|𝑡факт| и 𝑡табл) позволяет принять или отвергнуть нулевую гипотезу 𝐻0.

В случае если 𝑡табл < |𝑡факт|, то гипотеза 𝐻0 отклоняется, т.е. 𝑎, 𝑏 и 

𝑟𝑥𝑦 не случайным образом отличаются от нуля, а сформированы под 
воздействием систематически действующего фактора x. В случае если 
𝑡табл > |𝑡факт|, то нет оснований отклонить нулевую гипотезу 𝐻0, и признается случайная природа формирования 𝑎, 𝑏 или 𝑟𝑥𝑦.

Определение доверительных интервалов оценок параметров регрес
сии основано на вычислении предельной ошибки Δ для каждого показателя:

∆𝑎= 𝑡табл𝑚𝑎,
∆𝑏= 𝑡табл𝑚𝑏.

Формулы для расчета доверительных интервалов имеют следую
щий вид:

𝛾𝑎 = 𝑎 ± ∆𝑎;
𝛾𝑎min = 𝑎 − ∆𝑎;
𝛾𝑎max = 𝑎 + ∆𝑎;

𝛾𝑏 = 𝑏 ± ∆𝑏;
𝛾𝑏min = 𝑏 − ∆𝑏;
𝛾𝑏max = 𝑏 + ∆𝑏.

При попадании нулевого значения в границы доверительного, т.е. при 

фиксировании отрицательной нижней границы и положительной верхней границы, принимают оцениваемый параметр равным нулю, так как 
он не может одновременно являться и положительной, и отрицательной 
величиной.  

Определение качества модели регрессии основано на проверке ну
левой гипотезы 𝐻0 о статистической незначимости уравнения регрессии и показателя тесноты связи. Оценка осуществляется на основе сравнения наблюдаемого 𝐹факт и критического (табличного) 𝐹табл значений
F-критерия Фишера. 𝐹факт находится из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:

𝐹факт =
𝑟𝑥𝑦

2

1 − 𝑟𝑥𝑦
2 (𝑛 − 2),

где 𝑛 – число единиц выборки.

𝐹табл представляет собой максимально возможное значение критерия 

под влиянием случайных факторов при данных степенях свободы и 
уровне значимости α. 

Из условия 𝐹табл (α; ν1 = 1; ν2 = n – 2), где n – число единиц выборки,

определяется критическая величина критерия.

Уровень значимости α представляет собой вероятность отвергнуть 

правильную гипотезу при условии, что она верна. Обычно α принимают 
равным 0,05 или 0,01.

В случае если 𝐹табл < 𝐹факт, то нулевая гипотеза 𝐻0 относительно слу
чайной природы уравнения регрессии отклоняется и признается его статистическая значимость и надежность. В случае если 𝐹табл > 𝐹факт, то нет 
оснований отвергнуть нулевую гипотезу 𝐻0 и признается статистическая 
незначимость, ненадежность уравнения регрессии.

Доступ онлайн
400 ₽
В корзину