Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Регрессионный анализ социально-экономических явлений и процессов

Покупка
Артикул: 800905.01.99
Доступ онлайн
400 ₽
В корзину
В учебном пособии изложены основы теории, связанной с построением регрессионных моделей, рассмотрены примеры эконометрического моделирования стоимости жилья, государственных расходов на образование, деятельности строительных организаций, приведено подробное описание проведения регрессионного анализа в системе STATISTICA и ППП MS Excel, а также представлены варианты заданий и исходные данные для самостоятельного компьютерного исследования студентами статистических зависимостей. Для студентов направлений подготовки 09.03.03 «Прикладная информатика», 38.03.01 «Экономика», 38.05.01 «Экономическая безопасность», 38.03.05 «Бизнес-информатика», изучающих дисциплины «Эконометрика», «Эконометрическое моделирование», может быть полезным для преподавателей, научных сотрудников и аспирантов, применяющих методы статистического моделирования в исследовании социально-экономических явлений и процессов.
Игнашева, Т. А. Регрессионный анализ социально-экономических явлений и процессов : учебное пособие / Т. А. Игнашева. - Йошкар-Ола : Поволжский государственный технологический университет, 2022. - 138 с. - ISBN 978-5-8158-2276-4. - Текст : электронный. - URL: https://znanium.com/catalog/product/1972673 (дата обращения: 29.05.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Т. А. ИГНАШЕВА

РЕГРЕССИОННЫЙ АНАЛИЗ 

СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ 

ЯВЛЕНИЙ И ПРОЦЕССОВ

Учебное пособие

Йошкар-Ола 

2022

УДК 330.43(075.8)
ББК  65в6я73

И 26

Рецензенты:
профессор кафедры прикладной статистики и информатики Марийского
государственного университета, доктор экономических наук, доцент
А. В. Бурков;
профессор кафедры информационных систем в экономике Поволжского
государственного технологического университета, доктор экономиче-
ских наук, профессор А. В. Швецов

Печатается по решению 

редакционно-издательского совета ПГТУ

Игнашева, Т. А.

И 26
Регрессионный анализ социально-экономических явлений и про-

цессов: учебное пособие / Т. А. Игнашева. – Йошкар-Ола: Поволж-
ский государственный технологический университет, 2022. – 138 с.
ISBN 978-5-8158-2276-4

В учебном пособии изложены основы теории, связанной с построением регрес-

сионных моделей, рассмотрены примеры эконометрического моделирования стои-
мости жилья, государственных расходов на образование, деятельности строитель-
ных организаций, приведено подробное описание проведения регрессионного ана-
лиза в системе STATISTICA и ППП MS Excel, а также представлены варианты за-
даний и исходные данные для самостоятельного компьютерного исследования сту-
дентами статистических зависимостей.

Для студентов направлений подготовки 09.03.03 «Прикладная информатика», 

38.03.01 «Экономика», 38.05.01 «Экономическая безопасность», 38.03.05 «Бизнес-
информатика», изучающих дисциплины «Эконометрика», «Эконометрическое мо-
делирование», может быть полезным для преподавателей, научных сотрудников и 
аспирантов, применяющих методы статистического моделирования в исследовании 
социально-экономических явлений и процессов.

УДК 330.43(075.8)
ББК  65в6я73

ISBN 978-5-8158-2276-4
© Т. А. Игнашева, 2022
© Поволжский государственный 
технологический университет, 2022

ВВЕДЕНИЕ

В промышленной, инвестиционной сфере, строительстве, деятельно-

сти сельскохозяйственного сектора экономики, маркетинговых и социо-
логических исследованиях, при контроле качества в промышленности и 
других социально-экономических областях исследователь имеет дело с 
многомерными совокупностями, каждый объект наблюдения в которых 
характеризуется целым набором признаков. Процесс принятия решений 
в подобной ситуации подразумевает качественный, тщательный анализ 
информации, позволяющий выявить закономерности, взаимосвязи, зави-
симости между различными показателями.

На практике при исследовании взаимозависимостей между явлени-

ями и признаками, их характеризующими, все больший интерес проявля-
ется к статистическим методам, в частности, к регрессионному анализу, 
и к компьютерным программам для их реализации.

Пособие содержит основы теории, связанные с построением парных 

и многофакторных регрессионных моделей в линейной и нелинейной 
спецификации, методами проверки свойств оценок коэффициентов урав-
нений, примеры построения парных и множественных зависимостей, по-
дробное описание проведения регрессионного анализа в системе 
Statistica и ППП MS Excel, а также варианты заданий и исходные данные 
для реализации ручного счета и компьютерного исследования студен-
тами экономико-статистических взаимосвязей.

ППП Statistica и MS Excel, функционирующие в среде Windows, яв-

ляются одними из наиболее доступных и признанных в мировой практике 
систем для анализа статистических зависимостей. Пакеты предоставляют 
пользователю уникальную среду, в которой статистическая обработка 
становится увлекательным исследованием с использованием новейших 
компьютерных технологий и современных методов.

Процесс построения моделей с помощью систем Statistica и MS Excel, 

как правило, включает следующие этапы:

−
ввод первичных статистических данных в систему;

−
преобразование выборки, адекватное выбранным методам моделирования;

−

визуализацию данных с помощью различных типов графиков;

−
реализацию алгоритма метода моделирования;

−
вывод результатов построения модели в виде графиков и электронных 
таблиц с численной и текстовой информацией;

−
интерпретацию полученных результатов.

Процесс построения моделей в ППП Statistica и MS Excel реализуется 

в соответствии с данными этапами.

Пособие написано с учетом опыта использования статистических пакетов 
прикладных программ в учебном процессе по курсам «Методы социально-
экономического прогнозирования», «Эконометрика», «Эконометрическое 
моделирование», читаемым для студентов направлений 
подготовки 09.03.03 «Прикладная информатика», 38.03.01 «Экономика», 
38.05.01 «Экономическая безопасность», 38.03.05 «Бизнес-информа-
тика».

Пособие содержит достаточное количество иллюстраций и примеров, 

детальный перевод всех необходимых команд и терминов и призвано облегчить 
пользователям работу по исследованию социально-экономических 
явлений и процессов при использовании пакетов обработки данных.

Пособие предназначено для студентов, аспирантов, преподавателей и 

научных сотрудников, занимающихся применением методов моделирования 
при анализе социально-экономических процессов.

Глава 1

ВВЕДЕНИЕ В РЕГРЕССИОННЫЙ АНАЛИЗ

1.1. ПАРНАЯ РЕГРЕССИЯ

Регрессионный анализ представляет собой статистический метод 

анализа зависимости случайной величины y от переменных 𝑥, определяемых 
в качестве неслучайных величин в независимости от их истинного 
закона распределения.

Различие простой (парной) и множественной регрессии обусловлено 

числом объясняющих переменных, включаемых в уравнение регрессии.

Простая регрессия – это зависимость между двумя величинами 𝑦 и 

𝑥, т.е. модель вида

𝑦̂ = 𝑓(𝑥),

где 𝑦 – результативный признак (зависимая, объясняемая переменная);

𝑥 – признак-фактор (независимая, объясняющая переменная).
Множественная регрессия – это модель результативного признака 

от двух и более объясняющих переменных (регрессоров), т.е. уравнение 
вида

𝑦̂ = 𝑓(𝑥1, 𝑥2, … , 𝑥𝑛 ).

На практике в каждом отдельном случае величина результативного 

признака содержит два слагаемых:

𝑦𝑗 = 𝑦̂𝑥𝑗 + 𝜀𝑗,

где 𝑦𝑗 – наблюдаемая величина результативного признака;

𝑦̂𝑥𝑗 – расчетное (теоретическое) значение объясняемой переменной, 

найденное исходя из уравнения регрессии между 𝑦 и 𝑥;

𝜀𝑗 – случайная (стохастическая) компонента, называемая возмущением. 
Данная величина характеризует отклонение наблюдаемой величины 
результативного признака от теоретического значения, найденного 
исходя из уравнения связи. Ее значение включает влияние неучтенных в 
модели факторов, случайных ошибок и особенностей измерения.

При построении парной модели выбор вида математической функции 

может быть осуществлен тремя способами:

- графическим;
- аналитическим;
- экспериментальным.

Линейная регрессия                                  Гиперболическая регрессия                  

𝑦̂𝑥 = 𝑎 + 𝑏𝑥
𝑦̂𝑥 = 𝑎 + 𝑏 ∙

1

𝑥

Степенная регрессия

𝑦̂𝑥 = 𝑎 ∙ 𝑥𝑏

В том случае если линия регрессии проходит через все точки диа-

граммы рассеяния (корреляционного поля), то фактические значения ре-
зультативного признака совпадают с расчетными величинами. Величина 
остаточной дисперсии в таком случае равна нулю. На практике, как пра-
вило, имеет место существование некоторого разброса точек относи-
тельно линии регрессии. Данное рассеивание обусловлено воздействием 
прочих неучтенных в регрессионной модели факторов, т.е. присутствуют 
отклонения фактических данных от теоретических значений (𝑦 − 𝑦̂𝑥). 

Численный размер отклонений представляет собой основу вычисле-

ния остаточной дисперсии 

y
y

x
x
0
0

y

x
0

Дост = 1

𝑛 ∑(𝑦 − 𝑦̂𝑥)2.

Модель регрессии более точно описывает наблюдаемое явление при 

минимальной величине остаточной дисперсии. В случае моделирования 
данных с помощью ЭВМ производится перебор различных математиче-
ских функций, и из них выбирают уравнение, для которого величина 
остаточной дисперсии минимальна. 

Модель регрессии в линейном виде сводится к уравнению вида 

𝑦̂𝑥 = 𝑎 + 𝑏𝑥 или 𝑦̂𝑥 = 𝑎 + 𝑏𝑥 + 𝜀.

Построение линейной регрессии представляет собой процесс оцени-

вания ее параметров. Существуют различные подходы к оцениванию па-
раметров линейной функции, при этом классический подход основан на 
методе наименьших квадратов (МНК). Данный метод позволяет опреде-
лить такие оценки 𝑎 и 𝑏, при величине которых сумма квадратов откло-
нений наблюдаемых значений результативного признака y от теоретиче-
ских величин 𝑦̂𝑥 будет минимальной:

∑(𝑦 − 𝑦̂𝑥)2 → min,

т.е. из всей совокупности прямых линий линия регрессии определяется 
таким образом, чтобы сумма квадратов расстояний по вертикали между 
точками, отстоящими от прямой регрессии, и данной линией была 
наименьшей: 𝜀𝑖 = 𝑦 − 𝑦̂𝑥, ∑ 𝜀𝑖

2 → min.

Для определения минимума функции требуется взять частные произ-

водные по каждому из параметров 𝑎 и 𝑏 и приравнять их к нулю.

Обозначив ∑ 𝜀𝑖

2 через S, получим

𝑆 = ∑(𝑦 − 𝑦̂𝑥)2 = ∑(𝑦 − 𝑎 − 𝑏 ∙ 𝑥)2;

{

𝑑𝑆
𝑑𝑎 = −2 ∑ 𝑦 + 2 ∙ 𝑛 ∙ 𝑎 + 2 ∙ 𝑏 ∑ 𝑥 = 0,

𝑑𝑆
𝑑𝑏 = −2 ∑ 𝑦 ∙ 𝑥 + 2 ∙ 𝑎 ∑ 𝑥 + 2 ∙ 𝑏 ∑ 𝑥2 = 0.

В полученной системе разделим оба уравнения на 2, на основе чего 

формируется следующая система нормальных уравнений для оценки па-
раметров 𝑎 и 𝑏:

{

𝑛𝑎 + 𝑏 ∑ 𝑥 = ∑ 𝑦,

𝑎 ∑ 𝑥 + 𝑏 ∑ 𝑥2 = ∑ 𝑦𝑥.

Решение указанной системы нормальных уравнений при их предвари-

тельном делении на 𝑛 позволяет определить искомые оценки параметров 
𝑎 и 𝑏: 

𝑎 = 𝑦 − 𝑏 ⋅ 𝑥, 𝑏 = cov(𝑥, 𝑦)

𝜎𝑥2
= 𝑦 ∙ 𝑥
̅̅̅̅̅̅ − 𝑦̅ ∙ 𝑥̅

𝑥2
̅̅̅ − (𝑥̅)2 ,

где 𝑦 – среднее значение признака-результата;

𝑥 – среднее значение регрессора;
𝑦 ∙ 𝑥
̅̅̅̅̅̅ – среднее значение из произведений результата и регрессора;
𝑥2
̅̅̅ – среднее значение квадратов регрессора;
(𝑥̅)2 – квадрат среднего значения регрессора.
Коэффициент 𝑏 представляет собой коэффициент модели, величина 

которого характеризует среднее изменение объясняемой переменной при 
изменении объясняющей переменной на 1 единицу шкалы ее измерения.

Регрессионная модель обычно дополняется характеристиками тесноты 

взаимосвязи. В случае линейной регрессии тесноту связи изучаемых пере-
менных оценивает линейный коэффициент парной корреляции

𝑟𝑥𝑦 = 𝑦 ∙ 𝑥
̅̅̅̅̅̅ − 𝑦̅ ∙ 𝑥̅

𝜎𝑥 ∙ 𝜎𝑦

= 𝑏 ∙ 𝜎𝑥

𝜎𝑦

,

где 𝜎𝑥 = √

1

𝑛 ∑
(𝑥𝑖 − 𝑥 )2
𝑛
𝑖=1
– среднеквадратическое отклонение признака-

фактора;

𝜎𝑦 = √

1

𝑛 ∑
(𝑦𝑖 − 𝑦 )2
𝑛
𝑖=1
– среднеквадратическое отклонение результа-

тивного признака.

Парный коэффициент корреляции изменяется в диапазоне [−1 ; + 1]. 

В том случае если коэффициент регрессии 𝑏 > 0, то 0 ≤ 𝑟𝑥𝑦 ≤ 1; при 
𝑏 < 0 парный коэффициент корреляции −1 ≤ 𝑟𝑥𝑦 ≤ 0.

Оценку качества подобранной линейной функции позволяет охарак-

теризовать квадрат линейного коэффициента корреляции – коэффици-
ент детерминации. Его величина определяет долю дисперсии резуль-
тата, объясняемую регрессионной моделью, в общей дисперсии объясня-
емой переменной:

𝑟𝑥𝑦

2 =

𝜎𝑦объясн.

2

𝜎𝑦общ.

2
=

∑(𝑦̂𝑥 − 𝑦)2

∑(𝑦 − 𝑦)2 .

Величина (1 – 𝑟2) описывает долю дисперсии признака-результата y, 

определяемую воздействием остальных, не учтенных в модели факторов.

Оценить качество построенной модели возможно также при исполь-

зовании средней ошибки аппроксимации – среднего отклонения теоре-
тических величин от фактических данных:

𝐴 = 1

𝑛 ∑ |𝑦 − 𝑦

∧

𝑦
| ⋅ 100, %.

Допустимый предел значений 𝐴 варьирует в пределах 8-10 %.
Оценивание статистической значимости коэффициентов регрессии и 

корреляции основывается на использовании t-критерия Стьюдента и 
доверительных интервалов каждого из параметров модели. При этом 
выдвигается нулевая гипотеза 𝐻0 относительно случайной природы оцениваемых 
показателей, т.е. о незначимом их отличии от нуля. Далее на 
основе t-критерия Стьюдента производится сопоставление значений параметров 
модели и коэффициента корреляции с величиной случайной 
ошибки:

𝑡𝑎 = 𝑎

𝑚𝑎

;
𝑡𝑏 = 𝑏

𝑚𝑏

;
𝑡𝑟𝑥𝑦 = 𝑟𝑥𝑦

𝑚𝑟𝑥𝑦

.

Случайные ошибки оценок параметров линейной модели и коэффициента 
корреляции рассчитывают по формулам

𝑚𝑎 =

√((𝑦 − 𝑦̂𝑥)2/(𝑛 − 2)) ∙ ∑ 𝑥2

𝑛𝜎𝑥

;
𝑚𝑏 =

√((𝑦 − 𝑦̂𝑥)2/(𝑛 − 2))

𝜎𝑥√𝑛
;

𝑚𝑟𝑥𝑦 = √1 − 𝑟𝑥𝑦
2

𝑛 − 2 .

Из условия 𝑡табл (α; ν = n – 2) определяется критическое значение 

t-критерия.

Сравнение наблюдаемого и критического (табличного) значений 

t-критерия (|𝑡факт| и 𝑡табл) позволяет принять или отвергнуть нулевую гипотезу 
𝐻0.

В случае если 𝑡табл < |𝑡факт|, то гипотеза 𝐻0 отклоняется, т.е. 𝑎, 𝑏 и 

𝑟𝑥𝑦 не случайным образом отличаются от нуля, а сформированы под 
воздействием систематически действующего фактора x. В случае если 
𝑡табл > |𝑡факт|, то нет оснований отклонить нулевую гипотезу 𝐻0, и при-
знается случайная природа формирования 𝑎, 𝑏 или 𝑟𝑥𝑦.

Определение доверительных интервалов оценок параметров регрес-

сии основано на вычислении предельной ошибки Δ для каждого показа-
теля:

∆𝑎= 𝑡табл𝑚𝑎,
∆𝑏= 𝑡табл𝑚𝑏.

Формулы для расчета доверительных интервалов имеют следую-

щий вид:

𝛾𝑎 = 𝑎 ± ∆𝑎;
𝛾𝑎min = 𝑎 − ∆𝑎;
𝛾𝑎max = 𝑎 + ∆𝑎;

𝛾𝑏 = 𝑏 ± ∆𝑏;
𝛾𝑏min = 𝑏 − ∆𝑏;
𝛾𝑏max = 𝑏 + ∆𝑏.

При попадании нулевого значения в границы доверительного, т.е. при 

фиксировании отрицательной нижней границы и положительной верх-
ней границы, принимают оцениваемый параметр равным нулю, так как 
он не может одновременно являться и положительной, и отрицательной 
величиной.  

Определение качества модели регрессии основано на проверке ну-

левой гипотезы 𝐻0 о статистической незначимости уравнения регрес-
сии и показателя тесноты связи. Оценка осуществляется на основе срав-
нения наблюдаемого 𝐹факт и критического (табличного) 𝐹табл значений
F-критерия Фишера. 𝐹факт находится из соотношения значений фактор-
ной и остаточной дисперсий, рассчитанных на одну степень свободы:

𝐹факт =
𝑟𝑥𝑦

2

1 − 𝑟𝑥𝑦
2 (𝑛 − 2),

где 𝑛 – число единиц выборки.

𝐹табл представляет собой максимально возможное значение критерия 

под влиянием случайных факторов при данных степенях свободы и 
уровне значимости α. 

Из условия 𝐹табл (α; ν1 = 1; ν2 = n – 2), где n – число единиц выборки,

определяется критическая величина критерия.

Уровень значимости α представляет собой вероятность отвергнуть 

правильную гипотезу при условии, что она верна. Обычно α принимают 
равным 0,05 или 0,01.

В случае если 𝐹табл < 𝐹факт, то нулевая гипотеза 𝐻0 относительно слу-

чайной природы уравнения регрессии отклоняется и признается его ста-
тистическая значимость и надежность. В случае если 𝐹табл > 𝐹факт, то нет 
оснований отвергнуть нулевую гипотезу 𝐻0 и признается статистическая 
незначимость, ненадежность уравнения регрессии.

Доступ онлайн
400 ₽
В корзину