Эконометрика и эконометрическое моделирование в Excel и R
Покупка
Основная коллекция
Тематика:
Эконометрика
Издательство:
НИЦ ИНФРА-М
Год издания: 2023
Кол-во страниц: 296
Дополнительно
Вид издания:
Учебник
Уровень образования:
ВО - Магистратура
ISBN: 978-5-16-016059-7
ISBN-онлайн: 978-5-16-109181-4
Артикул: 724743.06.01
Учебник включает темы современной эконометрики, часто применяемые в экономических исследованиях. Рассматриваются некоторые аспекты моделей множественной регрессии, связанные с проблемой мультиколлинеарности, модели с дискретной зависимой переменной, включая методы их оценивания, анализа и применения. Значительное место отводится анализу моделей одномерных и многомерных временных рядов. Рассмотрены современные представления о детерминированном и стохастическом характере тренда. Изучены методы статистической идентификации типа тренда. Уделяется внимание оценке, анализу и практической реализации моделей стационарных временных рядов Бокса — Дженкинса, а также моделей многомерных временных рядов: векторных авторегрессионных моделей и векторных моделей коррекции ошибок. Включены основные эконометрические модели для панельных данных, широко применяемые в последние десятилетия, а также формальные тесты выбора моделей с учетом их иерархической структуры. В каждом разделе приводятся примеры оценки, анализа и тестирования моделей в программной среде R.
Соответствует требованиям федеральных государственных образовательных стандартов высшего образования последнего поколения.
Адресован студентам магистратуры, обучающимся по направлению «Экономика», учебный план которого предусматривает дисциплины «Эконометрика (продвинутый курс)», «Эконометрическое моделирование», «Эконометрические исследования», и аспирантам.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Магистратура
- 01.04.02: Прикладная математика и информатика
- 38.04.01: Экономика
- 38.04.02: Менеджмент
- 38.04.03: Управление персоналом
- 38.04.04: Государственное и муниципальное управление
- 38.04.05: Бизнес-информатика
- 38.04.06: Торговое дело
- 38.04.07: Товароведение
- 38.04.08: Финансы и кредит
- 38.04.09: Государственный аудит
ГРНТИ:
Скопировать запись
Эконометрика и эконометрическое моделирование в Excel и R, 2022, 724743.04.01
Эконометрика и эконометрическое моделирование в Excel и R, 2021, 724743.01.01
Фрагмент текстового слоя документа размещен для индексирующих роботов
ЭКОНОМЕТРИКА И ЭКОНОМЕТРИЧЕСКОЕ МОДЕЛИРОВАНИЕ В EXCEL И R Л.О. БАБЕШКО И.В. ОРЛОВА Москва ИНФРА-М 202УЧЕБНИК Рекомендовано Межрегиональным учебно-методическим советом профессионального образования в качестве учебника для студентов высших учебных заведений, обучающихся по направлениям подготовки 38.04.00 «Экономика и управление» (квалификация (степень) «магистр») (протокол № 8 от 22.06.2020)
УДК 519.862(075.8) ББК 65в6я73 Б12 А в т о р ы: Л.О. Бабешко, доктор экономических наук, профессор (гл. 3–9); И.В. Орлова, кандидат экономических наук, профессор (гл. 1—2) Р е ц е н з е н т ы: Н.Б. Кобелев, доктор экономических наук, член правления Нацио нального общества имитационного моделирования (НОИМ), президент Ремесленной палаты России; А.С. Сенин, доктор экономических наук, декан факультета маркетинга и международного сотрудничества Института управления и регио нального развития Российской академии народного хозяйства и государственной службы при Президенте Российской Федерации ISBN 978-5-16-016059-7 (print) ISBN 978-5-16-109181-4 (online) © Бабешко Л.О., Орлова И.В., 2020 Бабешко Л.О. Б12 Эконометрика и эконометрическое моделирование в Excel и R : учебник / Л.О. Бабешко, И.В. Орлова. — Москва : ИНФРА-М, 2023. — 300 с. : ил. — (Высшее образование : Магистратура). — DOI 10.12737/ 1079837. ISBN 978-5-16-016059-7 (print) ISBN 978-5-16-109181-4 (online) Учебник включает темы современной эконометрики, часто применяемые в экономических исследованиях. Рассматриваются некоторые аспекты моделей множественной регрессии, связанные с проблемой мультиколлинеарности, модели с дискретной зависимой переменной, включая методы их оценивания, анализа и применения. Значительное место отводится анализу моделей одномерных и многомерных временных рядов. Рассмотрены современные представления о детерминированном и стохастическом характере тренда. Изучены методы статистической идентификации типа тренда. Уделяется внимание оценке, анализу и практической реализации моделей стационарных временных рядов Бокса — Дженкинса, а также моделей многомерных временных рядов: векторных авторегрессионных моделей и векторных моделей коррекции ошибок. Включены основные эконометрические модели для панельных данных, широко применяемые в последние десятилетия, а также формальные тесты выбора моделей с учетом их иерархической структуры. В каждом разделе приводятся примеры оценки, анализа и тестирования моделей в программной среде R. Соответствует требованиям федеральных государственных образователь ных стандартов высшего образования последнего поколения. Адресован студентам магистратуры, обучающимся по направлению «Эконо мика», учебный план которого предусматривает дисциплины «Эконометрика (продвинутый курс)», «Эконометрическое моделирование», «Эконометрические исследования», и аспирантам. УДК 519.862(075.8) ББК 65в6я73 Данная книга доступна в цветном исполнении в электронно-библиотечной системе Znanium
Введение Основная задача эконометрики — построение эконометрических моделей и их применение для количественной оценки, анализа и прогнозирования экономических процессов. Эконометрические модели классифицируют по разным основаниям. Одним из них являются типы данных, которые используются при построении указанных моделей. Для данных по разным экономическим объектам в один и тот же момент времени (пространственным данным, cross-sectional data) строят модели множественной регрессии. Для описания эндогенных переменных с дискретными значениями применяются модели бинарного и множественного выбора. Если данные относятся к одному экономическому объекту за исследуемый период времени (данные временного ряда, time-series data) — эконометрический аппарат — модели временных рядов. Отличительной особенностью панельных данных (panel data) является то, что они включают пространственные данные и данные временных рядов, по это му не только содержат информацию о развитии объектов во времени, но и служат базой для выявления различий между исследуемыми объектами в рамках специальных моделей — моделей для панельных данных. Учебники, посвященные многообразию быстро развивающегося эконометрического инструментария, традиционно делят на вводные учебники эконометрики для бакалавриата, включающие модели линейной и нелинейной регрессии, модели с фиктивными и лаговыми переменными, модели временных рядов, модели систем одновременных уравнений, и учебники продвинутого курса для магистратуры, охватывающие широкий круг тем по моделям с дискретными зависимыми переменными, анализу временных рядов, проблеме коинтеграции, многомерным моделям временных рядов, моделям для панельных данных. Глава 1 посвящена вопросам применения моделей множественной регрессии, не вошедшим в изданный в 2018 г. учебник «Эконометрика и эконометрическое моделирование» авторов Л.О. Бабешко, М.Г. Бича, И.В. Орловой. Предполагается, что читатель знаком с основами эконометрики и владеет начальными навыками работы в среде R. Предварительный анализ данных является необходимым этапом при построении эконометрических моделей, так как качество мо
дели регрессии может в значительной мере зависеть от характера наблюдений, пропущенных наблюдений или наличия выбросов. В главе 1 рассмотрены методы выявления необычных наблюдений и возможности программы R для решения задачи обнаружения влиятельных наблюдений и выбросов при построении модели линейной регрессии. Здесь же изучен вопрос использования модели регрессии для ранжирования факторов по степени их влияния на результирующую переменную. Большая часть главы отведена изложению современных подходов к решению проблемы мультиколлинеарности. В главе 2 рассмотрены модели с дискретной зависимой переменной, изложен метод оценки параметров модели бинарного выбора, приведены и описаны показатели качества логистической регрессии, проиллюстрированы возможности программной среды R для построения моделей бинарного выбора и визуализации их качества. Главы 3—8 посвящены моделям временных рядов, изложены современные представления о детерминированном и стохастическом характере тренда, описаны методы оценки тренд-стационарных (trend-stationary, TS) и разностно-стационарных (differencestationary, DS) моделей временных рядов и их реализация в программной среде R. В главе 6 описаны методы статистической идентификации типа тренда. В главу включены тесты: Дикки — Фуллера (Diskey — Fuller, DF-тест — о наличии авторегрессии первого порядка, ADF-тест — о наличии авторегрессии более высоких порядков), Филлипса — Перрона (Phillips — Perron, PP-тест, учитывающий возможность гетероскедастичности и автокорреляции ошибок, а также возможность их распределения не по нормальному закону), Квятковского — Филлипса — Шмидта — Шина (Kwiatkowski, Phillips, Schmidt, Shin, KPSS-тест — с нулевой гипотезой о тренд-стационарности временного ряда), Дикки — Пентала (DP-тест — с расширением на случай нескольких единичных корней). Здесь же приведены скрипты примеров тестирования в программной среде R с описанием функций, предназначенных для расчета тестовых статистик. Глава 7 посвящена моделям стационарных временных рядов Бокса — Дженкинса, современным методам их оценивания, анализа и реализации в программной среде R. В главе 8 описаны многомерные модели временных рядов: векторные авторегрессионные модели в приведенной (vector autoregressive model, VAR) и структурной формах (structural vector autoregressive model, SVAR), предложенные Кристофером Симсом
(Sims) в 1980 г. и предназначенные для описания нескольких динамических процессов на основе их общей истории; процессы построения функций импульсного отклика и декомпозиции ошибок прогнозов в рамках моделей VAR; векторные модели коррекции ошибок (vector error-correction model, VECM), применяемые для нестационарных временных рядов (интегрированных или коинтегрированных). В главу включены тесты на коинтеграцию (Энгла — Грейнджера (Engle — Granger) и Йохансена (Johansen)), а также скрипты примеров тестирования в программной среде R с описанием функций, предназначенных для расчета тестовых статистик. Модели для панельных данных, широко применяемые в последние десятилетия, описаны в главе 9. Здесь рассмотрены основные эконометрические модели для панельных данных: объединенная модель (Pooled model, Pool — спецификация, которая не учитывает индивидуальные особенности объектов), модель с фиксированными эффектами (fixed effect model, FE — гетерогенность объектов учитывается посредством индивидуальных параметров местоположения), модель со случайными эффектами (random effect model, RE — гетерогенность объектов учитывается независящей от времени специфической составляющей ошибки). В главу включены формальные тесты выбора моделей, адекватных выборочным данным, учитывающие их иерархическую структуру. Приведены примеры оценки, анализа и тестирования моделей для панельных данных в программной среде R. В качестве программной среды для оценки и исследования эконометрических моделей выбран язык R, нашедший широкое применение при решении базовых задач высшей математики студентами общеэкономических специальностей ведущих университетов. В заключение каждой главы приводятся вопросы для самоконтроля, задачи и упражнения. В результате освоения материала студенты должны: • знать фундаментальные основы современных методов эконометрических исследований, их возможности и ограничения; • уметь выбирать эконометрические методы и модели для оценки и прогнозирования конкретных социально-экономических показателей на микро-, мезо- и макроуровнях для принятия долгосрочных и краткосрочных решений; правильно интерпретировать и анализировать результаты эконометрического исследования; • владеть навыками проведения эконометрических исследований с использованием современных пакетов прикладных программ и оформления результатов.
Глава 1. НЕКОТОРЫЕ АСПЕКТЫ ПРИМЕНЕНИЯ МОДЕЛИ МНОЖЕСТВЕННОЙ РЕГРЕССИИ 1.1. ПРЕДВАРИТЕЛЬНЫЙ АНАЛИЗ ДАННЫХ. ОБНАРУЖЕНИЕ ВЛИЯТЕЛЬНЫХ НАБЛЮДЕНИЙ И ВЫБРОСОВ Модель линейной множественной регрессии имеет вид: = + ε Y Xb , (1.1) где Y — n-мерный вектор значений зависимой переменной, 1 2 ( , , ..., ) Т n Y y y y = ; b — p-мерный вектор коэффициентов регрессии, 0 1 ( , , ..., ) Т k b b b b = , p = k + 1; k — количество регрессоров; ε — n-мерный вектор остатков; X — (n p × ) —матрица значений регрессоров; xij — значение j-го регрессора Xj в i-м наблюдении, i = 1, …, n, j = 1, …, k; первый столбец матрицы X состоит из единиц, i-я строка хi матрицы X содержит значения регрессоров X1, …, Xk в i-м наблюдении. При построении регрессионных моделей наборы данных иногда содержат необычные наблюдения, такие как аномальные наблюдения в пространстве экзогенных переменных, наблюдения с большими по модулю значениями остатков от регрессии (выбросы), которые могут вносить большой вклад в оценки параметров регрессии и создают препятствия для применения аппарата проверки статистических гипотез. Такие наблюдения должны быть диагностированы, чтобы установить, оказывают ли они на самом деле значительное влияние на качество модели регрессии. Обнаружение, идентификация и обработка необычных наблюдений является важным этапом построения модели, хотя и не является стандартной рабочей процедурой. Необычные наблюдения можно классифицировать следующим образом. • Точки разбалансировки (leverage). Наблюдения, которые в пространстве экзогенных переменных находятся далеко от центра распределения наблюдений, координаты которого равны средним значениям этих переменных. Чем дальше
от центра системы находится наблюдение, тем больше его влияние на оценку коэффициентов регрессии. Такие наблюдения называют точками разбалансировки. Они выявляются с помощью показателя воздействия наблюдения, или разбалансировки (leverage) hii. Показатель hii является i-м диаго нальным элементом матрицы H, где 1 ( ) . T T H X X X X − = Для пояснения смысла матрицы Н напомним, что вектор МНК1-оценок регрессионных коэффициентов bˆ модели (1.1) равен 1 ˆ ( ) T T b X X X Y − = [5], откуда предсказываемые моделью значения эндогенной переменной можно записать следующим образом: ˆ ˆY Xb = = 1 ( ) T T X X X X Y H Y − = = ⋅ , т.е. ˆY H Y = ⋅ или в координатной форме 1 1 2 21 ˆ ... ... i i i ii i in n Y h Y h Y h Y h Y = + + + + + , i = 1, …, n. Диаго нальные элемен ты матрицы H изменяются от нуля до единицы и в сумме равны числу параметров модели p. Показатель hii отражает расстояние между точкой с координатами хi и центром данных. Если значение hii близко к нулю, то это означает, что i-я точка хi располагается недалеко от центра, если hii близка к единице, то i-я точка является удаленной. Считается, что наблюдение оказывает существенное влияние на параметры модели, если hii > 2p/n. Показатель hii является удобным индикатором того, является ли i-е наблюдение точкой разбалансировки. • Выбросы (outlier). Выбросами называют наблюдения, для которых отклонения от регрессии принимают аномально большие по модулю значения. Наличие выбросов приводит к значительным изменениям прогнозируемых значений эндогенной переменной. Методы выявления выбросов при построении регрессионных моделей основаны на анализе остатков. Для диагностики выбросов в R в моделях линейной регрессии кроме остатков (residuals) ˆ ˆi i i Y Y ε = − используются еще два типа остатков: 1) стандартизованные остатки (standardized residuals) ˆ 1 i i ii rs s h ε ε = − ; 2) стьюдентизированные остатки (studentized residuals), внешний стьюдентизированный остаток (Externally studentized residual) или стьюдентизированный удаленный остаток (Studentized deleted residual): 1 МНК — метод наименьших квадратов.
( ) ˆ , 1 i i i ii rt s h ε − ε = − где 2ˆ 1 i s n k ε ε = − − ∑ — стандартная ошибка модели; ( )i sε − — стан дартная ошибка модели без i-го наблюдения. Стандартизованные остатки rsi должны асимптотически подчиняться стандартному нормальному закону N(0, 1). Тогда подозрительными на выброс являются Yi, для которых i rs > 2, и очевидными выбросами являются Yi, для которых rsi > 3. Выявление выбросов только с помощью стандартизированных остатков не всегда позволяет определить их с уверенностью, даже если они очевидным образом видны на графике остатков, особенно если выброс относится к наблюдению, расположенному близко к центру распределения независимых переменных. Поэтому величины rsi можно использовать лишь в качестве ориентировочных указателей на возможные выбросы. Однако если построить модель с удаленным i-м наблюдением, то в случае наличия выброса она будет сильно отличаться от модели, построенной по всем наблюдениям. На этом основан анализ с помощью стьюдентизированных остатков модели. Значение стандартизированного остатка может быть близким к доверительной границе, но не переходить ее, в то время как значение стьюдентизированного остатка будет выше порогового. Стьюдентизированные остатки имеют t-распределение с n − p степенями свободы. Соответственно мы можем использовать квантили этого распределения, чтобы проверить, насколько статистически значимо определенное наблюдение, которое является выбросом. • Влиятельные наблюдения (influential point). Влиятельными будем называть наблюдения, которые оказывают значительное влияние на оценки параметров модели и ее статистические характеристики. Удаление влиятельных наблюдений существенно изменяет предсказательные свойства модели. Поэтому необходимо уметь выявлять эти наблюдения и пытаться нивелировать их влияние на оценки регрессии. Влиятельные наблюдения, как правило, сочетают в себе свойства точек разбалансировки (leverage point) и выбросов (outlier), но могут относиться к одному из указанных типов. Выявление необычных наблюдений рассмотрим в примере 1.1 [19]. Пример 1.1. На основе информации, приведенной в табл. 1.1, требуется оценить параметры линейной модели парной регрессии
Таблица 1.1 Данные о количестве выпущенных изделий и затратах 1 2 3 4 5 6 7 8 9 Количество изделий — X 22.00 30.00 26.00 31.00 36.00 30.00 22.00 45.00 38.00 Затраты, долл. — Y 3470.00 3783.00 3856.00 3910.00 4489.00 3876.00 3221.00 4579.00 4325.00 10 11 12 13 14 15 16 17 18 19 3.00 30.00 38.00 41.00 27.00 28.00 31.00 37.00 32.00 59.00 14 131.00 3589.00 3999.00 4158.00 3666.00 3885.00 3574.00 4495.00 3814.00 6000.00
зависимости затрат от количества выпущенных изделий, проанализировать наличие точек разбалансировки и выбросов и оценить их влияние на качество модели. На рис. 1.1 приведена диаграмма рассеяния (корреляционное поле) переменных X и Y. Можно предположить, что зеленая и крас ная точки, соответствующие наблюдениям 10 и 19, являются аномальными, необычными. 16000,00 14000,00 12000,00 10000,00 8000,00 6000,00 4000,00 2000,00 0,00 X Y 0,00 10,00 20,00 30,00 40,00 50,00 60,00 70,00 Рис. 1.1. Диаграмма рассеяния Показатель воздействия наблюдения или разбалансировки (leverage). В качестве показателя воздействия i-го наблюдения на предсказанное значение ˆ выбираем показатель разбалансировки hii. В соответствии с вышесказанным в качестве критического значения для показателя разбалансировки hii выбираем число 2р/n = 2 · 2/19 = 0,21. Наблюдение считаем точкой разбалансировки, если hii > 0,21. Не все наблюдения, которые можно отнести к классу точек разбалансировки, являются влиятельными. Решение в программе Excel. Матрицу 1 ( ) T T H X X X X − = в Excel можно получить, последовательно применяя функции МУМНОЖ, МОБР, МУМНОЖ, МУМНОЖ к матрицам Х и транспонированная Х. Показатель воздействия наблюдения hii является диагональным элементом матрицы H (рис. 1.2). Решение в R. Построение уравнения регрессии (рис. 1.3). Получено уравнение регрессии ˆ iY = 7513,02 – 92,29Х, все коэффициенты которого значимы.