Исследование временных рядов в среде R
Покупка
Основная коллекция
Тематика:
Программирование и алгоритмизация
Издательство:
Новосибирский государственный технический университет
Автор:
Альсова Ольга Константиновна
Год издания: 2021
Кол-во страниц: 88
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-7782-4337-8
Артикул: 778134.01.99
В пособии рассмотрены вопросы, связанные с решением задач исследования и прогнозирования временных рядов средствами языка и среды статистических вычислений R. В качестве математического аппарата используются классические параметрические вероятностно-статистические модели и методы анализа временных рядов. Для каждого метода дано краткое теоретическое описание, позволяющее понять его суть и особенности применения, и приведено описание основных функций языка R, реализующих метод. Основное внимание в пособии уделено рассмотрению технологии (методики) исследования и прогнозирования временного ряда с помощью среды R. На конкретных примерах рассматриваются вопросы идентификации, анализа адекватности, сравнения и окончательного выбора модели временного ряда. Предназначено для бакалавров IV курса АВТФ, обучающихся по направлениям 09.03.01 «Информатика и вычислительная техника», 09.03.04 «Программная инженерия» и для магистрантов 1-2-го года обучения, обучающихся по направлениям 09.04.01 «Информатика и вычислительная техника», 09.04.04 «Программная инженерия».
Тематика:
ББК:
УДК:
- 004: Информационные технологии. Вычислительная техника...
- 519: Комбинатор. анализ. Теория графов. Теория вер. и мат. стат. Вычисл. мат., числ. анализ. Мат. кибер..
ОКСО:
- ВО - Бакалавриат
- 09.03.01: Информатика и вычислительная техника
- 09.03.04: Программная инженерия
- ВО - Магистратура
- 09.04.01: Информатика и вычислительная техника
- 09.04.04: Программная инженерия
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Министерство науки и высшего образования Российской Федерации НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ О.К. АЛЬСОВА ИССЛЕДОВАНИЕ ВРЕМЕННЫХ РЯДОВ В СРЕДЕ R Утверждено редакционно-издательским советом университета в качестве учебного пособия НОВОСИБИРСК 2021
УДК 519.246.8:004(075.8) А 579 Рецензенты: Ю.А. Котов, канд. физ.-мат. наук, доцент А.В. Гаврилов, канд. техн. наук, доцент Работа подготовлена на кафедре вычислительной техники для студентов и магистрантов АВТФ по дисциплинам «Методы анализа данных», «Компьютерные технологии анализа и обработки данных», «Интеллектуальный анализ данных и методы машинного обучения» Альсова О.К. А 579 Исследование временных рядов в среде R: учебное пособие / О.К. Альсова. – Новосибирск: Изд-во НГТУ, 2021. – 88 с. ISBN 978-5-7782-4337-8 В пособии рассмотрены вопросы, связанные с решением задач исследования и прогнозирования временных рядов средствами языка и среды статистических вычислений R. В качестве математического аппарата используются классические параметрические вероятностно-статистические модели и методы анализа временных рядов. Для каждого метода дано краткое теоретическое описание, позволяющее понять его суть и особенности применения, и приведено описание основных функций языка R, реализующих метод. Основное внимание в пособии уделено рассмотрению технологии (методики) исследования и прогнозирования временного ряда с помощью среды R. На конкретных примерах рассматриваются вопросы идентификации, анализа адекватности, сравнения и окончательного выбора модели временного ряда. Предназначено для бакалавров IV курса АВТФ, обучающихся по направлениям 09.03.01 «Информатика и вычислительная техника», 09.03.04 «Программная инженерия» и для магистрантов 1–2-го года обучения, обучающихся по направлениям 09.04.01 «Информатика и вычислительная техника», 09.04.04 «Программная инженерия». УДК 519.246.8:004(075.8) ISBN 978-5-7782-4337-8 © Альсова О.К., 2021 © Новосибирский государственный технический университет, 2021
ВВЕДЕНИЕ Необходимость решения задач идентификации и прогнозирования временных рядов возникает во многих прикладных областях науки и техники и связана с моделированием естественных и искусственных процессов (объектов). Информация об исследуемом процессе часто представлена в виде дискретного ряда зафиксированных в определенные равноотстоящие моменты времени значений показателя (признака), описывающего процесс. Такой ряд значений называется временным рядом (ВР). Процедура нахождения модели, наиболее адекватно описывающей исследуемый временной ряд, называется идентификацией модели временного ряда. Идентификационная модель исследуемого процесса (объекта) может быть использована для изучения и описания его свойств и особенностей функционирования в различных условиях, а также для определения его прошлых и будущих состояний, т. е. для прогнозирования. Задача прогнозирования будущих показателей процессов на основе их исторических значений является основой для финансового планирования в экономике, прогнозов погоды в метеорологии, для планирования и оптимизации деятельности компаний и производств и т. д. Также прогнозирование является одной из основных задач, которые решаются в рамках динамично развивающегося в настоящее время направления в обработке информации – интеллектуального анализа данных (Data Mining). В теоретических и прикладных исследованиях рассматривают широкий спектр моделей и методов идентификации и прогнозирования временных рядов. Наиболее распространенные методы анализа временных рядов можно разделить на два основных класса – это параметрические и непараметрические методы. При использовании параметрических методов предполагают, что исследуемый процесс имеет определенную структуру, которую можно описать с помощью аналитической
математической модели, имеющей сравнительно небольшое число параметров, и задача идентификации состоит в том, чтобы определить структуру модели и оценить ее параметры. Параметры модели и модель в целом имеют четкую содержательную интерпретацию в терминах предметной области и описывают закономерности изменения во времени исследуемого процесса. В случае использования непараметрических методов отсутствует свернутое аналитическое параметрическое описание модели, что затрудняет или делает невозможным содержательную интерпретацию модели. Среди параметрических методов выделяют временные (автокорреляционная и частная автокорреляционная функции, модели авторегрессии и скользящего среднего, модели экспоненциального сглаживания) и частотные (спектральный анализ на основе спектральных функций, гармонический анализ). К непараметрическим методам относятся, например, сингулярный спектральный анализ, нейросетевые модели, генетические алгоритмы, экспертные методы. В настоящем учебном пособии рассматриваются только параметрические методы исследования временного ряда. Для каждого метода даны его краткое теоретическое описание, идея метода, математическая модель, лежащая в основе метода, условия использования и область применения. Более подробное описание классической теории анализа временных рядов можно найти в работах основоположников этого направления (Дж. Бокс и Г. Дженкинс [12], Т. Андерсон [11], М. Кендэл [18], Д. Бриллинджер [14], Э. Хеннан [27]) и в многочисленной учебной литературе [6, 7, 9, 17, 24, 30, 31]. В настоящем пособии основной упор сделан на практическое применение методов анализа временных рядов. Алгоритмы методов рассмотрены на примере решения конкретной задачи исследования временного ряда, оценены адекватность и точность построенных идентификационных моделей ВР, выполнен сравнительный анализ моделей. В качестве программной среды реализации алгоритмов исследования ВР выбран язык R и среда R, R-Studio. Язык R – интерпретируемый язык программирования и среда для статистических вычислений и графического анализа с открытым исходным кодом [32], широко используются как статистическое программное обеспечение, поддерживаются большим и активным исследовательским сообществом по всему миру и фактически стали стандартом в области анализа данных. В языке R реализованы все
актуальные методы статистического анализа данных [16, 20, 22, 23, 25, 29], а также множество специфических алгоритмов для решения узкоспециализированных задач из разных предметных областей. К достоинствам R относится возможность создания графиков высокого качества, которые могут быть экспортированы в основные графические форматы и далее использоваться в презентациях и научных публикациях. Функции языка R объединяются в пакеты – загружаемые модули, которые подключаются к любой программе и предоставляют объединенные в них вычислительные средства. Причем, пакеты для R могут разрабатываться и на других языках программирования. В целом, как язык программирования, R довольно прост и имеет ограниченные изобразительные средства, что компенсируется возможностью неограниченного его расширения с помощью пакетов. В базовую поставку R включен основной набор пакетов, а всего по состоянию на сентябрь 2020 года доступно более 16 200 пакетов [33]. Кроме того, язык R интегрирован в профессиональные статистические пакеты, такие как Statistica, SPSS, SAS, что позволяет запускать код R в оболочке пакета.
1. АНАЛИЗ ВРЕМЕННЫХ РЯДОВ 1.1. Временной ряд. Основные определения и понятия. Разложение временного ряда на составляющие Под анализом временных рядов (ВР) понимают процесс применения математико-статистических методов и методов машинного обучения для выявления закономерностей в поведении ВР, определения структуры ВР и прогнозирования значений ВР на будущие периоды. Временным рядом называют последовательность наблюдений анализируемого показателя (признака) Y, упорядоченных во времени [7]. Как правило, при решении практических задач рассматривают дискретные (по времени наблюдения) временные ряды, в которых значения показателя фиксируются в равноотстоящие моменты времени, через заданный временной такт (секунда, минута, месяц, квартал, год и т. п.). В этом случае ВР представляется в виде 1 2 , , , , n y y y где ty – значение исследуемого показателя, зафиксированное в t-м такте времени ( 1, 2, , t n ). В теории моделирования принято рассматривать временной ряд как упорядоченную последовательность наблюдений анализируемых случайных величин 1 2 1 ( ), ( ), , ( ), n i i Y t Y t Y t t t , произведенных в последовательные моменты времени 1 2 , , , n t t t : ( ), i i y Y t 1, 2, , i n [7]. Также временной ряд можно интерпретировать как наблюдения над непрерывным случайным процессом ( ) Y t в моменты времени i t t и рассматривать ВР как одну из реализаций случайного процесса.
Принципиальные отличия временного ряда от случайной выборки заключаются в следующем: во-первых, члены ВР не являются статистически независимыми; во-вторых, члены ВР не являются одинаково распределенными, т. е. 1 2 { } { } P y y P y y при 1 2 t t . Взаимозависимость членов временного ряда позволяет применять специфический математический аппарат для построения прогнозных моделей ВР, основанный на выявлении и описании корреляционных взаимосвязей между членами ВР. Один из подходов к идентификации ВР заключается в его разложении на детерминированные и случайные составляющие, каждая из которых описывает вклад определенного типа факторов в формирование значений ВР. В общем виде аддитивная модель разложения ВР на составляющие задается следующим образом [7]: ( ) ( ( ) ( ) ( ), ) i i i i i Y t F t S t C t t (1.1) где ( ) i F t – трендовая составляющая (компонента); ( ) i S t – сезонная составляющая; ( ) i C t – циклическая составляющая; ( ) it – случайная составляющая. Трендовая составляющая ( ) i F t описывает вклад долговременных факторов в формирование значений ВР, определяющих устойчивые закономерности в изменении наблюдаемого процесса в течение длительного интервала времени. Обычно тренд описывается неслучайной функцией, зависящей от времени (аргумент функции), часто монотонного характера. Сезонная составляющая ( ) i S t описывает влияние сезонных факторов, которые обусловливают периодические колебания значений ВР в течение года. Сезонность характерна для многих природных и экономических процессов (например, изменение климатических и метеорологических показателей в течение года, сезонность спроса на товары и услуги, колебания объемов производства, материальных запасов и т. п.). Для описания сезонной составляющей используют тригонометрические функции (гармоники). Циклическая составляющая ( ) i C t описывает влияние длительных (более одного сезона) периодически изменяющихся факторов экономической, астрофизической, демографической природы (например, циклы
солнечной активности, циклы экономического развития и т. п.). Циклические колебания, как и сезонные, математически описываются с помощью тригонометрических функций, отличие только в длине периода колебаний. Случайная составляющая ( ) it отражает воздействие случайных факторов, которые не поддаются учету и регистрации. Их воздействие как раз и определяет стохастическую природу элементов ВР и необходимость их интерпретации как наблюдений над случайными величинами. Возможна также мультипликативная модель разложения ВР, в которой ВР представлен как произведение составляющих: ( ) ( ( ) ( ) ( ). ) i i i i i Y t F t S t C t t (1.2) В разложениях (1.1), (1.2) ВР могут присутствовать не все составляющие, обязательным является только наличие случайной компоненты ( ) it . Выводы о влиянии того или иного типа факторов на формирование значений ВР, о наличии определенных составляющих в разложении ВР делаются как на основе априорного содержательного анализа изучаемого процесса, так и по результатам статистического анализа исследуемого ВР. 1.2. Статистические характеристики временного ряда Из определения ВР следует, что в каждый момент времени it величина ( ) i Y t является случайной и подчиняется некоторому вероятностному закону распределения. Для описания ВР используются те же числовые характеристики, что и для определения случайной величины. Так, математическое ожидание и дисперсия ВР в момент времени it определяются выражениями: 2 ( ( )) ( ), ( ( )) ( ) ( ). i i i i i M Y t m t D Y t D t t (1.3) Временные ряды классифицируют на два больших класса стационарных и нестационарных ВР. Ряд называют строго стационарным (или стационарным в узком смысле), если совместное распределение вероятностей m наблюдений 1 2 , , , m y y y такое же, как и для m наблюдений 1 2 , , , m y y y ,
при любых m и . Другими словами, если для каждого момента времени it случайные величины ( ) i Y t имеют одинаковое распределение [7]. Ряд называют стационарным в широком смысле, если статистические характеристики случайных величин ( ) i Y t не зависят от времени. Очевидно, что из стационарности в узком смысле следует стационарность в широком смысле. Обратное в общем случае неверно. В дальнейшем изложении будут рассматриваться только стационарные временные ряды в широком смысле. Статистические характеристики стационарного ВР не меняются во времени, т. е. постоянны математическое ожидание и дисперсия на всем интервале наблюдения: ( ) , i M Y t m 2 ( ) i D Y t D . (1.4) Выборочные аналоги математического ожидания и дисперсии – соответственно среднее значение (оценка математического ожидания) и выборочная дисперсия (оценка дисперсии) – рассчитываются по формулам: 1 1 , n i i y y n 2 2 1 ˆ 1 ( ) 1 n i i y y n . (1.5) Кроме того, для описания ВР используют специфические характеристики, а именно автокорреляционную и частную автокорреляционную функции (АКФ и ЧАКФ). Автокорреляционная функция описывает степень взаимосвязи между последовательными наблюдениями ВР: 1 2 ( ), ( ), , ( ) n Y t Y t Y t сдвинутыми относительно друг друга на l тактов времени (или, как говорят, с лагом l): 2 ( ) ( ) ( ) . i i l M Y t m Y t m r l (1.6) Значение автокорреляционной функции для стационарного ВР зависит только от величины лага l , т. е. ( ) ( ) r l r l . Если 0 l , то (0) r 1. Оценка автокорреляционной функции (выборочная АКФ) рассчитывается по формуле 1 2 1 . ˆ 1 ( )( ) ( ) 1 ( ) 1 n l i i l i n i i y y y y n l r l y y n (1.7)