Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Математически методы и информационные технологии в научных исследованиях

Покупка
Основная коллекция
Артикул: 734225.01.99
Доступ онлайн
800 ₽
В корзину
Учебное пособие предназначено для адъюнктов, обучающихся в ФГБОУ ВО Сибирская пожарно-спасательная академия ГПС МЧС России. Кроме того, материал пособия может быть полезен для магистров и слушателей старших курсов. Основу пособия составил материал курса «Математические методы и информационные технологии в научных исследованиях», преподаваемого для адъюнктов. В пособии рассмотрены некоторые методы статистического анализа данных с применением к практическим задачам, что призвано способствовать совершенствованию профессиональной подготовки будущих специалистов МЧС России. В пособии рассмотрены как классические методы анализа, так и некоторые современные инструменты. В качестве основного технического инструмента выбран язык программирования R для статистической обработки и визуализации данных.
Бабенышев, С. В. Бабёнышев, С. В. Математические методы и информационные технологии в научных исследованиях : учебное пособие / С. В. Бабёнышев, Е. Н. Матеров. - Железногорск : ФГБОУ ВО Сибирская пожарно-спасательная академия ГПС МЧС России, 2018. - 215 с. - Текст : электронный. - URL: https://znanium.com/catalog/product/1082157 (дата обращения: 22.11.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
МИНИСТЕРСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ ПО ДЕЛАМ ГРАЖДАНСКОЙ
ОБОРОНЫ, ЧРЕЗВЫЧАЙНЫМ СИТУАЦИЯМ И ЛИКВИДАЦИИ ПОСЛЕДСТВИЙ
СТИХИЙНЫХ БЕДСТВИЙ

ФГБОУ ВО СИБИРСКАЯ ПОЖАРНО-СПАСАТЕЛЬНАЯ АКАДЕМИЯ
ГПС МЧС РОССИИ

С.В. Бабёнышев, Е.Н. Матеров

МАТЕМАТИЧЕСКИЕ МЕТОДЫ И ИНФОРМАЦИОННЫЕ
ТЕХНОЛОГИИ В НАУЧНЫХ ИССЛЕДОВАНИЯХ

Учебное пособие

Допущено Министерством Российской Федерации по делам гражданской обороны,
чрезвычайным ситуациям и ликвидации последствий стихийных бедствий
в качестве учебного пособия для адъюнктов образовательных организаций
МЧС России

Железногорск
2018

УДК 311:004.9R
ББК 60.6с515
Б12

Авторы: С. В. Бабёнышев, канд. физ.-мат. наук,
Е. Н. Матеров, канд. физ.-мат. наук

Рецензенты: А.П. Сатин, кандидат технических наук, доцент
(УНК АСИТ ФГБОУ ВО «Академия Государственной противопожарной службы
МЧС России»),
А. Ю. Тараканов, старший научный сотрудник
(ФГБОУ ВО ВНИИ ГОЧС (ФЦ))

Б12
Бабёнышев, С. В., Математические методы и информационные
технологии в научных исследованиях [Текст]: учебное пособие
/ С.В. Бабёнышев, Е.Н. Матеров — Железногорск: ФГБОУ ВО
Сибирская пожарно-спасательная академия ГПС МЧС России,
2018. — 215 с.: ил.

Учебное пособие предназначено для адъюнктов, обучающихся в ФГБОУ
ВО Сибирская пожарно-спасательная академия ГПС МЧС России. Кроме того,
материал пособия может быть полезен для магистров и слушателей старших
курсов. Основу пособия составил материал курса «Математические методы и
информационные технологии в научных исследованиях», преподаваемого для
адъюнктов.
В пособии рассмотрены некоторые методы статистического анализа данных
с применением к практическим задачам, что призвано способствовать совершенствованию профессиональной подготовки будущих специалистов МЧС России. В
пособии рассмотрены как классические методы анализа, так и некоторые современные инструменты. В качестве основного технического инструмента выбран
язык программирования R для статистической обработки и визуализации данных.

УДК 311:004.9R
ББК 60.6с515

c○ ФГБОУ ВО Сибирская пожарно-спасательная академия ГПС МЧС России, 2018
c○ С. В. Бабёнышев, Е. Н. Матеров, 2018

Оглавление

Введение
5

1
Описательная статистика
8

1.1
Характеристики средней тенденции данных
. . . . .
11

1.2
Показатели вариации данных относительно среднего
14

1.3
Показатели формы эмпирических распределений . . .
17

1.4
Программные средства для описательных статистик .
19

1.5
Проверка одномерного распределения на нормальность 22

1.6
Способы графического представления данных
. . . .
29

2
Элементы корреляционного анализа
55

2.1
Линейный коэффициент корреляции Пирсона
. . . .
55

2.2
Коэффициент корреляции Спирмена . . . . . . . . . .
68

2.3
Коэффициент корреляции Кенделла . . . . . . . . . .
72

2.4
Связь коэффициентов корреляции . . . . . . . . . . .
74

2.5
Программная реализация корреляционного анализа .
75

3
Основы регрессионного анализа
78

3.1
Парная линейная регрессия . . . . . . . . . . . . . . .
80

3.2
Множественная линейная регрессия . . . . . . . . . .
93

3.3
Программная реализация линейной регрессии . . . .
97

4
Временные ряды
113

4.1
Общие представления о временном ряде
. . . . . . .
113

4.2
Примеры временных рядов
. . . . . . . . . . . . . . .
121

4.3
Статистические функции временного ряда
. . . . . .
126

4.4
Стационарные временные ряды . . . . . . . . . . . . .
131

4.5
ARIMA-модель временного ряда . . . . . . . . . . . .
139

4.6
Программный анализ временных рядов . . . . . . . .
152

3

Оглавление

Приложение A Язык программирования R
175

A.1 Обзор языка R . . . . . . . . . . . . . . . . . . . . . .
175

A.2 Установка R . . . . . . . . . . . . . . . . . . . . . . . .
178

A.3 Базовые функции R . . . . . . . . . . . . . . . . . . .
180

A.4 Обзор библиотеки ggplot2 . . . . . . . . . . . . . . . .
187

A.5 Обзор библиотек dplyr и magrittr
. . . . . . . . . . .
200

Заключение
208

Литература
209

Предметный указатель
213

Введение

В современных условиях, для организации мониторинга, контроля и предвидения опасных процессов техносферы и явлений
природы, являющихся источниками чрезвычайных ситуаций, описания динамики развития обстановки, необходим объективный статистический анализ данных на основе оценки оперативной деятельности. Анализ данных позволяет осуществлять преобразование
данных и моделирование с целью извлечения полезной информации
и принятия решений. Осуществление такого рода мониторинга и
прогнозирования с целью повышения эффективности повседневной
деятельности оперативных подразделений МЧС России невозможно
без использования математического аппарата и информационных
технологий, поскольку объемы обрабатываемых данных могут быть
колоссальными.
Данное пособие является обзорным введением в методы первичной статистической обработки и визуализации данных, которые
могут стать основой для определения и совершенствования рекомендаций по оценке рисков чрезвычайных ситуаций и решению задач
управленческого характера. Основу материала, представленного в
пособии, составили как классические методы статистического анализа (например, корреляционный и регрессионный анализ), так и
введение в некоторые актуальные понятия с учетом возможностей
практического применения на примерах оперативных данных.
Анализ, моделирование и визуализация данных невозможны
без соответствующего прикладного программного обеспечения. В
данном издании в качестве основного инструмента был выбран
язык программирования R — специализированная программная среда с открытым кодом. Установка и работа в среде R описана в
Приложении A. Коротко отметим, что одними из главных преиму
5

Введение

ществ R перед другими средствами обработки данных являются:
нацеленность на статистическую обработку данных, возможность
получить качественный результат с помощью минимального набора
команд, большие графические возможности, и, что немаловажно,
бесплатность распространения. Практически все иллюстрации в
пособии выполнены авторами с использованием R. В каждой главе
содержится программный код написанный на R либо название соответствующих библиотек, иллюстрирующих как применяется тот
или иной метод.
Следует отметить, что использование информационных технологий и статистического анализа в применении к задачам, отвечающим приоритетным направлениям научно-технической деятельности
МЧС России, рассматривалось в различных учебных пособиях,
например [10], [14, Глава 8], [18], [20] однако использование языка R и некоторых вопросов статистического анализа в указанных
изданиях не рассматривались.
Кратко охарактеризуем содержание пособия.

∙ Глава 1 является вводной и содержит описательные статистики, их программную реализацию в R и некоторые современные
способы визуализации аналитических данных включая неклассические виды графиков.

∙ Глава 2 содержит элементы корреляционного анализа: коэффициенты корреляции Пирсона, Спирмена и Кенделла.

∙ В главе 3 рассмотрены основы регрессионного анализа: построение регрессионной модели, качества и значимости уравнения
регрессии.

∙ Глава 4 посвящена основам теории временных рядов. Здесь
подробно рассматриваются ARMA и ARIMA-модели и их
приложения.

∙ Приложение A посвящено основам языка R, отдельно сделан
обзор некоторых графических возможностей R.

Отметим, что детальное рассмотрение каждого из затронутых
в пособии вопросов выходит далеко за рамки настоящего издания.

Например, теория временных рядов — очень обширная область знаний и краткое знакомство с временными рядами в данном пособии
не охватывает многих вопросов, касающихся сезонных моделей и
спектрального анализа; в пособии не рассматривается логистическая регрессия; вопросы машинного обучения будут рассмотрены в
последующем издании. Данное пособие не призвано заменить классические учебники или научные публикации, а дать представление
о возможных статистических методах и стать идейным введением в
некоторые современные методики.
Б´ольшая часть рассмотренных в пособии примеров охватывает
динамику основных показателей оперативной обстановки в Российский Федерации. Основными источниками данных, представленных
в пособии стали:

∙ Электронная энциклопедия пожарного дела:

http://wiki-fire.org/

∙ Статистика пожаров:

https://sites.google.com/site/statistikapozaro/

∙ Сведения о чрезвычайных ситуациях на территории РФ:

https://sites.google.com/site/svedeniacs/

Авторы благодарны старшему научному сотруднику отдела прикладной информатики Института вычислительного моделирования
СО РАН Ничепорчуку Валерию Васильевичу за предоставление аналитических данных по пожарам в Красноярском крае, обобщаемых
Главным управлением МЧС России по Красноярскому краю.
Пособие основано на курсе дисциплины «Математические методы и информационные технологии в научных исследованиях»,
преподаваемого для адъюнктов направления подготовки 20.07.01
— Техносферная безопасность в ФГБОУ ВО Сибирская пожарноспасательная академия ГПС МЧС России. От читателя требуется знакомство с основами теории вероятностей и математической
статистики, преподаваемыми в рамках разделов курсов «Высшая
математика», «Математическая статистика» или эквивалентных курсов. Например, мы предполагаем знакомство с разделом «Проверка
статистических гипотез».

Глава 1

Описательная статистика

∙ Показатели эмпирических распределений

∙ Программные средства для описательных статистик

∙ Проверка одномерного распределения на нормальность

∙ Способы графического представления данных

С ростом технологий нас все больше окружает информация
самого различного характера и происхождения. Представление информации в формализованном виде, пригодном для коммуникации,
обработки и интерпретации определяет данные. Анализ обстояданные
тельств возникновения чрезвычайных ситуаций (ЧС), прогноз возможного развития явлений природного и техногенного характера, а
также принятие решений по снижению рисков, управлению силами
и средствами невозможен без правильного подхода к исследованию
данных.
В настоящее время, для решения сложных аналитических задач одной из самых передовых областей знаний является наука о
данных (Data Science) — междисциплинарная область, изучающая
наука
о данных
проблемы обобщения, анализа, алгоритмизации и представления
данных в численной и визуальной формах. Наука о данных опирается на инструменты эмпирических наук, статистики, отчетности,
анализа, визуализации, бизнес-аналитики, экспертных систем, машинного обучения, баз данных, хранения данных, интеллектуального анализа данных и больших данных. Наука о данных предлагает

8

следующую «дорожную карту» исследования данных, изображенную
на рис. 1.1.

Рисунок 1.1 — Общая схема анализа данных

1. Сначала осуществляется сбор и импорт данных. При этом
заранее не известно, какие переменные значимы, есть ли пропущенные данные, поэтому входные данные подвергаются
первичной обработке (заполнение пропущенных значений,
сглаживание выбросов, приведение к нормальному распределению и т.п.). Современные информационные технологии
предполагают хранение данных в табличном формате. Общий
принцип, который необходимо соблюдать при рассмотрении
таблиц, следующий: каждой переменной должен соответствовать столбец, каждому наблюдению — строка, а на их пересечении находятся наблюдаемые значения.

Глава 1. Описательная статистика

2. Далее данные преобразовываются в тот формат, который необходим для работы. Преобразование включает в себя как
правило: фильтрацию, позволяющую сконцентрироваться только на интересующих данных, создание новых переменных,
вычисление обобщающих статистик.

3. После преобразования данных для их дальнейшего понимания
существует две основных формы исследования данных: визуализация и моделирование. Поскольку они сами по себе
имеют как сильные, так и слабые стороны, они взаимно дополняют результат, а реальный практический анализ проводится
многократно от визуализации к моделированию и обратно.

Основное отличие разведочного анализа данных от моделирования заключается в том, что результаты разведочного анализа не
используются для выработки управленческих решений, их назначение — помощь в разработке наилучшей стратегии углубленного
анализа, выдвижение гипотез, уточнение особенностей применения
тех или иных математических методов и моделей. Основные цели
разведочного анализа данных:

∙ выявление основных структур
∙ выбор наиболее важных переменных
∙ обнаружение отклонений и аномалий
∙ проверка основных гипотез (предположений)
∙ разработка начальных моделей.

При описании и обработке эмпирических данных можно выделить следующие основные типы анализа:

1. Общая характеристики данных. Для первичной обработки
данных выделяют некоторое среднее значение, вокруг которого «разбросаны» данные. Существуют несколько типов для
характеристики средней тенденции и степени вариации относительно среднего, различного рода симметрии распределения
данных относительно среднего и так далее.

2. Сравнения между различными выборками. Данные из различных выборок сравнивают при помощи статистических те
Доступ онлайн
800 ₽
В корзину