Практикум по анализу данных на языках Python и R
Покупка
Тематика:
Программирование и алгоритмизация
Издательство:
Прометей
Год издания: 2023
Кол-во страниц: 100
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-00172-356-1
Артикул: 818735.01.99
Данное учебное пособие предназначено для студентов очного отделения, изучающих дисциплину «Анализ данных». Пособие написано в соответствии с программой дисциплины «Анализ данных». Оно предназначено для подготовки бакалавров по направлениям «Экономика» и «Бизнес-информатика» Финуниверситета. В пособии отражены темы: выборочный метод, точечные и интервальные оценки, проверка статистических гипотез, корреляционный анализ, дисперсионный анализ и анализ временных рядов. Пособие может быть использовано как для проведения семинарских занятий, так и для организации самостоятельной работы студентов.
Тематика:
ББК:
УДК:
- 004: Информационные технологии. Вычислительная техника...
- 519: Комбинатор. анализ. Теория графов. Теория вер. и мат. стат. Вычисл. мат., числ. анализ. Мат. кибер..
ОКСО:
- ВО - Бакалавриат
- 38.03.05: Бизнес-информатика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «ФИНАНСОВЫЙ УНИВЕРСИТЕТ ПРИ ПРАВИТЕЛЬСТВЕ РОССИЙСКОЙ ФЕДЕРАЦИИ» (ФИНАНСОВЫЙ УНИВЕРСИТЕТ) Департамент математики О.А. Баюк, М.Р. Исаева, М.О. Самсонкин ПРАКТИКУМ ПО АНАЛИЗУ ДАННЫХ НА ЯЗЫКАХ PYTHON И R Учебное пособие по дисциплине «Анализ данных» для студентов, обучающихся по направлениям 38.03.01 «Экономика» 38.03.05 «Бизнес-информатика» МОСКВА 2023
ISBN 978-5-00172-356-1 УДК 519.2 ББК 22.171 Б33 Авторы: О.А. Баюк, кандидат технических наук, доцент Департамента математики, Финансовый университет; М.Р. Исаева, студентка третьего курса факультета экономики и бизнеса Финансового университета; М.О. Cамсонкин, студент третьего курса факультета экономики и бизнеса Финансового университета. Б33 Практикум по анализу данных на языках Python и R: Учебное пособие / О.А. Баюк, М.Р. Исаева, М.О. Cамсонкин. — М.: Прометей, 2023. — 100 с. ISBN 978-5-00172-356-1 Данное учебное пособие предназначено для студентов очного отделения, изучающих дисциплину «Анализ данных». Пособие написано в соответствии с программой дисциплины «Анализ данных». Оно предназначено для подготовки бакалавров по направлениям «Экономика» и «Бизнес-информатика» Финуниверситета. В пособии отражены темы: выборочный метод, точечные и интервальные оценки, проверка статистических гипотез, корреляционный анализ, дисперсионный анализ и анализ временных рядов. Пособие может быть использовано как для проведения семинарских занятий, так и для организации самостоятельной работы студентов. © Коллектив авторов, 2023 © Издательство «Прометей», 2023
ОГЛАВЛЕНИЕ Введение .........................................................................................5 Глава 1. Выполнение расчетно-аналитической работы с помощью языка PYTHON ..........................................................8 1.1. Загрузка программы .............................................. 8 1.2. Загрузка исходных данных .....................................10 1.3. Оптимизация данных и вычисление дополнительных признаков для каждой компании.....14 1.4. Исследование изменения цен и проведение корреляционного анализа ......................................18 1.5. Исследование логарифмических доходностей акций ..................................................................27 1.6. Удаление выбросов логдоходностей акций ................28 1.7. Проверка гипотез о нормальности логдоходностей для каждой компании ............................................37 1.7.1. Проверка гипотезы по критерию Пирсона ........39 1.7.2. Проверка гипотезы по критерию ШапироУилка ..................................................................41 1.7.3. Проверка гипотезы по критерию Колмогорова-Смирнова .........................................44 1.8. Интервальные оценки параметров логарифмических доходностей. Определение доверительного интервала ......................................46 1.9. Тест Левена для проверки гипотезы о равенстве дисперсий тикеров ................................................47 1.10. Проверка гипотезы о равенстве логдоходностей компаний с помощью Т-критерия Стьюдента .............48 1.11. Влияние пандемии на цены акций. Проверка гипотезы об изменении средней после пандемии с помощью T-критерия Стьюдента ...........................49 1.12. Однофакторный дисперсионный анализ по периодам .........................................................52 1.13. Исследование тесноты связи между логдоходностями компаний ....................................55
ГЛАВА 2. Выполнение расчетно-аналитической работы с помощью языка R .....................................................................58 2.1. Загрузка программы .............................................58 2.2. Загрузка исходных данных .....................................60 2.5. Исследование логарифмических доходностей акций ..................................................................80 2.6. Удаление выбросов логдоходностей акций ................81 2.7. Проверка гипотез о нормальности логдоходностей для каждой компании ............................................84 2.7.1. Проверка гипотезы по критерию Пирсона ........86 2.7.2. Проверка гипотезы по критерию Шапиро-Уилка ...................................87 2.7.3. Проверка гипотезы по критерию Колмогорова-Смирнова .........................................88 2.8. Интервальные оценки параметров логарифмических доходностей. Определение доверительного интервала ......................................89 2.9. Тест Фишера для проверки гипотезы о равенстве дисперсий тикеров ................................................90 2.10. Проверка гипотезы о равенстве логдоходностей компаний с помощью Т-критерия Стьюдента .............91 2.11. Влияние пандемии на цены акций. Проверка гипотезы об изменении средней после пандемии с помощью T-критерия Стьюдента ...........................92 2.12. Однофакторный дисперсионный анализ по периодам .........................................................95 Заключение..................................................................................97 Список литературы .....................................................................98
ВВЕДЕНИЕ В предлагаемом пособии сформулировано задание по расчетно-аналитической работе (РАР) по дисциплине «Анализ данных» и приведены рекомендации по выполнению этого задания с использованием средств программирования RStudio и Python. Определены отличия в выполнении задания на разных языках программирования и сделаны выводы об удобстве использования каждого средства программирования на каждом этапе расчетно-аналитической работы. Python — это высокоуровневый, интерпретируемый язык программирования, построчно выполняющий заданные программы при помощи интерпретатора1. Данный язык отличается значительной простотой и удобством использования. Python поддерживает разные файлы, такие как файлы CSV, файлы Excel, XML и JSON, и используется для решения широкого круга задач: проведения научных исследований, машинного обучения, вебразработок и многого другого. Python удобен для выполнения статистических исследований данных больших объемов. Не менее популярным языком программирования для проведения анализа данных является R. Это программная среда имеет обширный набор библиотек, позволяющих совершать глубокий статистический анализ. Основное преимущество использования R заключается в том, что его можно применять для реализации статистических концепций, таких как линейное и нелинейное моделирование, анализ временных рядов, кластеризация. R позволяет обрабатывать различные структуры данных, такие как векторы, списки, матрицы, массивы, факторы и фреймы данных. Таким образом, обширный функционал самых популярных языков программирования и удобство их исполь 1 Сузи, Р.А. Язык программирования Python: Курс лекций. 3 c.
зования для построения статистических моделей и проведения анализа больших объемов данных подчеркивает актуальность данного методического пособия. ЗАДАНИЕ ПО РАР 1. Скачать дневные цены закрытия акций в течение 4—7 лет (например, 2015—2019). Варианты по 3 компании для каждого студента формировать с указанием следующих параметров (тикеры для каждого варианта должен сообщить преподаватель): тикер компании, начальная дата (например, 208 дат с недельным шагом с января 2015 г.) 2. Вычислить следующие признаки для каждой компании: – логарифм цены, – логарифмическую доходность (логдоходность), – логарифм объёма. 3. Выполнить следующие исследования: – предварительная обработка данных, – описательная статистика, – найти выбросы и построить диаграммы «Ящик с усами», – построить диаграммы рассеяния для логарифмов цен и логарифмов объёмов торгов. 4. Удалить строки с выбросами в логдоходностях всех трех компаний. 5. Выполнить повторение предварительного исследования с данными без выбросов: привести описательную статистику, построить диаграмму «Ящик с усами» и диаграммы рассеяния, построить гистограммы интервальных частот и эмпирическую функцию распределения. 6. Выполнить детальный анализ логдоходностей для каждой компании с данными без выбросов: 6.1. вычислить точечные оценки параметров нормального распределения; 6.2. построить интервальные оценки параметров нормального распределения;
6.3. построить диаграммы, содержащие гистограмму эмпирической плотности и график теоретической плотности распределения; 6.4. построить графики эмпирической функции распределения и графики теоретической функции распределения. проверить гипотезу о нормальности логдоходностей по критерию хи-квадрат, по критерию Шапиро-Уилка и по критерию Колмогорова-Смирнова. 6.5. сравнить результаты проверки по трем критериям; 6.6. для каждой акции проверить на 5%-ном уровне значимости гипотезу о том, что дисперсии тикеров равны, в каждом случае вычислить также наблюдаемый уровень значимости (p-value). 6.7. проверить гипотезы о равенстве средних значений логарифмической доходности компаний (двусторонний t-тест без каких-либо предположений об однородности дисперсий); 6.8. проверить гипотезы о влиянии пандемии на цены и доходности акций, проверить гипотезы об изменении средний с помощью критерия Стьюдента. 7. Выполнить однофакторный дисперсионный анализ для исследования зависимости средних значений логдоходностей от номера года. 8. Исследовать тесноту связи между логдоходностями. 9. Оформить соответствующий выполненной работе отчёт в MS Word с формулами и с подробным описанием всех процедур, а также с таблицами и рисунками, на которых должны присутствовать все необходимые обозначения.
ГЛАВА 1. ВЫПОЛНЕНИЕ РАСЧЕТНО-АНАЛИТИЧЕСКОЙ РАБОТЫ С ПОМОЩЬЮ ЯЗЫКА PYTHON Прежде чем перейти к выполнению работы с помощью языка программирования Python, необходимо обосновать его актуальность и востребованность для решения данной задачи. В отличие от привычной программы Microsoft Excel, позволяющей выполнять статистические исследования и визуализировать данные при помощи простых инструментов, Python позволяет быстро анализировать большие объемы данных с использованием углубленной аналитической базы, строить модели и визуализировать полученные результаты. Широкий доступ к различным высокоэффективным библиотекам делает Python наиболее доступным и удобным языком программирования, предназначенным для анализа данных. Особенно хорошо Python показывает себя при работе с большими данными (Big Data), анализ которых в среде Excel попросту невозможен ввиду ограничения на число строк (1048576). 1.1. Загрузка программы Для начала необходимо загрузить утилиту Anaconda, где можно будет использовать окружение Jupiter Notebook. Для этого нужно открыть официальный сайт Anaconda.com, выбрать требующуюся разрядность и запустить установочный файл. (ссылка для скачивания: https://www.anaconda.com/products/distribution).
Рис. 1. Загрузка программы Anaconda В Anaconda.Navigator — графическом интерфейсе рабочего стола — находим окружение Jupiter. Jupyter Notebook — это инструмент для создания аналитических работ, так как он позволяет хранить вместе код, изображения, комментарии, формулы и графики. ПО подготовлено, переходим к парсингу данных. Под парсингом понимается процесс автоматизированного сбора информации, необходимой для анализа. Рис. 2. Главная страница графического интерфейса Anaconda.Navigator
1.2. Загрузка исходных данных Данные для исследования считываются из базы данных Московской биржи. Для этого следует перейти по адресу: https://mfd.ru/export/ На сайте MFD в разделе «Мосбиржа Акции и ПИФы» найдем тикеры нужных компаний с 2015 года по настоящее время. Далее следует задать формат записей формируемого списка. Для успешной обработки данных об акциях компаний с помощью программы Python установим следующие параметры. Промежуток — неделя, разделитель — точка с запятой, а вот десятичный разделитель лучше выбрать точкой — Python интерпретирует float, то есть числа с плавающей точкой, только если используется именно таковая. Рис. 3. Выбор акций нужных компаний и формирование формата записей Вообще формат txt не лучшим образом подходит для обработки библиотекой pandas, но это и не худший вариант. В любом случае, всегда есть возможность использовать формат csv. После нажатия кнопки «получить данные» в памяти компьютера сохранился текстовый файл с необходимыми данными. Теперь перейдем к загрузке этих данных в окружение Jupiter Notebook.