Основы анализа статистических данных
Покупка
Новинка
Тематика:
Программирование и алгоритмизация
Издательство:
Омский государственный университет
Автор:
Агалаков Сергей Астафьевич
Год издания: 2024
Кол-во страниц: 95
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-7779-2707-1
Артикул: 851848.01.99
Приведено описание основных методов анализа статистических данных. Для каждого метода даны подробные инструкции по их применению в среде Google Colab с использованием языков программирования R или Python.
Для студентов математических и экономических направлений.
Тематика:
ББК:
УДК:
- 330: Экономические науки в целом. Политическая экономия
- 519: Комбинатор. анализ. Теория графов. Теория вер. и мат. стат. Вычисл. мат., числ. анализ. Мат. кибер..
ОКСО:
- ВО - Бакалавриат
- 01.03.01: Математика
- 01.03.05: Статистика
- 38.03.01: Экономика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное автономное образовательное учреждение высшего образования ОМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ им. Ф.М. ДОСТОЕВСКОГО С.А. Агалаков ОСНОВЫ АНАЛИЗА СТАТИСТИЧЕСКИХ ДАННЫХ Учебное пособие © Агалаков С.А., 2024 © ФГАОУ ВО «ОмГУ им. Ф.М. Достоевского», 2024 ISBN 978-5-7779-2707-1 Омск 2024
УДК 519.2+330.115 ББК В172я73я05 А230 Рецензенты: доктор физико-математических наук, профессор В.В. Сервах; кандидат физико-математических наук, доцент Т.В. Леванова Агалаков, С. А. А230 Основы анализа статистических данных : учебное пособие / С. А. Агалаков. – Омск : Издательство Омского государственного университета им. Ф. М. Достоевского, 2024. – 1 CD-ROM. – Загл. с титул. экрана. ISBN 978-5-7779-2707-1 Приведено описание основных методов анализа статистических данных. Для каждого метода даны подробные инструкции по их применению в среде Google Colab с использованием языков программирования R или Python. Для студентов математических и экономических направлений. УДК 519.2+330.115 ББК В172я73я05 Текстовое электронное издание Самостоятельное электронное издание Минимальные системные требования: процессор с частотой 1,3 ГГц или выше; ОЗУ 512 Мб; Microsoft Windows XP/Vista/7/8/10 и выше; Adobe Acrobat Reader 8.0 и выше; CD-ROM; мышь © Агалаков С.А., 2024 © ФГАОУ ВО «ОмГУ им. Ф.М. Достоевского», 2024
Редактор Д.С. Нерозник Технический редактор М.В. Быкова Программно-техническая реализация М.В. Быковой Дата выпуска: 19.09.2024 Тираж 9 копий. Объем 2,5 Мб Издательство Омского государственного университета им. Ф. М. Достоевского 644077, г. Омск, пр. Мира, 55а тел.: 8(3812) 22-25-71, 22-25-61, 64-13-07
ОГЛАВЛЕНИЕ Предисловие ....................................................................................................6 Глава 1. Основные понятия теории вероятностей и математической статистики § 1. Случайные величины............................................................................7 § 2. Генеральная совокупность и выборка...............................................15 Ключевые понятия.....................................................................................20 Глава 2. Введение в методы анализа данных § 1. Основные понятия ..............................................................................22 § 2. Визуализация данных.........................................................................27 Ключевые понятия.....................................................................................32 Глава 3. Статистический анализ одномерных выборок § 1. Отбор данных......................................................................................33 § 2. Отбор данных в Google Colab............................................................39 Справочный материал...............................................................................40 § 3. Подбор модельного распределения...................................................40 § 4. Подбор модельного распределения в Google Colab.........................46 Справочный материал...............................................................................47 Ключевые понятия.....................................................................................48 Глава 4. Введение в сравнительный анализ выборок § 1. Основные понятия ..............................................................................49 § 2. Виды тестов.........................................................................................51 § 3. Проверка полной однородности в Google Colab..............................53 Справочный материал...............................................................................54 Ключевые понятия.....................................................................................54 Глава 5. Сравнительный анализ двух выборок § 1. Параметрические тесты......................................................................55 § 2. Непараметрические тесты..................................................................58 § 3. Сравнительный анализ двух выборок в Google Colab.....................61 Справочный материал...............................................................................62 Ключевые понятия.....................................................................................63
Глава 6. Дисперсионный анализ § 1. Классический дисперсионный анализ...............................................64 § 2. Непараметрические тесты..................................................................68 § 3. Дисперсионный анализ в Google Colab.............................................70 Справочный материал...............................................................................71 Ключевые понятия.....................................................................................72 Глава 7. Факторный анализ § 1. Теоретические основы факторного анализа .....................................73 § 2. Метод главных компонент.................................................................77 § 3. Порядок выполнения факторного анализа .......................................81 § 4. Факторный анализ в Google Colab.....................................................92 Справочный материал...............................................................................93 Ключевые понятия.....................................................................................94 Список использованной и рекомендуемой литературы........................95
ПРЕДИСЛОВИЕ В процессе исследования различных явлений жизнедеятельности, зависящих от большого числа различных показателей, решение о выборе той или иной модели принимается на основе стохастической, неполной информации. Методы анализа таких данных позволяют выбрать ту модель, которая лучшим образом соответствует исходным статистическим данным, оценить достоверность сделанных выводов. Настоящее издание продолжает и развивает содержание пособия автора [1]. Пособие содержит краткое изложение основ анализа статистических данных и практические задания по их применению. Представлены следующие темы: визуализация данных, поиск аномальных данных, подбор распределения для генеральной совокупности, сравнительный анализ двух и более выборок, факторный анализ. Приведены подробные инструкции по применению перечисленных методов в среде Google Colab с использованием языков программирования R или Python. Цель предлагаемого пособия – научить студентов применять основные статистические методы анализа данных, используя современные программные средства. Предназначено для студентов, обучающихся по математическим и экономическим направлениям подготовки обучения. 6
Глава 1 ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ В этой главе приведено краткое изложение основ теории вероятностей и математической статистики, необходимых для изучения методов анализа статистических данных. § 1. Случайные величины Случайная величина – это величина, которая в результате эксперимента принимает свои значения случайным образом, т. е. с некоторой вероятностью. Закон распределения случайной величины – правило, дающее полное описание случайной величины: какие значения и с какой вероятностью она принимает. Универсальный способ задания закона распределения – с помощью функции распределения (CDF – cumulative distribution function). Функция распределения случайной величины – такая функция, значение которой в точке x равно вероятности того, что случайная величина примет значение меньше x. Виды случайных величин: дискретные (количество значений либо ограничено, либо счетно) и непрерывные. Закон распределения дискретной случайной величины – ряд распределения; состоит из двух строк: в первой строке – все возможные значения этой величины, во второй – вероятности, с которыми она эти значения принимает. Непрерывная случайная величина обычно задается с помощью функции плотности (PDF – probability density function). Эта функция показывает, с какой вероятностью случайная величина попадает в тот или иной интервал. 7
Для непрерывной случайной величины вероятность того, что она примет заданное значение, равна нулю. Числовые характеристики случайных величин: 9 математическое ожидание (среднее значение) Eξ случайной величины ξ ; 9 дисперсия ( ) 2 Var E E ξ ξ ξ = − ; 9 среднее квадратическое отклонение Var σξ ξ = . Меры зависимости двух случайных величин: 9 ковариация ( ) cov( , ) ( )( ) E E E ξ η ξ ξ η η = − − ; 9 корреляция cov( , ) ( , ) r ξ η ξ η σξ ση = ⋅ . Квантиль распределения. Число xα называется квантилем уровня α случайной величины ξ , если вероятность того, что в результате эксперимента случайная величина ξ примет значение, меньшее этого числа xα , равна α : ( ) P xα ξ α < = (см. рис. 1). Рис. 1 Медиана – это квантиль уровня 0,5. Модой абсолютно непрерывного распределения называют любую точку локального максимума плотности распределения. 8
Симметричное распределение – означает, что график плотности распределения симметричен относительно вертикальной прямой, проходящей через центр симметрии. Для описания отклонений конкретного распределения от симметричного используется коэффициент асимметрии (skewness), равный дроби, в числителе которой стоит третий центральный момент, а в знаменателе – третья степень среднего квадратического отклонения. Примерный вид симметричных и несимметричных распределений изображен на рис. 2. Рис. 2 9
Непрерывные распределения В этом подпараграфе приведены основные непрерывные распределения, используемые в статистических тестах. Нормальное распределение. Непрерывная случайная величина ξ имеет нормальное распределение с параметрами a и σ , если 2 2 ( ) ее функция плотности имеет вид: − − = . 2 1 ( ) 2 x a f x e σ σ π Известно, что E a ξ = , σξ σ = . Графики плотности нормального распределения при различных параметрах представлены на рис. 3. Рис. 3 10