Интеллектуальный анализ данных
Покупка
Основная коллекция
Тематика:
Базы и банки данных. СУБД
Издательство:
Волгоградский государственный аграрный университет
Автор:
Богданов Евгений Павлович
Год издания: 2019
Кол-во страниц: 112
Дополнительно
Практикум предназначен для изучения статистического пакета Statistics SPSS, его интерфейса и способов обмена данными с другими приложениями, а также изучению алгоритмов статистического анализа с использованием табличного процессора Excel и системы компьютерной математики Mathcad. Практикум предназначен для подготовки магистрантов направления 09.04.03 «Прикладная информатика», и может быть использован широким кругом специалистов изучающих методы анализа данных.
Тематика:
ББК:
УДК:
- 004: Информационные технологии. Вычислительная техника...
- 519: Комбинатор. анализ. Теория графов. Теория вер. и мат. стат. Вычисл. мат., числ. анализ. Мат. кибер..
ОКСО:
- ВО - Магистратура
- 09.04.03: Прикладная информатика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Министерство сельского хозяйства Российской Федерации Департамент научно-технологической политики и образования Федеральное государственное бюджетное образовательное учреждение высшего образования «Волгоградский государственный аграрный университет» Е. П. Богданов ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ ПРАКТИКУМ для подготовки магистрантов направления 09.04.03 «Прикладная информатика» профиль подготовки «Информационные системы и технологии корпоративного управления» Волгоград Волгоградский ГАУ 2019г
УДК 004.67:519.257(07) ББК 32.81я73 Б - 73 Рецензенты: доктор технических наук, профессор, декан факультета подготовки и переподготовки инженерных кадров ВолгГТУ Савкин А. Н., доктор технических наук, профессор ВолГАУ О. В. Кочеткова Богданов Евгений Павлович Б - 73 Интеллектуальный анализ данных: практикум для маги странтов направления 09.04.03 «Прикладная информатика» профиль подготовки «Информационные системы и технологии корпоративного управления» / Е. П. Богданов. – Волгоград: ФГБОУ ВО Волгоградский ГАУ, 2019. – 112 с. Практикум предназначен для изучения статистического пакета Statistics SPSS, его интерфейса и способов обмена данными с другими приложениями, а также изучению алгоритмов статистического анализа с использованием табличного процессора Excel и системы компьютерной математики Mathcad. Практикум предназначен для подготовки магистрантов направ ления 09.04.03 «Прикладная информатика», и может быть использован широким кругом специалистов изучающих методы анализа данных. УДК 519.257 004.67 ББК 32.973.26-018.2я73 ФГБОУ ВО Волгоградский ГАУ, 2019 Богданов Е. П.
ОГЛАВЛЕНИЕ Введение 5 Лабораторная работа № 1. Методы описательной статистики в пакете SPSS 7 Определение основных параметров выборки, построение таблиц частот и гистограмм 7 Работа с редактором данных 9 Открытие данных в формате электронных таблиц. 11 Создание вектора случайных чисел с помощью пакета SPSS 13 Выбор процедур для анализа 14 Вопросы для написания отчета 19 Лабораторная работа № 2. Проверка статистических гипотез в пакете SPSS 20 Отчет по лабораторной работе 28 Лабораторная работа № 3. Анализ нормальных выборок 29 Глазомерный метод проверки нормальности и оценка доверительных интервалов для средних значений и дисперсий 29 Оценка среднего при неизвестной дисперсии 36 Оценка доверительного интервала для дисперсии 37 Отчет по лабораторной работе 38 Лабораторная работа №4. Однофакторный дисперсионный анализ данных в табличном процессоре EXCEL 39 Проверка влияния обработки с использованием непараметрического критерия 39 Оценивание эффектов обработки 44 Однофакторный дисперсионный анализ 46 Отчет по лабораторной работе 49 Лабораторная работа №5. Проверка влияния обработки с использованием непараметрического критерия и однофакторный дисперсионный анализ данных в программе SPSS 50 Однофакторный анализ в пакете SPSS 55 Отчет по лабораторной работе 57 Лабораторная работа № 6. Двухфакторный анализ при оценке влияния эффекта обработки в пакете SPSS 58 Развернутые статистические характеристики для каждой группы 64 Отчет по лабораторной работе 68 Лабораторная работа №7. Двухфакторный анализ в табличном процессоре Excel 69 Таблица двухфакторного анализа 70 Статистика Фридмана 75
Правило проверки гипотезы 75 Оценка параметров статистической модели 77 Двухфакторный дисперсионный анализ 80 Отчет по лабораторной работе 83 Лабораторная работа № 8. Регрессионный анализ в пакете SPSS 84 Отчет по лабораторной работе 94 Лабораторная работа № 9. Анализ таблиц сопряженности для данных, измеренных в номинальных шкалах, и различные виды коэффициентов корреляции в пакете SPSS 95 Использование различных видов коэффициентов корреляции 101 Отчет по лабораторной работе 103 Лабораторная работа № 10. Использование критериев согласия для оценки соответствия фактических данных выбранному закону распределения 104 Отчет по лабораторной работе 108 Список рекомендованной литературы 109
ВВЕДЕНИЕ В любой области науки и техники большое значение играет об работка и анализ данных. Этот анализ должен учитывать, что на изу чаемые процессы и явления действует большое число разнообразных факторов. Причем многие из них не могут быть учтены в используе мых моделях. Потому исследуемые данные всегда содержат случай ную составляющую, о природе которой строятся только догадки. Классической основой извлечения знаний из накопленных дан ных является математическая статистика, которая базируется на принципе случайного выбора и случайности, статистических законах и статистических моделях. Большое значение в развитии современно го общества играет статистический прогноз и оценки его доверитель ных интервалов. Существует большое количество программных про дуктов, которые значительно упрощают громоздкие вычисления и упрощают анализ, однако при их использовании кажущаяся простота вычислений, достигаемая использованием программного обеспечения, не позволяет начинающему исследователю понять алгоритмы вычис лений, оценить гипотезы, лежащие в их основе, оценить достовер ность и надежность получаемых результатов. В настоящее время сформировалось мнение, что методы математи ческой статистики оказались полезными, главным образом, для проверки заранее сформулированных гипотез и для «грубого» разведочного анали за, составляющего основу оперативной аналитической обработки дан ных. Это в какой-то мере оправдано, когда речь идет об обработке очень больших объёмов данных и огромном числе действующих факторов. Однако при небольшом числе данных, с которыми имеют дело аналити ки при исследовании эффектов обработки, сравнении выборок между со
бой, однофакторном и многофакторном анализе небольших выборок ме тоды математической статистики оказываются незаменимы. Поэтому в данном пособии основное внимание уделено освоению статистического пакета Statistics SPSS и изучению алгоритмов статистического анализа средствами табличного процессора Excel и системы компьютерной ма тематики Mathcad, которые позволяют детально изучить алгоритмы раз личного вида оценок, методах вычисления параметрических и непара метрических критериев. В деталях рассмотреть и почувствовать, как влияет объём выборки на точность получаемых оценок. Часть интеллектуального анализа данных, которая связывается с широким спектром процедур автоматического анализа данных высоко интеллектуальными технологиями, была рассмотрена при изучении при кладной информатике в курсе бакалавриата. Для этого была использова на аналитическая платформа Deductor, с использованием которых про изводилась предобработка данных, создавались нейронные сети, позво ляющие аппроксимировать многопараметрические зависимости, прово дить кластеризацию больших совокупностей данных, получать деревья решений и создавать ассоциативные правила. Дальнейшее развитие навыков и умений в данном направлении будет осуществлено при изу чении дисциплины "Математические и инструментальные методы под держки принятия решений". Важно отметить, что методы статистического анализа данных являются универсальными и могут применяться в самых различных областях человеческой деятельности. В пособии существенное вни мание уделено непараметрическим методам оценивания, которые яв ляются робастными (устойчивыми) и имеют более широкие границы применения, чем классические методы статистики, созданные в XIX и первой половине XX века.
ЛАБОРАТОРНАЯ РАБОТА № 1. МЕТОДЫ ОПИСАТЕЛЬНОЙ СТАТИСТИКИ В ПАКЕТЕ SPSS Определение основных параметров выборки, построение таблиц частот и гистограмм В примере, представленном здесь, используется файл дан ных demo.sav. Файл данных представляет собой данные вымышленно го опроса нескольких тысяч человек, содержащие демографическую информацию и информацию о потреблении. Для открытия файла используйте кнопку Открыть файл в пане ли инструментов После открытия файла demo.sav получим окно редактора данных
Рисунок 1 Окно редактора данных со значениями Если в Редакторе данных навести курсор мыши на имя пере менной (заголовок столбца), появится метка (более подробное описа ние) переменной, если только она задана. По умолчанию, в Редакторе данных показаны значения данных. Чтобы были показаны метки: Вы берите в меню: Вид > Метки значений. Рисунок 2 – Выбор вида представленияданных с указанием меток значений.
Файлы данных IBM® SPSS® Statistics организованы по наблю дениям (строкам) и переменным (столбцам). В нашем файле данных наблюдения представляют отдельных респондентов опроса. А пере менные представляют ответ на каждый вопрос, задававшийся в ходе опроса. Рисунок 3 – Окно редактора с метками значений Теперь в Редакторе данных отображаются описательные метки значений, облегчающие интерпретацию ответов. Работа с редактором данных В Редакторе данных отображается содержимое активного набо ра данных. Информация в Редакторе данных состоит из переменных и наблюдений. • В закладке Данные столбцы представляют собой переменные, а строки - наблюдения. • В закладке Переменные, строки представляют переменные, а столбцы - свойства переменных.
Переменные используются для представления анализируемых данных. Для примера можно взять опрос. Любой вопрос, на который можно дать один ответ, представляет собой одну переменную. Пере менные бывают различных типов, включая числовые, текстовые, ва люту и даты Данные можно вводить в Редакторе данных. Это может иметь смысл, когда объем данных невелик или когда необходимо внести не большие изменения или добавления в данные большого объема. Щелкните по закладке Переменные внизу окна Редактора дан ных. Необходимо задать переменные, которые будут использоваться. Мы зададим только три переменные: возраст, семейное положение и доход. На рис . 4 показан английский эквивалент переменных. Рисунок 4 – Окно редактора данных при нажатой кнопке Переменные Новые переменные автоматически становятся числовыми. Можно изменить тип переменных, выбирая из списка. В окне Пере менные можно изменить количество десятичных знаков после запя той, общее количество знаков, выделяемое под значение, изменить тип шкалы, в которой производится измерение анализируемой вели чины.