Информационные технологии статистического анализа данных
Покупка
Тематика:
Статистика
Год издания: 2019
Кол-во страниц: 152
Дополнительно
Вид издания:
Учебно-методическая литература
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-7882-2636-1
Артикул: 787443.01.99
Рассмотрены теоретические основы и пошаговые алгоритмы проведения анализа данных в статистических системах. Каждая тема наряду с теоретическим материалом содержит подробные методические рекомендации по выполнению лабораторной работы.
Предназначено для студентов, обучающихся по направлениям «Экономика», «Статистика».
Подготовлено на кафедре бизнес-статистики и математических методов в экономике.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 01.03.05: Статистика
- 38.03.01: Экономика
- 38.03.05: Бизнес-информатика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Министерство науки и высшего образования Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования «Казанский национальный исследовательский технологический университет» Ю. П. Александровская ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ Учебно-методическое пособие Казань Издательство КНИТУ 2019
УДК 311:004 (075) ББК 60.6с51я7 А46 Печатается по решению редакционно-издательского совета Казанского национального исследовательского технологического университета Рецензенты: канд. эконом. наук, доц. С. С. Кудрявцева д-р пед. наук, доц. Ю. В. Торкунова А46 Александровская Ю. П. Информационные технологии статистического анализа данных : учебно-методическое пособие / Ю. П. Александровская; Минобрнауки России, Казан. нац. исслед. технол. ун-т. – Казань : Изд-во КНИТУ, 2019. – 152 с. ISBN 978-5-7882-2636-1 Рассмотрены теоретические основы и пошаговые алгоритмы проведе ния анализа данных в статистических системах. Каждая тема наряду с теоретическим материалом содержит подробные методические рекомендации по выполнению лабораторной работы. Предназначено для студентов, обучающихся по направлениям «Эконо мика», «Статистика». Подготовлено на кафедре бизнес-статистики и математических методов в экономике. ISBN 978-5-7882-2636-1 © Александровская Ю. П., 2019 © Казанский национальный исследовательский технологический университет, 2019 УДК 311:004 (075) ББК 60.6с51я7
ВВЕДЕНИЕ В современном мире принятие управленческих, производ ственных, финансовых, кадровых и других решений все чаще основывается на всестороннем анализе данных, что позволяет делать обоснованные выводы и прогнозы, давать оценки вероятности их выполнения и зачастую предотвращать принятие необоснованных и непродуманных решений. Владение основами статистических методов анализа данных необходимо не только специалистам, работающим в естественнонаучных и инженерных областях, но также представителям гуманитарных профессий: экономистам, менеджерам, социологам, психологам. Современные организации стремятся полнее использовать статистические данные для решения своих задач. Навыки обработки и анализа данных в настоящее время является частью профессиональной культуры многих специалистов. Возможность использования компьютеров и современных информационных технологий анализа данных сделала доступными для пользователей широкий набор самых современных методов статистического анализа. Высокая потребность в средствах статистического анализа данных в различных областях деятельности обусловила развитие рынка компьютерных программ для статистической обработки данных. В настоящее время на рынке представлено около тысячи статистических пакетов, разнообразие которых определено многоплановостью задач обработки данных с применением различных типов статистических процедур анализа для поиска ответов на вопросы из различных областей деятельности человека. В пособии рассмотрен инструментарий анализа данных в сре дах универсальных статистических систем IBM SPSS STATISTICS и STATISTICA. Выбор систем обусловили: • степень входящей подготовки студентов; • требования ФГОС ВО 3++ к формированию компетенций бакалавров; • ориентированность потенциальных работодателей на ра боту с пакетом (широта распространения пакета); • унифицированность программного интерфейса пакета.
ОБЗОР СИСТЕМ СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ Статистические системы по своим функциональным возмож ностям могут быть разделены на три основные группы: универсальные, или системы общего назначения, профессиональные и специализированные системы. Универсальные системы (системы общего назначения) Наиболее известными из них являются IBM SPSS STATISTICS, STATISTICA, S-PLUS, STADIA, STATGRAPHICS PLUS, SYSTAT, MINITAB. Эти пакеты не ориентированы на специфическую область де ятельности и могут решать задачи разных предметных областей, таких, например как финансово-экономическая сфера (анализ рисков, прогнозирование финансовых и экономических показателей, микро- и макроэкономическое моделирование, анализ операций по вкладам, страхование); государственное управление (Проведение социально-экономических мониторингов и обследований, оценка эффективности работы государственных институтов, анализ обращений граждан, разработка отчетов); торговля (сравнительный анализ поставщиков, прогнозирование потребления и оптимизация запасов, ценообразование); маркетинг (ранжирование товаров, сегментация рынка, анализ спроса); производство (анализ качества продукции, прогнозирование потребления ресурсов, оптимизационные эксперименты); социология (анализ результатов опросов, анализ качества услуг информационных провайдеров в Интернет); образование (обучение методам статистического анализа данных) и др. Как правило, они предлагают широкий диапазон статистиче ских методов и имеют относительно простой интерфейс. С такими пакетами рекомендуется работать начинающим пользователям,
владеющим лишь базовыми знаниями в области статистики, а также опытным пользователям на начальных этапах работы с данными, когда еще четко не определены статистические методы, которые будут применяться для решения того или иного вопроса. Многопрофильность универсального пакета позволяет провести пробный анализ различных типов данных с использованием широкого диапазона статистических методов. Большинство существующих универсальных пакетов имеют много пересечений по составу встроенных статистических процедур. Для того чтобы статистический пакет считался универсаль ным, он должен удовлетворять ряду требований: • содержать достаточно широкий набор стандартных стати стических методов; • быть достаточно простым для быстрого освоения и ис пользования непрофессиональным пользователем; • работать с достаточно большими базами данных и отве чать высоким требованиям к вводу, преобразованию и организации хранения данных; • осуществлять обмен данными с широко распространен ными пакетами и базами данных; • иметь обширный набор средств графического представле ния данных и результатов их анализа; • иметь подробное документационное сопровождение и справочную систему, позволяющую начинающему пользователю с легкостью находить ответы на вопросы, связанные с работой программы и возможностями применения средств анализа данных. Большинство представленных на рынке статистических паке тов обладают гибкой модульной структурой, которая может расширяться за счет пользовательских модулей, дополнительно закупаемых или находящихся в свободном доступе в Интернете. Подобная гибкость позволяет адаптировать большинство пакетов к потребностям конкретного пользователя. По мнению профессионалов, статистический пакет должен удовлетворять следующему минимальному набору требований: • модульность;
• ассистирование при выборе способа обработки данных; • использование простого проблемно-ориентированного языка для формулировки задания пользователя; • автоматическая организация процесса обработки данных; • ведение банка данных пользователя и составление отчета о результатах проделанного анализа; • диалоговый режим работы пользователя с пакетом; • совместимость с другим программным обеспечением. IBM SPSS Statistics. В настоящее время одним из лидеров среди универсальных статистических пакетов является IBM SPSS Statistics (Statistical Package for the Social Science). IBM SPSS Statistics – это полнофункциональная статистическая система, предназначенная для решения исследовательских и бизнес-задач при помощи анализа данных. Первая версия пакета была выпущена в 1968 г. компанией SPSS Inc. В 2009 г. компания IBM поглотила SPSS Inc. В России существует представительство компании SPSS, которое распространяет русифицированную версию пакета. На русском языке создан электронный учебник по применению пакета, издано множество работ по обучению работе. Интуитивно понятный интерфейс IBM SPSS Statistics вклю чает в себя все функции управления данными, статистические процедуры и средства создания отчетов для проведения анализа любой степени сложности. SРSS является модульной программой. Ее основу составляет базовый модуль (SPSS Base), позволяющий осуществлять управление данными и содержащий наиболее распространенные методы статистического анализа данных: проведение описательной статистики; построение линейных и нелинейных моделей; осуществление преобразования данных; проведение факторного, кластерного, дисперсионного анализов; вычисление корреляций; построение графиков; подготовка отчетов; визуализация данных и результатов анализа и пр. Около 80% пользователей в разных отраслях находят в составе базового модуля весь необходимый статистический функционал. Для проведения расширенного и углубленного анализа дан ных могут быть установлены дополнительные модули пакета.
Для пакета IBM SPSS Statistics 21 разработаны 16 различных модулей. К достоинствам SPSS можно отнести: развитый аппарат статистического анализа; • универсальность (может быть использован для решения широкого круга вопросов из различных предметных областей, требующих проведения статистического анализа данных); • широкий набор статистических и графических процедур (более 50 типов диаграмм) анализа данных, а также процедур создания отчетов; • удобная загрузка данных различных форматов (в том числе, созданных в Excel); • высокая скорость вычислений, простой и удобный интер фейс; • детальная контекстно-ориентированная справочная си стема, позволяющая неопытному пользователю с большей легкостью ориентироваться в программе; • возможность свободного скачивания демонстрационной версии продукта на официальном сайте компании, наличие версий продукта на различных языках; • совместимость с операционными системами Windows, Mac, Linux; • наличие значительного количества литературы по работе с пакетом. Недостатками SPSS являются: • высокие требования к системе компьютера (требуется 1 GB оперативной памяти, 800 MB памяти на жестком диске и процессор с частотой 1 GHz и выше); • высокая цена по сравнению со статистическими пакетами аналогичного уровня (стоимость покупки для индивидуального пользования сроком на год составляет около 1000 долл.). STATISTICA. Среди универсальных систем статистического анализа данных широкое распространение получил также пакет STATISTICA. На российском рынке он пользуется популярностью благодаря высокой активности фирмы-разработчика Statsoft и
дилера в России – Softline, способствующих популяризации пакета. На сайте российского представительства фирмы-разработчика пакета (www.statsoft.ru) размещен электронный учебник по статистике, а также доступная студенческая версия программы. STATISTICA относится к числу базовых пакетов вузов России. Первая версия пакета (STATISTICA for DOS) была выпущена в 1991 г. На сегодняшний день разработана 9-я версия пакета (STATISTICA 9). Русифицирована только 6-я версия (STATISTICA 6). Пакет STATISTICA по своим средствам и возможностям гра фического отображения информации конкурирует с универсальным математическим пакетом MATHEMATICA. Стандартную комплектацию пакета STATISTICA составляют три модуля, которые могут приобретаться как единым пакетом, так и отдельно. 1. Базовый пакет STATISTICA Base предоставляет обширные возможности выбора основных типов статистического анализа. Для эффективной работы базового пакета требуется как минимум 256 MB оперативной памяти. Минимальные требования к скорости процессора – 500 MHz. 2. Модуль Линейные и Нелинейные Модели (Advanced Linear/NonLinearModels) содержит большой набор инструментов для моделирования и прогнозирования, включая возможности автоматического выбора модели и расширенные интерактивные средства визуализации. 3. Модуль Многомерные разведочные технологии анализа (Multivariate Exploratory Techniques) служит для применения разведочного анализа различных типов данных в сочетании с интерактивными средствами визуализации. Помимо общих статистических и графических средств в си стеме имеются специализированные модули, например, для проведения социологических или биомедицинских исследований, решения технических и промышленных задач, – карты контроля качества, модули анализа процессов и планирования эксперимента. Пакет предоставляет пользователям следующие возможности статистического анализа данных: • исследование корреляций между переменными; • диаграмма рассеяния, матричная диаграмма рассеяния;
• быстрые основные статистики и блоковые статистики (ин терактивные средства, позволяющие одним щелчком мыши вычислять основные статистики и строить графики в любой момент в течение сеанса работы); • интерактивный калькулятор вероятностных распределе ний (позволяет интерактивно исследовать структуру распределений, например, зависимость вероятности от параметров); • анализ многомерных откликов, многомерное шкалирова ние; • анализ при помощи временных рядов и прогнозирование временных зависимостей, в том числе анализ сезонных колебаний. Достоинства системы STATISTICA: • реализован обмен данными между STATISTICA и Windows-приложениями; • результаты анализа в виде графиков, таблиц и текста могут быть сохранены в файле с форматом RTF, который открывается и редактируется в MS Word; • возможность расширения системы при помощи создания программ на встроенном в STATISTICA языке программирования; • исходные данные из MS Excel можно легко импортировать в STATISTICA; • возможность записи макросов для автоматизации выпол нения однотипных задач; • программа способна обрабатывать большие массивы дан ных – базы данных с числом переменных до 32 000 и практически неограниченным числом наблюдений. В пакете представлены несколько сотен типов графиков 2D, 3D и 4D, матрицы и пиктограммы; предоставляется возможность разработки собственного дизайна графика. Средства управления графиками позволяют работать одновременно с несколькими графиками, изменять размеры сложных объектов, добавлять художественную перспективу и ряд специальных эффектов, разбивку
страниц и быструю перерисовку. Например, 3D-графики можно вращать, накладывать друг на друга, сжимать или увеличивать. STATISTICA обладает огромными возможностями для по строения графиков непосредственно из таблиц исходных данных и таблиц результатов. Построение графических объектов и анализ данных в пакете тесно интегрированы. После получения результатов статистического анализа их можно с легкостью представить графически посредством команды Быстрые статистические графики. В разных модулях системы имеются свои специальные графики, учитывающие особенности получаемых в них результатов. Начинающие пользователи могут начать работу со специаль ной версии, разработанной для обучения основам статистических методов – Studеnt Еditiоn оf STATISTICA. Эта версия представляет собой урезанный вариант пакета и позволяет анализировать файлы данных, включающих не более 400 наблюдений. STATGRAPHICS PLUS. К числу достаточно мощных уни версальных пакетов относится также STATGRAPHICS PLUS. Пакет STATGRAPHICS (STATistical GRAPHICs System) – универсальный статистический пакет компании Manugistics Inc. Первая версия пакета была выпущена в середине 80-х годов. На сегодняшний день разработана 5-я версия пакета Statgraphics Plus 5.1. Достоинства STATGRAPHICS: • сочетание научных методов обработки разнотипных дан ных с возможностью создания современной высококачественной интерактивной графики; • широкие возможности взаимодействия с другими про граммными продуктами (электронными таблицами, базами данных); • высококачественная двумерная и трехмерная графика, • интегрированная графика, предполагающая, что все эле менты графических представлений результатов анализа могут быть преобразованы. После завершения процедуры статистического анализа данных можно выбрать графические отображения результатов, релевантные используемой процедуре анализа.