Applied Multivariate Statistical Analysis: Presentations for Lecturing and Working Examples with R=Прикладной многомерный статистический анализ: Презентации для лекций и примеры решений с использованием пакета R
Прикладной многомерный статистический анализ: руководство для преподавателей и студентов
Эта книга, написанная Еленой Заровой, представляет собой учебное пособие по прикладному многомерному статистическому анализу, предназначенное для преподавателей и студентов, изучающих эту дисциплину на английском языке. Книга включает в себя презентации для лекций и примеры решения задач с использованием пакета R, что делает ее ценным ресурсом для освоения практических аспектов многомерной статистики.
Введение в многомерный статистический анализ
Книга начинается с введения в многомерный статистический анализ, определяя его как раздел математической статистики, посвященный методам сбора, обработки и анализа многомерных статистических данных. Основная цель – выявление и анализ взаимосвязей между компонентами многомерных признаков. Рассматриваются различные методы визуализации многомерных данных, включая геометрические проекции, пиксельно-ориентированные техники, методы заполнения пространства, иконографию и иерархическое отображение. Особое внимание уделяется проблеме обработки пропущенных данных и методам робастного статистического оценивания, которые важны для получения надежных результатов в условиях неполных или искаженных данных.
Кластерный анализ
Второй раздел посвящен кластерному анализу, который рассматривается как метод группировки объектов на основе их сходства. Обсуждаются задачи, решаемые с помощью кластерного анализа, включая разработку типологий, выявление структуры данных и обнаружение аномалий. Рассматриваются различные меры сходства и расстояний, используемые в кластерном анализе, а также иерархические методы кластеризации, включая агломеративные и дивизивные подходы. Отдельное внимание уделяется критериям качества классификации, позволяющим оценить эффективность полученных кластеров.
Методы многомерного шкалирования
Третий раздел посвящен методам многомерного шкалирования (MDS), которые используются для визуализации взаимосвязей между объектами в многомерном пространстве. Рассматриваются задачи, решаемые с помощью MDS, а также метрические и неметрические подходы к шкалированию. Особое внимание уделяется понятию стресса как меры соответствия между исходными данными и полученной конфигурацией.
Статистический анализ соответствий
Четвертый раздел посвящен статистическому анализу соответствий, который является методом анализа многомерных данных, представленных в виде таблиц сопряженности. Рассматриваются основные задачи, решаемые с помощью этого метода, включая выявление взаимосвязей между категориальными переменными. Обсуждаются методы снижения размерности пространства и построения карт соответствий для визуализации результатов анализа.
Метод главных компонент и факторный анализ
Пятый раздел посвящен методу главных компонент (PCA) и его связи с факторным анализом. Рассматривается классификация методов факторного анализа, общий алгоритм и теоретические проблемы, связанные с ним. Обсуждаются вычислительные процедуры PCA, методы оценки информативности главных компонент и интерпретации результатов. Также рассматривается применение PCA в сочетании с другими статистическими методами.
Пространственная статистика
Шестой раздел посвящен пространственной статистике, которая учитывает пространственное расположение данных. Рассматриваются основные понятия, включая пространственные базы данных, индексы измерения пространственной зависимости, а также методы анализа пространственной автокорреляции и гетерогенности. Обсуждаются методы пространственной регрессии и их применение в эконометрическом моделировании.
Текст подготовлен языковой моделью и может содержать неточности.
- Среднее профессиональное образование
- 31.02.03: Лабораторная диагностика
- 38.02.01: Экономика и бухгалтерский учет (по отраслям)
- 38.02.03: Операционная деятельность в логистике
- 38.02.07: Банковское дело
- 38.02.08: Торговое дело
- 39.02.01: Социальная работа
- 40.02.04: Юриспруденция
- ВО - Бакалавриат
- 38.03.01: Экономика
- 38.03.03: Управление персоналом
- 38.03.04: Государственное и муниципальное управление
- 41.03.06: Публичная политика и социальные науки
Å.Â. ÇÀÐÎÂÀ ПРИКЛАДНОЙ МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ ПРЕЗЕНТАЦИИ ДЛЯ ЛЕКЦИЙ И ПРИМЕРЫ РЕШЕНИЙ С ИСПОЛЬЗОВАНИЕМ ПАКЕТА R УЧЕБНОЕ ПОСОБИЕ НА АНГЛИЙСКОМ ЯЗЫКЕ Москва ИНФРА-М 2016
ФЗ № 436-ФЗ Издание не подлежит маркировке в соответствии с п. 1 ч. 2 ст. 1 УДК 519.2(075.8) ББК 22.172я73 З35 Р е ц е н з е н т ы: Мхитарян В.С. — д-р. экон. наук, профессор, НИУ ВШЭ Винкер Питер — доктор, профессор статистики и эконометрики, Университет им. Юстуса Либиха, г. Гиссен, Германия Зарова Е.В. З35 Прикладной многомерный статистический анализ: Презентации для лекций и примеры решений с использованием пакета R : учеб. пособие на английском языке / Е.В. Зарова. — М. : ИНФРА-М, 2016. — 370 с. ISBN 978-5-16-012133-8 (print) ISBN 978-5-16-104909-9 (online) Многомерный статистический анализ — раздел математической статистики, посвященный математическим методам сбора, систематизации и обработки многомерных статистических данных с целью получения их обобщающих оценок, выявления и анализа структуры отношений между компонентами многомерных признаков. Предметом многомерного статистического анализа является система, элементы которой характеризуются набором взаимосвязанных объектов и признаков (количественных или качественных переменных). Каждый наблюдаемый объект в исследуемой совокупности характеризуется двумя или более переменными, обработка и анализ которых требуют специальных методов многомерного статистического анализа. В представленном методическом ресурсе для преподавателей и студентов основное внимание уделяется вопросам, связанным с применением этих методов на базе реальных примеров исследования экономических и социальных многомерных явлений. Сегодня использование методов многомерного статистического актуально на всех уровнях управления социально-экономическими системами: в государственном и региональном управлении, в бизнесе, в деятельности общественных организаций, поскольку применение этих методов обеспечивает пользователей дополнительной информацией вследствие комплексного использования имеющихся данных и их глубокого структурного анализа. Инструменты многомерного статистического анализа играют ключевую роль в фундаментальных и прикладных науках, таких как экономика, психология, социология, а также широко применяются в естественных науках, таких как биология, медицина, астрономия. Представленный методический материал содержит презентации с детализацией всех расчетных этапов по основным разделам курса «Прикладной многомерный статистический анализ», а также примеры решения задач с использованием широко применяемого в настоящее время R пакета. Рекомендуется к использованию преподавателями для чтения лекций на английском языке по дисциплинам «Многомерный статистический анализ», «Математическая статистика», а также студентам, осваивающим эти курсы на английском языке. УДК 519.2(075.8) ББК 22.172я73 © Зарова Е.В., 2016 ISBN 978-5-16-012133-8 (print) ISBN 978-5-16-104909-9 (online)
ELENA ZAROVA APPLIED MULTIVARIATE STATISTICAL ANALYSIS PRESENTATIONS FOR LECTURING AND WORKING EXAMPLES WITH R E-LEARNING TOOL Moscow INFRA-М 2016
R e v i e w e r s: Mkhitaryan V.S. — Doctor of Economic Sciences, Professor, Higher School of Economics Winker Peter — Dr., Professor of Statistics and Econometrics at Justus-LiebigUniversität Giessen (Germany) Elena Zarova Applied Multivariate Statistical Analysis: Presentations for Lecturing and Working Examples with R : e-learning tool / Elena Zarova. — Moscow: INFRA-M, 2016. — 370 p. ISBN 978-5-16-012133-8 (print) ISBN 978-5-16-104909-9 (online) The aim of this course is to provide the understanding of the main multivariate methods and the knowledge how to carry them out. Multivariate statistical analysis is a section of Mathematical Statistics, dedicated to mathematical methods of collection, collation and processing of multivariate statistical data in order to identify the nature and structure of the relationship between the components of the multivariate attributes. The subject of multivariate analysis is a system, which elements are characterized by a set of related objects and attributes (quantitative or qualitative variables). In this case every observed object in the investigated population is characterized by two or more variables that require special multivariate techniques. In the presented methodological resource for teachers and students the focus will be on the issues related to the application of these techniques rather than their mathematical foundation. Today multivariate statistical techniques are widely used in management of large and medium-sized enterprises and even some small businesses for making decisions on the basis of multiple performance measures and related metrics deep structural analysis. The tools of multivariate statistical analysis also play a key role in fundamental disciplines of social sciences: Economics, Psychology, Sociology and others, and they are also applied in natural sciences, such as biology, medicine, astronomy….etc. This course is designed to form students’ skills of multivariate statistical methods application in various fi elds and solving practical problems of their own choice. Presented methodological material contains a presentation detailing all the calculation steps on the main sections of the course “Applied Multivariate Statistical Analysis”, as well as examples of solving problems with the use of R package, which is widely used in the present time. Recommended for use by teachers to give lectures in English on subjects such as “Multivariate Statistical Analysis”, “Mathematical Statistics”, as well as students. © Elena Zarova, 2016 ISBN 978-5-16-012133-8 (print) ISBN 978-5-16-104909-9 (online)
CONTENTS Topic 1. Multidimensional Attribute Space. Processing Features of Multivariate Statistical Analysis ............................................................................8 1.1. The geometry of multivariate analysis ..............................................................................................10 1.2. Data inspection, transformation and replacing of missing data. Robust statistical analysis ...........................................................................................................................................................25 1.3. Classifi cation of multivariate statistical analysis methods .........................................................43 Topic 2. Cluster Analysis ...................................................................................... 57 2.1. Problems solved by methods of cluster analysis What is Cluster? .........................................59 2.2. Similarity measures ...................................................................................................................................65 2.3. Hierarchical clustering..............................................................................................................................73 2.4. Criteria for the quality of classifi cation ..............................................................................................85 Topic 3. Multidimensional Scaling ................................................................... 112 3.1. Multidimensional scaling for statistical studies...........................................................................114 3.2. Metrical and non-metrical scaling. Stress as a measure of concordance in the multidimensional scaling .....................................................................................................................126 3.3. Worked examples ...................................................................................................................................131 TOPIC 4. Correspondence Analysis ................................................................... 172 4.1. Aims of correspondence analysis .....................................................................................................174 4.2. Statistical evaluation of inertia ..........................................................................................................191 4.3. Methods of space dimension reduction ........................................................................................199 4.4. Maps of correspondence .....................................................................................................................213 Topic 5. Methods of Principal Components Analysis in System of the Factor Analysis Methods ........................................................................ 223 5.1. Classifi cation of factor analysis methods .......................................................................................226 5.2. General algorithm and theoretical problems of factor analysis ...........................................235 5.3. Computational procedures of methods of principal component analysis (PCA) ..........247 5.4. Assessment of the level of informativeness and interpretation of principal components ..............................................................................................................................................257 5.5. The use of principal component analysis in the other statistical methods .....................265 Topic 6. Spatial Statistics in Multivariate analysis .......................................... 270 6.1. Spatial data bases. Indices measuring spatial dependency ...................................................272 6.2. Spatial composition and confi guration: heterogeneity and autocorrelation of the spatial distributed data bases ...............................................................................................282 6.3. Spatial adjusted regression and related spatial econometrics .............................................306 6.4. A worked example ..................................................................................................................................314 Appendix to the text: i. Worked Example with R Package (Correspondence Analysis) ...........................................329 ii. Worked Example with R Package (Multidimensional Scaling) ..........................................359 5
Содержание Тема. 1. Многомерное признаковое пространство. Особенности обработки многомерных данных ......................................................................8 1.1. Геометрические основы многомерного статистического анализа ................................10 1.2. Предварительный анализ данных. Преобразование и замена недостающих данных. Робастное статистическое оценивание ......................................................................25 1.3. Классификация методов многомерного статистического анализа .................................43 Тема 2. Кластерный анализ .............................................................................. 57 2.1 Задачи, решаемые с помощью методов кластерного анализа. Понятие статистического кластера. Меры сходства и расстояний в кластерном анализе ....59 2.2. Иерархические методы кластерного анализа ...........................................................................65 2.3. Критерии качества классификации объектов в кластерном анализе ............................73 2.4. Рабочий пример .......................................................................................................................................85 Тема 3. Методы многомерного шкалирования .......................................... 112 3.1. Задачи многомерного шкалирования в статистических исследованиях ..................114 3.2. Метрическое и неметрическоешкалирование. Стресс как мера согласованности в многомерном шкалировании .................................................................126 3.3. Рабочий пример ....................................................................................................................................131 Тема 4. Статистический анализ соответствий ............................................. 172 4.1. Основные задачи, решаемые с помощью методов статистического анализа соответствий ...........................................................................................................................................174 4.2. Статистическая оценка инерции в анализе соответствий ................................................191 4.3. Методы снижения размерности пространства в статистическом анализе соответствий ...........................................................................................................................................199 4.4. Основы построения карт соответствий .....................................................................................213 Тема 5. Метод главных компонент в системе методов факторного анализа ............................................................................................................... 223 5.1. Классификация методов факторного анализа ........................................................................226 5.2. Общий алгоритм и теоретические проблемы факторного анализа ............................235 5.3. Вычислительные процедуры метода анализа главных компонент ..............................247 5.4. Оценка уровня информативности и интерпретация главных компонент ................257 5.5. Применение анализа главных компонент в сочетании с другими статистическими методами ..............................................................................................................265 Тема 6. Пространственная статистика в многомерном анализе ............. 270 6.1. Статистические характеристики пространственно- распределенных данных. Индексы измерения пространственной зависимости ........................................................272 6.2. Состав и структура пространственных данных: гетерогенность и автокорреляционная зависимость пространственно-распределенных данных ........................................................................................................................................................282 6.3. Пространственная регрессия и эконометрическое моделирование пространственных взаимозависимостей ..................................................................................306 6.4. Рабочий пример ....................................................................................................................................314 6
Приложение: 1. Пример решения задачи с использованием R- пакета «Статистический анализ соответствий» .........................................................................................................................................329 2. Пример решения задачи с использованием R- пакета «Многомерное шкалирование» ......................................................................................................................................359 7
Topic 1 Statistical Analysis Multidimensional Attribute Space. Multidimensional Attribute Space. Processing Features of Multivariate sing Features of Multiv 8
Outlines: 1.1 The geometry of multivariate analysis 1.2 Data inspection, transformation and replacing of missing data. Robust statistical analysis 1.3 Classification of multivariate statistical analysis methods 9
1.1 The geometry of multivariate analysis 10