Многомерный статистический анализ. Часть 2
Покупка
Тематика:
Математическая статистика
Издательство:
Издательский Дом НИТУ «МИСиС»
Год издания: 2022
Кол-во страниц: 70
Дополнительно
Вид издания:
Учебно-методическая литература
Уровень образования:
ВО - Магистратура
Артикул: 797222.01.99
В методическом пособии рассмотрены многомерные методы статистического анализа данных. Основное внимание уделено ряду важных вопросов снижения размерности в многомерном пространстве данных.
Пособие предназначено для студентов, обучающихся в магистратуре по направлению подготовки 09.04.01 «Информатика и вычислительная техника», а также для изучающих информационные технологии. Будет полезно для студентов при подготовке выпускной квалификационной работы и магистерской диссертации.
Тематика:
ББК:
УДК:
- 004: Информационные технологии. Вычислительная техника...
- 311: Теория статистики. Статистические методы
ОКСО:
- ВО - Магистратура
- 09.04.01: Информатика и вычислительная техника
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Москва 2022 М ИНИС ТЕРС ТВО НАУКИ И ВЫСШ ЕГО О Б РА З О ВА Н И Я РФ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ «МИСиС» ИНСТИТУТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ И АВТОМАТИЗИРОВАННЫХ СИСТЕМ УПРАВЛЕНИЯ Кафедра автоматизированных систем управления А.Н. Гончаренко МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ Часть 2 Методическое пособие Рекомендовано редакционно-издательским советом университета № 4682
УДК 65.011.56 Г65 Р е ц е н з е н т канд. техн. наук, доц. Д.В. Калитин Гончаренко, Алексей Николаевич. Г65 Многомерный статистический анализ. Часть 2 : метод. пособие / А.Н. Гончаренко. – Москва : Издательский Дом НИТУ «МИСиС», 2022. – 70 с. В методическом пособии рассмотрены многомерные методы статистического анализа данных. Основное внимание уделено ряду важных вопросов снижения размерности в многомерном пространстве данных. Пособие предназначено для студентов, обучающихся в магистратуре по направлению подготовки 09.04.01 «Информатика и вычислительная техника», а также для изучающих информационные технологии. Будет полезно для студентов при подготовке выпускной квалификационной работы и магистерской диссертации. УДК 65.011.56 Гончаренко А.Н., 2022 НИТУ «МИСиС», 2022
СОДЕРЖАНИЕ Введение ........................................................................ 4 2. Снижение размерности ................................................ 5 2.1. Многомерное пространство переменных ................... 5 2.2. Измерение латентных переменных. Семантический дифференциал ........................................................... 13 2.3. Метод главных компонент .................................... 20 2.4. Факторный анализ .............................................. 39 2.5. Многомерное шкалирование и анализ соответствий ............................................................. 50 Заключение ................................................................. 67 Библиографический список ............................................ 68
ВВЕДЕНИЕ Данное методическое пособие является логическим продолжением теоретического материала, изложенного в первой части, в рамках дисциплины «Многомерный статистический анализ». Основное внимание уделяется моделям анализа данных, условиям их применения, особенностям представления данных и интерпретации результатов. Подробно рассматриваются методология количественных исследований и методы статистического анализа данных, а также раскрывается ряд важных вопросов снижения размерности в многомерном пространстве данных. Для более четкого и правильного усвоения теоретический материал наполнен примерами на основе полученных данных в методическом пособии «Многомерный статистический анализ. Часть 1», что позволяет понять взаимосвязь применения различных методов и сформировать наиболее полную и целостную картину знаний по изучаемой дисциплине. В качестве информации, позволяющей расширить кругозор студентов и вызвать интерес к углубленному изучению дисциплины, в учебно-методическом пособии представлен дополнительный материал в разделе «Библиографический список».
2. СНИЖЕНИЕ РАЗМЕРНОСТИ 2.1. Многомерное пространство переменных Многомерное пространство переменных: геометрическая интерпретация. В количественных социологических исследованиях любой объект из изучаемой совокупности обладает множеством различных свойств, фиксируемых с помощью измеряемых переменных. Многомерность описания социологических объектов осложняет анализ данных и интерпретацию полученных результатов. Одним из инструментов решения этой проблемы является геометрическая интерпретация набора используемых переменных, представление его в виде многомерного геометрического пространства. Переменные x1, x2 ... xk выступают в качестве осей этого пространства. Размерность пространства равна количеству переменных k. Углы между осями задаются соответствующими коэффициентами корреляций, а именно косинус угла между двумя переменными xi и xj (i, j = 1, k) равен коэффициенту корреляции между ними: cos(xi, xj) = ri, j. В частности, если коэффициент корреляции между двумя переменными равен нулю, они образуют прямой угол (cos90° = 0); коэффициент корреляции, равный +1, порождает угол, равный 0°, т.е. оси практически совпадают; коэффициент корреляции, равный –1, порождает угол, равный 180°. Таким образом, матрица корреляций полностью описывает структуру пространства переменных: чем выше корреляция между переменными, тем ближе они расположены друг к другу (рис. 2.1). Рекомендуется рассматривать пространства из переменных, имеющих одинаковый уровень измерения – количественный, квазиинтервальный или дихотомический. Объекты из выборки изображаются в пространстве в виде точек, координатами которых служат значения соответствующих переменных. Рассмотрим это в наиболее простом для изображения двумерном пространстве (рис. 2.2).
Рис. 2.1. Многомерное пространство переменных Рис. 2.2. Европейские страны в пространстве двух переменных Пример 1.1 (продолжение)1 Построим двумерное пространство, используя в качестве осей переменные «ВВП» (валовой национальный продукт на душу населения) и «рождаемость» (на 1000 жителей). В качестве объектов в данном пространстве разместим европейские страны, для которых измерены соответствующие статистиче 1 Гончаренко А.Н. Многомерный статистический анализ. Часть 1 : метод. пособие. М. : Издательский Дом НИТУ «МИСиС», 2022.
ские показатели. Коэффициент корреляции между переменными r = 0,08, т.е. переменные практически не коррелируют и угол между ними близок к 90°. По взаимному расположению стран в ортогональном пространстве двух переменных можно судить, например, о том, что самая высокая рождаемость в 2008 г. была в Азербайджане и Ирландии, самая низкая – в Германии, Швейцарии и Португалии. Самый высокий ВВП на душу населения был в Норвегии и Швейцарии, самый низкий – в Молдове, Грузии и Украине. В группе восточноевропейских стран Беларусь имела средний уровень ВВП на душу населения и средний уровень рождаемости. Расстояния между объектами в пространстве переменных. Матрица расстояний. Между объектами в геометрическом пространстве переменных могут вычисляться расстояния. В отличие от корреляции, которая является мерой сходства, расстояние является мерой различий: чем больше расстояние между объектами, тем сильнее они отличаются друг от друга по значениям переменных, например по ответам на вопросы анкеты. Два объекта идентичны, если описывающие их переменные принимают одинаковые значения; в этом случае расстояние между ними равно нулю. Таким образом, в социальных науках расстояние между объектами может интерпретироваться как социальная дистанция. Свойства расстояния между двумя объектами А и В: 1) dA, B > 0; 2) расстояние dA, B = 0, если объекты А и В тождественны друг другу (значения всех переменных для них совпадают); 3) dA, B может быть не ограничено «сверху»; 4) расстояние между объектами А и В симметрично: dA, B = = dB, A; 5) для любых трех объектов А, В и С выполняется «неравенство треугольника»: dA, B ≤ dA, C + dB, C. Полный набор расстояний между всеми парами объектов из выборки представляется в виде матрицы расстояний, которая имеет размерность n × n, где n – объем выборки. На главной диагонали матрицы расстояний находятся нули; она симметрична относительно главной диагонали: dA, B = dB, A (табл. 2.1).