Многомерный статистический анализ. Часть 1
Покупка
Тематика:
Математическая статистика
Издательство:
Издательский Дом НИТУ «МИСиС»
Год издания: 2022
Кол-во страниц: 53
Дополнительно
Вид издания:
Учебно-методическая литература
Уровень образования:
ВО - Магистратура
Артикул: 797221.01.99
В методическом пособии рассмотрены многомерные методы статистического анализа данных. Основное внимание уделено моделям анализа данных, условиям их применения, а также особенностям представления данных и интерпретации результатов. Пособие предназначено для студентов, обучающихся в магистратуре по направлению подготовки 09.04.01 «Информатика и вычислительная техника», а также для изучающих информационные технологии. Будет полезно для студентов при подготовке выпускной квалификационной работы и магистерской диссертации.
Тематика:
ББК:
УДК:
- 004: Информационные технологии. Вычислительная техника...
- 311: Теория статистики. Статистические методы
ОКСО:
- ВО - Магистратура
- 09.04.01: Информатика и вычислительная техника
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Москва 2022 М ИНИС ТЕРС ТВО НАУКИ И ВЫСШ ЕГО О Б РА З О ВА Н И Я РФ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ «МИСиС» ИНСТИТУТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ И АВТОМАТИЗИРОВАННЫХ СИСТЕМ УПРАВЛЕНИЯ Кафедра автоматизированных систем управления А.Н. Гончаренко МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ Часть 1 Методическое пособие Рекомендовано редакционно-издательским советом университета № 4681
УДК 65.011.56 Г65 Р е ц е н з е н т канд. техн. наук, доц. Д.В. Калитин Гончаренко, Алексей Николаевич. Г65 Многомерный статистический анализ. Часть 1 : метод. пособие / А.Н. Гончаренко. – Москва : Издательский Дом НИТУ «МИСиС», 2022. – 53 с. В методическом пособии рассмотрены многомерные методы статистического анализа данных. Основное внимание уделено моделям анализа данных, условиям их применения, а также особенностям представления данных и интерпретации результатов. Пособие предназначено для студентов, обучающихся в магистратуре по направлению подготовки 09.04.01 «Информатика и вычислительная техника», а также для изучающих информационные технологии. Будет полезно для студентов при подготовке выпускной квалификационной работы и магистерской диссертации. УДК 65.011.56 Гончаренко А.Н., 2022 НИТУ «МИСиС», 2022
СОДЕРЖАНИЕ Введение ........................................................................ 4 1. Корреляционный и регрессионный анализ ..................... 5 1.1. Структура связей между переменными .................... 5 1.2. Множественная линейная регрессия ...................... 11 1.3. Логистическая регрессия ..................................... 38 1.4. Путевой анализ ................................................... 41 Заключение ................................................................. 51 Библиографический список ............................................ 52
ВВЕДЕНИЕ Многомерные методы статистического анализа данных появились еще в начале ХХ в. Однако из-за большого объема и сложности вычислений они по лучили широкое распространение только благодаря созданию компьютеров, особенно персональных, с «дружественными» операционными системами и пользовательскими интерфейсами. В методическом пособии основное внимание уделяется моделям анализа данных, условиям их применения, особенностям представления данных и интерпретации результатов. Настоящее учебное пособие предназначено для студентов, магистрантов, аспирантов, изучающих методологию количественных исследований и методы статистического анализа данных; преподавателей, научных сотрудников и специалистов, принимающих участие в эмпирических исследованиях. Его изучение предполагает предварительное знакомство с основами прикладной статистики (на уровне одномерных распределений, анализа парных связей, проверки статистических гипотез) и одним из программных средств статистического анализа данных (SPSS, Statistica, R и т.п.).
1. КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗ 1.1. Структура связей между переменными В зависимости от вкладываемого в исследование смысла связи между переменными могут быть как корреляционными, так и причинными (каузальными). Связь между двумя переменными называется корреляционной, если они рассматриваются как двусторонне взаимодействующие, без выделения причины и следствия. Связь называется причинной, если одна из переменных (зависимая) измеряет следствие, а другая или несколько независимых переменных (предикторов) измеряют одну или несколько причин. Меры корреляционной связи. Большинство статистических мер связи предназначены для измерения парных корреляционных связей между переменными. Разумеется, они могут использоваться и для причинных связей на тех уровнях анализа, когда их причинно-следственное содержание игнорируется. Выбор меры связи между двумя переменными зависит, в первую очередь, от уровня их измерения: для двух количественных переменных это коэффициент линейной корреляции Пирсона; для двух порядковых переменных – коэффициенты ранговой корреляции Спирмана и Кендалла; для двух дихотомических переменных – коэффициенты Ф (фи) и Юла; для номинальных переменных с числом градаций более двух – коэффициент Крамера. Если переменные имеют разный уровень измерения, выбирается коэффициент, соответствующий более низкому уровню. Например, если одна переменная является количественной, а вторая порядковой, рекомендуется использовать одну из порядковых мер связи (возможно, количественную переменную придется при этом сгруппировать в интервалы); если одна из переменных является номинальной, а вторая – порядковой, следует использовать коэффициент Крамера. В многомерной статистике наиболее часто используется коэффициент линейной корреляции Пирсона в силу его универсальности.
Наибольший интерес в задачах многомерной статистики представляют переменные, связи между которыми обладают «направленностью», т.е. могут трактоваться как «прямые» или «обратные». Понятие направленности может применяться только в двух случаях. Во-первых, когда обе переменные являются количественными и (или) порядковыми: связь является прямой, если значения двух переменных одновременно увеличиваются или уменьшаются; обратной – если увеличение значения одной переменной сопровождается уменьшением значения другой. Во-вторых, когда обе переменные являются дихотомическими: связь является прямой, если два фиксируемых свойства объектов чаще встречаются и не встречаются совместно, чем порознь; обратной – если соответствующие свойства чаще встречаются порознь, чем совместно. Коэффициент корреляции между переменными xi и xj обозначается ri, j и обладает следующими свойствами: 1) коэффициент корреляции симметричен (ri, j = rj, i); 2) значение коэффициента корреляции находится в пределах –1 ≤ ri, j ≤ 1 для направленных связей; 0 ≤ ri, j ≤ 1 для ненаправленных связей; 3) ri, j = 0, если связи между переменными нет; 4) ri, j > 0, если связь является прямой или ненаправленной; 5) ri, j < 0, если связь является обратной; 6) ri, j = ±1, если связь является полной, т.е. по значению одной переменной можно точно определить значение второй. Идеальным случаем для задач снижения размерности и классификации является использование переменных с одинаковым уровнем измерения: количественных, порядковых (измеренных с использованием шкал Лайкерта и подобных им оценочных шкал с четным или нечетным количеством градаций, которые могут рассматриваться как квазиинтервальные или дихотомические. Номинальные переменные, не являющиеся дихотомическими, а также порядковые переменные, которые не могут рассматриваться как квазиинтервальные, используются только в отдельных многомерных статистических моделях с применением специально разработанных для этого техник, которые будут рассмотрены в соответствующих разделах.