Методы многомерного статистического анализа данных в социологии
Покупка
Основная коллекция
Тематика:
Методы социологических исследований
Издательство:
Южный федеральный университет
Год издания: 2023
Кол-во страниц: 236
Дополнительно
Вид издания:
Учебник
Уровень образования:
ВО - Магистратура
ISBN: 978-5-9275-4265-9
Артикул: 824332.01.99
Основная цель учебника - дать читателю-гуманитарию представление о многомерных методах статистического анализа и вывода. Содержание издания является продолжением материала по математической статистике, изложенного в учебнике А. В. Дятлова и П. Н. Лукичева «Методы математической статистики в социальных науках». Приложение содержит статистические таблицы. Предназначен для аспирантов, обучающихся по направлению 5.4 «Социология», магистрантов и студентов бакалавриата, обучающихся по направлению 39.04.01 «Социология», а также для всех интересующихся указанной проблематикой.
Тематика:
ББК:
УДК:
- 30: Теория, методология и методы общественных наук в целом. Социография
- 316: Социология. Социальная психология
ОКСО:
- ВО - Магистратура
- 39.04.01: Социология
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное автономное образовательное учреждение высшего образования «ЮЖНЫЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ» А. В. ДЯТЛОВ П. Н. ЛУКИЧЕВ МЕТОДЫ МНОГОМЕРНОГО СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ В СОЦИОЛОГИИ Учебник Ростов-на-Дону – Таганрог Издательство Южного федерального университета 2023
УДК 316:303.1(075.8) ББК 60.56+60.6я73 Д99 Печатается по решению кафедры экономической социологии и регионального управления Института социологии и регионоведения Южного федерального университета (протокол № 10 от 20 мая 2022 г.) Рецензенты: доктор социологических наук, профессор кафедры «Социальные и гуманитарные науки» Южно-Российского государственного политехнического университета (НПИ) имени М. И. Платова Л. И. Щербакова; кандидат социологических наук, доцент кафедры теоретической социологии и методологии региональных исследований Института социологии и регионоведения Южного федерального университета Н. А. Вялых Дятлов, А. В. Методы многомерного статистического анализа данных в социоло- Д99 гии : учебник / А. В. Дятлов, П. Н. Лукичев ; Южный федеральный университет. – Ростов-на-Дону ; Таганрог : Издательство Южного федерального университета, 2023. – 236 с. ISBN 978-5-9275-4265-9 Основная цель учебника – дать читателю-гуманитарию представление о многомерных методах статистического анализа и вывода. Содержание издания является продолжением материала по математической статистике, изложенного в учебнике А. В. Дятлова и П. Н. Лукичева «Методы математической статистики в социальных науках». Приложение содержит статистические таблицы. Предназначен для аспирантов, обучающихся по направлению 5.4 «Социология», магистрантов и студентов бакалавриата, обучающихся по направлению 39.04.01 «Социология», а также для всех интересующихся указанной проблематикой. ISBN 978-5-9275-4265-9 УДК 316:303.1(075.8) ББК 60.56+60.6я73 © Южный федеральный университет, 2023 © Дятлов А. В., Лукичев П. Н., 2023 © Оформление. Макет. Издательство Южного федерального университета, 2023
ОГЛАВЛЕНИЕ ГЛАВА 1. МЕТОДЫ МНОЖЕСТВЕННОГО СРАВНЕНИЯ............................................ 7 Post hoc тесты для множественных сравнений .......................................................... 9 Уровень ошибки первого рода ............................................................................................. 9 Метод Тьюки (Т-метод) ......................................................................................................... 12 Метод Стьюдента–Ньюмана–Кеулса (SNK) ................................................................ 14 Сравнение методов Тьюки и Стьюдента–Ньюмана–Кеулса ............................ 16 Post hoc тесты при неравном объеме выборок ........................................................ 16 Метод Шеффе (S-метод)......................................................................................................... 17 Метод Шеффе для парных сравнений ........................................................................... 18 Метод Шеффе со сложными контрастами .................................................................. 22 Предварительно планируемые тесты ........................................................................... 23 Планируемые ортогональные контрасты .................................................................. 23 Тренд-анализ ................................................................................................................................ 29 Заключение ................................................................................................................................... 35 ГЛАВА 2. ДИСПЕРСИОННЫЙ АНАЛИЗ: ОЦЕНКА ПО ДВУМ ФАКТОРАМ (ПЕРЕМЕННЫМ) ................................................... 38 Факторный эксперимент ...................................................................................................... 38 Преимущества факторного эксперимента ................................................................. 40 Переменные при факторном эксперименте .............................................................. 42 Разложение дисперсии в двухфакторном эксперименте .................................. 44 Разложение суммы квадратов ........................................................................................... 46 Проверка нулевой гипотезы ............................................................................................... 48 Формулы для вычисления суммы квадратов ........................................................... 49 Главные эффекты ...................................................................................................................... 54 Взаимодействия ......................................................................................................................... 55 Уменьшение остаточной дисперсии в двухфакторном ANOVA ..................... 58 Допущения в двухфакторном ANOVA ............................................................................ 61 Линейная модель ....................................................................................................................... 61 Модели двухфакторного дисперсионного анализа .............................................. 62 Ожидаемый средний квадрат для ANOVA-модели ................................................ 64
Методы множественных сравнений в двухфакторном ANOVA ..................... 67 Двухфакторный дисперсионный анализ с неравным количеством наблюдений в ячейке ..................................................... 70 Заключение .................................................................................................................................... 75 ГЛАВА 3. НЕПАРАМЕТРИЧЕСКИЕ ТЕСТЫ ДЛЯ ПРОВЕРКИ ГИПОТЕЗ ........ 78 Распределение хи-квадрат ................................................................................................... 79 Критические значения распределения хи-квадрат ............................................... 83 Номинальные данные – одна выборка .......................................................................... 85 Номинальные данные – две независимых выборки ............................................. 87 Определение ожидаемых частот ....................................................................................... 89 Определение степеней свободы ........................................................................................ 92 Таблица сопряженности 2 × 4 ............................................................................................. 93 Таблица сопряженности 2 × 2 ............................................................................................. 94 Номинальные данные – более двух независимых выборок ............................. 96 Малые ожидаемые значения в таблице сопряженности .................................... 97 Коэффициент контингенции .............................................................................................. 97 Номинальные данные – две связанные выборки ................................................... 98 Ранговые данные – две независимые выборки .................................................... 100 Медианный тест ....................................................................................................................... 101 U-тест Маннa–Уитни.............................................................................................................. 103 U-тecт Манна–Уитни для больших выборок ........................................................... 106 Ранговые данные – k независимых выборок .......................................................... 106 Совпадающие ранги ............................................................................................................... 109 Ранговые данные – две связанные выборки .......................................................... 109 Тест Уилкоксона для больших выборок .................................................................... 111 Заключение ................................................................................................................................. 112 ГЛАВА 4. ЛИНЕЙНАЯ РЕГРЕССИЯ – ОЦЕНКА И ПРОГНОЗ ............................... 116 Принципы предположения ............................................................................................... 117 Стохастическая прогностическая связь между двумя переменными ..... 120 Определение регрессионной линии ............................................................................ 122 Обратная (вторая) линия регрессии ............................................................................ 125 Оценочные значения и их распределение ............................................................... 126
Ошибки предположения ..................................................................................................... 129 Стандартная ошибка предполагаемого значения (оценки) .......................... 130 Допущения при построении линии регрессии ...................................................... 130 Связь между корреляцией и регрессией .................................................................... 132 Разложение дисперсии зависимой переменной ................................................... 132 Корреляция и регрессионные коэффициенты ...................................................... 134 Предположение стандартных значений y по стандартным значениям x .................................................................................................. 136 Вероятности, связанные с регрессией и предположением ............................ 137 Доверительные интервалы предположения .......................................................... 139 Заключение ................................................................................................................................. 140 ГЛАВА 5. МНОЖЕСТВЕННАЯ КОРРЕЛЯЦИЯ, МНОЖЕСТВЕННАЯ РЕГРЕССИЯ И ПРОГНОЗИРОВАНИЕ .................................. 141 Принципы множественного предположения ......................................................... 141 Геометрическое представление множественного прогноза ......................... 142 Стандартная форма множественного прогноза .................................................... 145 Свойства коэффициента множественной корреляции ..................................... 148 Стандартная ошибка оценки ............................................................................................ 150 Выбор независимых переменных .................................................................................. 150 Подавляющие переменные ............................................................................................... 151 Количество независимых переменных ...................................................................... 152 Эмпирические процедуры выбора независимых переменных .................... 153 Использование коэффициента множественной корреляции в статистическом выводе ................................................................................................... 157 Проверка разницу между двумя коэффициентами ............................................. 157 Проверка нулевой гипотезы: множественный коэффициент корреляции генеральной совокупности равен нулю ........................................ 159 Коэффициент множественной корреляции генеральной совокупности ................................................................................................ 160 Множественная регрессия и ANOVA ............................................................................ 161 Связь между множественной регрессией и ANOVA ............................................. 164 Частная и частичная корреляция .................................................................................. 165 Заключение ................................................................................................................................. 167
ГЛАВА 6. АНАЛИЗ ВРЕМЕННЫХ РЯДОВ ..................................................................... 170 Представление и изучение временных рядов ....................................................... 172 Декомпозиция временных рядов .................................................................................. 176 Автокорреляция и коррелограмма ............................................................................... 179 Использование и интерпретация коррелограммы ............................................. 182 Выбор модели прогнозирования ................................................................................... 192 Методы прогнозирования временных рядов ......................................................... 196 Точность прогноза .................................................................................................................. 197 Наивные методы ...................................................................................................................... 198 Методы усреднения ............................................................................................................... 199 Метод экспоненциального сглаживания .................................................................. 201 Пример применения различных моделей и расчета среднеквадратичной ошибки (MSE) ...................................................... 203 Анализ компонентов временного ряда ...................................................................... 204 Анализ тренда ........................................................................................................................... 204 Анализ сезонности ................................................................................................................. 206 Заключение ................................................................................................................................. 211 Приложение .................................................................................................................................. 213 Литература .................................................................................................................................... 232
ГЛАВА 1. МЕТОДЫ МНОЖЕСТВЕННОГО СРАВНЕНИЯ Ключевые термины: вероятность ошибки эксперимента; вероятность ошибки сравнения; вероятность ошибки первого рода; коэффициенты ортогональных полиномов; сравнения; метод Стьюдента– Ньюмана–Кеулса (Student–Newman–Keuls, SNK); метод Тьюки (Тukеу, T-метод, HSD); метод Шеффе (Scheffe, S-метод); предварительно планируемые тесты; планируемые ортогональные тесты; попарные сравнения; post hoc тесты для множественных сравнений; распределение стьюдентизированного размаха (Q); сложные сравнения (контрасты); тренд-анализ. При одномерном однофакторном дисперсионном анализе (ANOVA) рассматривается процедура проверки нулевой гипотезы об одновременном равенстве средних k генеральных совокупностей. Нулевая гипотеза отклоняется, когда наблюдаемое F-отношение превышает соответствующее критическое значение, а затем делается вывод, что существует различие между средними. Использование ANOVA предполагает, что вероятность ошибки первого рода была предварительно зафиксирована на уровне α. Если нулевая гипотеза отклоняется, возникает вопрос, какие пары или комбинации средних не равны. Отсюда следует, что часто ANOVA является лишь первым шагом в анализе данных. Методы, описанные в этой главе, применяются для определения того, какие именно средние значимо различаются, после того как установлено с применением ANOVA, что F-отношение является значимым. Эти методы обычно называются post hoc тестами для множественных сравнений. Кроме этого, будут рассмотрены методы проверки специфичных нулевых гипотез, которые в некотором смысле являются альтернативными для ANOVA (например, если нам нужно проверить, отличаются ли средние трех экспериментальных групп от средней одной контрольной группы). Также часто приходится определять, есть ли тенденция
(тренд) в воздействии различных уровней независимой переменной. Эти процедуры обычно называют предварительно (apriori) запланированными сравнениями. В этой главе также введено несколько новых концепций. Описываются аналитические процедуры, которые могут быть использованы после дисперсионного анализа, когда F-отношение статистически значимо, или в ситуациях, когда можно заранее планировать интересующие сравнения. Обсуждаемые процедуры показаны на рис. 1 в контексте их применения. Рис. 1. Процедуры множественного сравнения в контексте их применения Выбор методов зависит, во-первых, от того, какие гипотезы, нуждающиеся в проверке, являются специфичными и требуют предварительного планирования, либо сначала мы будем использовать ANOVA, а затем post hoc тесты для нескольких сравнений. Во-вторых, если мы выбираем post hoc тесты, то этот выбор зависит от того, равны ли по объему выборки для уровней независимой переменной (количество случаев в отдельных группах) или нет. Post hoc тест для множественных сравнений Предварительно запланированные сравнения Равны n Не равны n Ортогональные сравнения (контрасты) Тренд-анализ Метод Стьюдента– Ньюмана– Кеулса Метод Шеффе
Post hoc тесты для множественных сравнений Post hoc тесты используются после отклонения нулевой гипо тезы в ANOVA. Когда нулевая гипотеза отклонена, становится ясно, что по крайней мере два средних значения существенно различаются. Вероятно, существует также комбинация средних, которая отличается от других постулированных значений. Вспомним, как изменяется вероятность ошибки первого рода, когда t-тест используется многократно. Напомним, что если данные поступают из шести различных групп, количество возможных попарных сравнений составляет 15. Если каждый тест является независимым и имеет фиксированный уровень значимости 0,05, то вероятность ошибки первого рода составит (1 – (1 – 0,05)15), или 0,54. Post hoc тесты организованы таким образом, чтобы предварительно фиксированная вероятность ошибки первого рода не изменялась при проведении серии попарных сравнений с t-тестом, после того как отвергли нулевую гипотезу с помощью дисперсионного анализа. Поэтому вместо описания в терминах вероятности ошибки первого рода, которая используется при проверке отдельной гипотезы, эти методы чаще всего описываются в терминах вероятности ошибки сравнения и вероятности ошибки эксперимента. Уровень ошибки первого рода Вероятность ошибки сравнения определяется просто как a, или уровень значимости для каждого отдельного сравнения. Единственное требование для контроля этой ошибки заключается в том, чтобы уровень значимости для проверки каждой пары был определен заранее. Например, для эксперимента с шестью группами мы можем проверить каждое из 15 возможных различий между средними при α = 0,05. В этом случае вероятность ошибки первого рода для каждого отдельного сравнения будет равна 0,05.
Вероятность ошибки эксперимента α𝐸 можно определить как одновременный уровень значимости для всего множества сравнений1. Другими словами, это общая вероятность ошибки первого рода, когда выполняется несколько независимых тестов. Выражение для определения α𝐸: α𝐸 = 1 – (1 – 0,05)с, (1) где с – количество всех возможных сравнений. Чтобы сохранить вероятность ошибки эксперимента на уровне α𝐸 = 0,05 для нашего эксперимента с шестью группами, очевидно, каждое отдельное сравнение должно быть осуществлено с вероятностью ошибки меньшей, чем α𝐸, и такой, что (1 – (1 – 0,05)15) = 0,05. Разрешая это уравнение относительно α𝐸, мы получаем, что каждое отдельное сравнение должно быть выполнено с приблизительным уровнем значимости 0,0034137. Как уже было показано, если каждый отдельный тест имеет уровень значимости 0,05, то общий уровень α𝐸 = 0,54, а не 0,05. Для маленьких значений α (0,01 или меньше) формула (1) может быть переписана следующим образом: α𝐸 , = с × α. (2) Это приближение дает нам простой метод определения α та ким образом, что α𝐸 может сохранить заранее фиксированное значение. Путем деления α𝐸 на число сравнений получаем, какова должна быть вероятность ошибки сравнения. В свою очередь, эта ошибка дает нам желаемый уровень для общей ошибки. В нашем примере: 0,05/15 = 0,0033. Эта величина примерно такая же, как и полученная по формуле (1). Если мы заменим α на 0,0033, то получим: α𝐸 = 1 – (1 – 0,0033)15 = 0,0489. Данная процедура контролирует вероятность ошибки экспе римента (общую вероятность). Неудобством такого подхода яв 1 Вероятность ошибки эксперимента (общая ошибка) определяется как вероят ность того, что сделана хотя бы одна ошибка для множества всех возможных попарных сравнений. Вероятность ошибки сравнения определяется как вероятность ошибки первого рода для каждого из возможных сравнений.