Проблемы оптимизации выборочных данных с неполнотой в диапазоне
Покупка
Основная коллекция
Тематика:
Методы социологических исследований
Издательство:
Южный федеральный университет
Автор:
Дятлов Александр Викторович
Год издания: 2022
Кол-во страниц: 232
Дополнительно
Вид издания:
Монография
Уровень образования:
ВО - Магистратура
ISBN: 978-5-9275-4238-3
Артикул: 822018.01.99
В монографии рассматриваются основные принципы построения выборки в социологических исследованиях и влияние конструкции выборки на точность получаемых результатов. Главное внимание уделяется проблемам при неполном диапазоне данных в эмпирических исследованиях и методам поиска решений при неполном диапазоне выборочных данных. Адресована студентам, аспирантам, а также всем тем, кто интересуется практикой социологических эмпирических исследований выборочных совокупностей с неполным диапазоном данных.
Тематика:
ББК:
УДК:
- 30: Теория, методология и методы общественных наук в целом. Социография
- 316: Социология. Социальная психология
ОКСО:
- ВО - Бакалавриат
- 39.03.01: Социология
- ВО - Магистратура
- 39.04.01: Социология
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное автономное образовательное учреждение высшего образования «ЮЖНЫЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ» А. В. Дятлов ПРОБЛЕМЫ ОПТИМИЗАЦИИ ВЫБОРОЧНЫХ ДАННЫХ С НЕПОЛНОТОЙ В ДИАПАЗОНЕ Монография Ростов-на-Дону – Таганрог Издательство Южного федерального университета 2022
УДК 316:303.4.025(035.3) ББК 60.5+87.256.64я44 Д99 Печатается по решению Комитета по гуманитарному и социально-экономическому направлению науки и образования при ученом совете Южного федерального университета (протокол № 7 от 4 июля 2022 г.) Рецензенты: заведующий кафедрой социальных и гуманитарных наук Южно-Российского государственного политехнического университета (НПИ) им. М. И. Платова, доктор философских наук, профессор К. В. Воденко; заведующий кафедрой социологии, истории, политологии Института управления в экономических, экологических и социальных системах Южного федерального университета, доктор социологических наук, профессор А. В. Рачипа Дятлов, А. В. Проблемы оптимизации выборочных данных с неполнотой в диапазоне : монография / А. В. Дятлов ; Южный федеральный университет. – Ростов-на-Дону ; Таганрог : Издательство Южного федерального университета, 2022. – 232 с. ISBN 978-5-9275-4238-3 DOI 10.18522/801303706 В монографии рассматриваются основные принципы построения выборки в социологических исследованиях и влияние конструкции выборки на точность получаемых результатов. Главное внимание уделяется проблемам при неполном диапазоне данных в эмпирических исследованиях и методам поиска решений при неполном диапазоне выборочных данных. Адресована студентам, аспирантам, а также всем тем, кто интересуется практикой социологических эмпирических исследований выборочных совокупностей с неполным диапазоном данных. ISBN 978-5-9275-4238-3 УДК 316:303.4.025(035.3) ББК 60.5+87.256.64я44 © Южный федеральный университет, 2022 © Дятлов А. В., 2022 © Оформление. Макет. Издательство Южного федерального университета, 2022 Д99
ОГЛАВЛЕНИЕ ВВЕДЕНИЕ ..........................................................................................................................................5 Глава первая. ПРОБЛЕМЫ ПРИ НЕПОЛНОМ ДИАПАЗОНЕ ДАННЫХ В ЭМПИРИЧЕСКИХ ИССЛЕДОВАНИЯХ: ТЕОРЕТИЧЕСКИЕ И МЕТОДОЛОГИЧЕСКИЕ АСПЕКТЫ ..................................10 I. Неполный диапазон данных в эмпирических социологических исследованиях: определение, измерение, проблемы ..........10 1. Неполный диапазон данных ............................................................................10 2. Проблемы с диапазоном данных: труднодоступные единицы. Потеря и (или) выпадение данных ..................................................................13 3. Виды потерь данных ........................................................................................16 4. Влияние неполноты диапазона данных на точность оценок ........................30 II. Статистические аспекты пробелов в диапазоне данных ....................................37 1. Случайные и системные ошибки .....................................................................37 2. Источники ошибок ............................................................................................47 3. Механизм выпадающих единиц. Классификация отсутствующих данных ..61 III. Влияние неполного диапазона данных на достоверность и точность оценок .................................................................................................66 1. Влияние на достоверность информация по совокупности ............................66 2. Возможности ограничения влияния выпадающих единиц в диапазоне данных на достоверность ................................................................................75 Глава вторая. МЕТОДЫ ПОИСКА РЕШЕНИЙ ПРИ НЕПОЛНОМ ДИАПАЗОНЕ ДАННЫХ ВЫБОРКИ ....................................85 I. Разработка методов оптимизации при отсутствующих данных ........................88 1. Прямая оценка отсутствующих значений .......................................................90 2. Оценка как функция сопротивления ...............................................................92 3. Оценка с помощью вероятности потерь .........................................................93 4. Повторный отбор при выпадающих (отсутствующих) единицах ..................94 5. Выпадающие единицы как подвыборка.........................................................97 II. Контрольные методы снижения потерь данных ...............................................98
III. Методы сокращения доли выпадающих единиц .............................................. 101 IV. Взвешивание данных ......................................................................................... 106 1. Необходимость взвешивания ........................................................................ 107 2. Процедуры взвешивания ............................................................................... 109 3. Взвешивание данных на практике ................................................................ 117 4. Модифицированные процедуры взвешивания данных .............................. 121 V. Методы атрибуции значений отсутствующих данных (Imputation) ................ 129 1. Сущность метода атрибуции .......................................................................... 130 2. Модификации метода атрибуции значений ................................................. 131 VI. Многомерная атрибуция значений .................................................................... 151 1. Развитие идеи многомерной атрибуции значений ...................................... 151 2. Сущность метода многомерной атрибуции значений ................................. 154 3. Основные гипотезы метода многомерной атрибуции значений ................ 157 4. Правила обобщения при многомерной атрибуции ...................................... 163 Глава третья. СРАВНИТЕЛЬНЫЕ ПРЕИМУЩЕСТВА И ОГРАНИЧЕНИЯ РАЗЛИЧНЫХ МЕТОДОВ ОПТИМИЗАЦИИ ВЫБОРОЧНЫХ ДАННЫХ ....... 169 I. Оптимизация выборки при неполном диапазоне данных .............................. 169 1. Характеристика выборки ............................................................................... 170 2. Сравнение характеристик выборки с параметрами генеральной совокупности............................................................................. 173 3. Влияния на выборку ....................................................................................... 174 II. Сравнительный анализ использования методов взвешивания и атрибуции значений ........................................................................................ 185 1. Базовые гипотезы сравнения ........................................................................ 187 2. Модель исследования сравнения методов ................................................... 189 3. Симуляционные информационные массивы. Анализ и оценки .................. 193 III. Концепция решения проблемы недостающих данных в эмпирических исследованиях .................................... 208 1. Виды недостающих данных ........................................................................... 208 2. Критерии при выборе оптимизационного подхода (метода) ...................... 209 3. Возможные стратегии в зависимости от доли недостающих данных ........ 213 ЗАКЛЮЧЕНИЕ ................................................................................................................................ 217 СПИСОК ЛИТЕРАТУРЫ ................................................................................................................. 224
Введение В последние десятилетия в эмпирической социологии выборочные исследования стали одним из наиболее часто используемых методов эмпирических социологических исследований. Одновременно с успехами их применение ставит множество проблем и ограничений, независимо от того, служат ли результаты эмпирических социологических исследований управленческой практике или различным задачам научного познания. Презумпция корректного и точного моделирования важна, но в принципе не является достаточной гарантией желаемого соответствия выборочных оценок параметрам генеральной совокупности. Хорошо известно, что на разных этапах любого эмпирического социологического исследования существует множество источников как случайных, так и системных ошибок. Все они в конечном итоге приводят, в той или иной степени, к отклонениям (ошибкам) от фактических параметров. Эти ошибки часто не позволяют правильно обобщать выводы, полученные из выборки, что фактически сводит на нет ее предназначение. Что еще хуже, это не всегда очевидно и часто недостаточно осознается. Незавершенность охвата эмпирических социологических исследований (сплошных и выборочных) – распространенное явление, которое неизбежно порождает «шум» в информации. Социологи расходятся во мнениях, какова допустимая доля выпадающих единиц неохвата, при которой этот «шум» не будет представлять исследовательскую проблему. Кроме того, в российской и зарубежной практике эмпирических социологических исследований используются различные методы снижения неохвата и недостоверных ответов. Эти подходы часто не решают возник
Введение шую проблему и иногда приводят к противоречивым и неоднозначным результатам. В специализированной литературе до сих пор не уделено должного внимания проблемам недостающих данных эмпирических исследований и методам их решения, хотя потребность в этом значительно возрастает и, вероятно, в ближайшем будущем будет только усиливаться. В зарубежной теории и практике проводятся интенсивные исследования и идет поиск методологических решений проблем недостающих данных эмпирических исследований. Излагается и обосновывается ряд подходов, процедур и методов, с помощью которых в разной степени могут быть найдены решения этой проблемы. Многие из этих методов до сих пор неизвестны и не используются в эмпирических исследованиях. Проведенное исследование показывает, что не предпринималось специальных методических исследований возможностей этих новых методов и оценок их эффективности в решении проблем недостающих данных. Основной тезис исследования состоит в том, что недостающие данные эмпирических исследований (сплошных и выборочных) представляют собой значительную проблему, затрагивающую и теорию, и практику эмпирических социологических исследований, а попытки искать решения, особенно в нашей стране, крайне ограниченны. В мировой практике в этом отношении имеются новые решения и улучшения уже существующих. Некоторые из них могут быть успешно адаптированы и применены в отечественной практике эмпирических социологических исследований. Целью исследования по теме является анализ проблем и существующих подходов, методологических и методических решений по оптимизации выборочных данных при неполноте в диапазоне, критическая оценка их сравнительных преимуществ и недостатков, а также обоснование стратегий, рекомендаций и
Введение предложений по решению этих проблем. В связи с этим поставлено несколько исследовательских задач: 1) исследовать и осветить проблемы оптимизации выборочных данных, влияющие на неполноту охвата, и оценить их значимость для практики эмпирических социологических исследований; 2) изучить возможности методов оптимизации выборочных данных, предлагаемых в теории и на практике, при решении задач в рамках области применения путем обобщенного анализа и их систематизации; 3) изучить условия и ограничения применения предлагаемых методов и подходов и оценить их сравнительные преимущества, применимость и ограничения; 4) обосновать и построить общую концепцию путей и направлений решения проблем с недостающими данными. Сформулировано несколько исследовательских гипотез, которые мы постараемся проверить в процессе исследований по данной теме. Это следующие гипотезы: 1. В практике эмпирических социологических исследований слишком часто (практически всегда) и по разным причинам наблюдается потеря данных. Выше определенного предела («порога») эта потеря искажает информацию, и результаты исследования становятся неопределенными, неинформативными и ненадежными. 2. В практике эмпирических социологических исследований налицо неоправданная недооценка проблем недостающих данных на теоретическом, методологическом и практическом уровнях. Вероятно, по этой причине серьезных систематических исследований по этим вопросам вообще недостаточно. То, что все-таки есть, в основном сводится к выводам об объеме и характеристиках недостающей информации (чего и сколько не хватает). Практически отсутствуют усилия по оценке последствий потерь данных и их влияния на достоверность информации.
Введение 3. Во всем мире в последние десятилетия получили распространение обоснованные, апробированные и успешно работающие методы, которые предлагают различные решения проблем охвата. По крайней мере некоторые из них можно адаптировать и использовать для оптимизации массивов недостающих данных. В представленной исследовательской работе используются различные подходы: совокупный (статистический) подход к оценке эффективности различных исследуемых методических решений; сравнительный анализ различных теоретических положений, подходов, методов, процедур, затрагивающих проблемы объема выборочных данных; монографический подход – при изучении некоторых теоретических положений и применяемых в этой области методов; подход моделирования – при обосновании и построении общей концепции и разработанных классификаций, закрепленных в цели и задачах данного научного исследования. Также предпринята попытка поиска и обоснования теоретических положений, а сделанные обобщения и оценки подкрепляются анализом эмпирических данных. Содержание этого научного исследования подчинено нескольким важным ограничениям. Проблемы недостающих данных рассматриваются в контексте репрезентативных выборочных социологических исследований как массовый случай. Но на самом деле представленные методические решения могут быть использованы как в комплексном, так и в других типах выборочных социологических исследований. Из-за ограничений различного характера невозможно было провести по методу приписывания значения недостающих данных (импутации) исследование на конкретном эмпирическом материале. Поэтому импутация анализируется и систематизируется в обобщенном виде и предлагается в качестве основы и направления для будущих исследований по этой тематике. При работе над этим исследованием были использованы литературные источники – в общей сложности 131 наименование на русском и на английском языках.
Введение Помимо материалов социологической тематики, также были использованы работы по теории вероятностей и математической статистике. Для оценки возможностей и сравнительных преимуществ применяемых подходов и методов были задействованы эмпирические данные различных эмпирических социологических исследований. Представленное научное исследование базируется на идее о том, что социолог должен знать основы математико-статистического анализа. Чтобы иметь возможность применять его корректно и находить в нем аргументы в пользу обоснованности своих выводов, существенно важны методы и подходы, заимствованные из математики, статистики, информатики и других областей, подлежащие оценке через призму потребностей и специфики социологического научного знания. Поэтому необходимо прилагать усилия для их адаптации, корректного применения и понимания интерпретации полученных результатов.
Глава первая. ПРОБЛЕМЫ ПРИ НЕПОЛНОМ ДИАПАЗОНЕ ДАННЫХ В ЭМПИРИЧЕСКИХ ИССЛЕДОВАНИЯХ: ТЕОРЕТИЧЕСКИЕ И МЕТОДОЛОГИЧЕСКИЕ АСПЕКТЫ I. Неполный диапазон данных в эмпирических социологических исследованиях: определение, измерение, проблемы 1. Неполный диапазон данных После того как выборка создана (извлечена), во многих социологических исследованиях последующая работа воспринимается как простая и рутинная – сбор информации от единиц выборки, ввод и обработка данных, получение выводов и обобщений. Проблема исследования с точки зрения достоверности эмпирической информации зачастую представляется чем-то гораздо более значимым, чем проблема соответствия выборки требованиям теории при ее формировании. В действительности во многих исследованиях (практически в подавляющем большинстве) серьезные проблемы возникают, когда выборка уже создана, а для определенного количества единиц запрашиваемая информация не была получена. Проблемы с потерянной информацией касаются не только выборочных эмпирических исследований. В основном они такие же и при сплошных исследованиях или даже когда применяются модели нерепрезентативных выборок (например,