Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход
Компьютерные методы анализа данных и исследование статистических закономерностей
В данной монографии рассматриваются статистические методы анализа данных, моделирование и исследование вероятностных закономерностей с использованием компьютерного подхода. Авторы подчеркивают актуальность темы в связи с широким применением статистических методов в различных областях и недостаточным уровнем их использования в России, особенно в части применения современных информационных технологий.
Актуальность и проблемы статистического анализа
В предисловии авторы отмечают, что в настоящее время уровень применения статистических методов в России не соответствует современным требованиям. Отсутствие отечественных разработок программного обеспечения для статистического анализа приводит к некорректным выводам и неверным решениям. Существующие системы статистического анализа, хотя и предоставляют широкий инструментарий, требуют от пользователя высокой квалификации в области соответствующих методов. Авторы указывают на то, что новые результаты в области прикладной математической статистики внедряются в программное обеспечение с задержкой, а предпосылки применения многих классических методов на практике часто не выполняются.
Компьютерный подход к исследованию закономерностей
Авторы выделяют развиваемый ими численный подход к исследованию закономерностей, который заключается в построении математических моделей на основе компьютерного моделирования в тех случаях, когда аналитический аппарат оказывается недостаточным. Этот подход позволяет добиваться хороших результатов там, где аналитические методы не справляются. Найденные закономерности встраиваются в программное обеспечение, расширяя его возможности для исследования вероятностных закономерностей.
Оценивание параметров распределений
В первой главе рассматриваются методы оценивания параметров распределений. Качество оценок, построенных по выборкам конечного объема, характеризуется свойствами несмещенности и эффективности. При больших объемах выборки качество оценок определяется их асимптотическими свойствами: состоятельностью и асимптотической нормальностью. При выборе методов статистического анализа необходимо учитывать форму представления исходных данных, особенно при обработке группированных или цензурированных наблюдений.
Методы оценивания
Рассматриваются методы оценивания параметров распределений, включая метод максимального правдоподобия, методы минимального расстояния и оценивание параметров по порядковым статистикам. Метод максимального правдоподобия позволяет определять оценки параметров по негруппированным, частично группированным, группированным и цензурированным данным. MD-оценки (оценки минимального расстояния) находятся в процессе решения задачи минимизации некоторой меры близости (расстояния) между теоретическим и эмпирическим распределениями. Для нахождения оценок часто используются линейные комбинации порядковых статистик (элементов вариационного ряда) или выборочных квантилей, такие оценки называются L-оценками.
Оценки параметров распределений по группированным данным
Оценки максимального правдоподобия параметров распределений по группированным данным являются асимптотически эффективными. Авторы рассматривают решение задачи асимптотически оптимального группирования, при которой минимизируются потери в количестве информации Фишера. Применение асимптотически оптимального группирования эффективно при группировании информации в целях сокращении объемов хранимых или передаваемых по каналам связи данных о наблюдениях случайных величин с минимальными потерями информации об этом законе.
Оценивание параметров распределений по цензурированным данным
Авторы рассматривают проблемы, связанные с анализом цензурированных выборок, которые зависят от реальных свойств оценок по цензурированным данным. Они анализируют количество информации Фишера как меру возможной точности оценивания, а также экспериментальные оценки точности оценивания по цензурированным выборкам. При увеличении степени цензурирования оценки максимального правдоподобия становятся более чувствительными к имеющимся в наблюдаемой части выборки отклонениям от предполагаемого закона распределения.
Оптимальные L-оценки по выборочным квантилям
Авторы рассматривают построение L-оценок параметров сдвига и масштаба, которые являются асимптотически эффективными. Применение готовых таблиц вероятностей попадания в интервал, соответствующих асимптотически оптимальному группированию, и формул, опирающихся на вычисленные таблицы коэффициентов, делает процесс вычисления этих оценок очень простым.
Робастность оценок
В главе 1.6 рассматривается робастность оценок, то есть их нечувствительность к малым отклонениям от предположений. Авторы подчеркивают, что в общем случае оценки максимального правдоподобия не являются робастными. Для снижения влияния аномальных ошибок и отклонений наблюдаемых выборок от предполагаемого закона на вычисляемые оценки параметров можно использовать процедуру предварительного группирования наблюдений. Группирование данных позволяет резко снизить влияние аномальных наблюдений, а иногда практически исключить последствия присутствия их в выборке.
Применение критериев согласия типа %²
Во второй главе рассматривается применение критериев согласия типа %². Авторы подчеркивают, что при проверке простых гипотез о согласии опытного распределения с теоретическим распределением случайной величины необходимо учитывать, что статистика критерия подчиняется %² -распределению с числом степеней свободы к - 1. При сложной гипотезе, если по выборке оценивали т параметров закона, статистика подчиняется %² -распределению с к - т -1 степенями свободы. Авторы рассматривают статистику типа %² Никулина, которая позволяет избежать проблем, связанных с зависимостью предельного распределения статистики от метода оценивания.
Связь мощности критериев со способом группирования наблюдений
Авторы отмечают, что чем меньше потери информации, связанные с группированием наблюдений, тем выше мощность соответствующих критериев согласия при близких конкурирующих гипотезах.
Асимптотически оптимальное группирование
Авторы подчеркивают, что применение асимптотически оптимального группирования в критериях согласия типа %² обеспечивает максимальную мощность применяемого критерия против близких альтернатив.
Характер влияния способов группирования и метода оценивания на распределения статистик типа %²
В случае проверки сложных гипотез и оценивания по негруппированным данным распределения статистик критериев %² Пирсона и отношения правдоподобия существенно зависят от способа группирования. Эмпирический закон распределения статистики при асимптотически оптимальном группировании ближе к %²-т-1 -распределению, чем при равновероятном группировании.
Выбор числа интервалов
Авторы отмечают, что при выборе числа интервалов в критериях типа %² следует учитывать, что увеличение их числа не приводит к росту мощности. Рекомендуется выбирать число интервалов к так, чтобы для любого интервала при оптимальном группировании выполнялось условие nPj (0) > 5...10.
Применение критериев согласия
Авторы приводят примеры применения критериев согласия при простых и сложных гипотезах.
Выводы
Авторы делают вывод о том, что за редким исключением оценки максимального правдоподобия по негруппированным наблюдениям являются неробастными. Робастность оценок по группированным данным и оптимальных L-оценок по выборочным квантилям для больших выборок устойчивы как к аномальным ошибкам измерений, так и к отклонениям наблюдаемого закона от предполагаемого.
Критерии проверки отклонения распределения от нормального закона
В пятой главе рассматриваются критерии проверки отклонения распределения от нормального закона. Авторы подчеркивают, что критерии Шапиро-Уилка и Эппса-Палли, рекомендуемые стандартом, при малых объемах выборок являются смещенными.
Критерий проверки на симметричность
Авторы рассматривают критерий проверки на симметричность, основанный на статистике, измеряющей асимметрию.
Критерий проверки на эксцесс
Авторы рассматривают критерий проверки на эксцесс, основанный на статистике, измеряющей эксцесс.
Критерий Шапиро-Уилка
Авторы рассматривают критерий Шапиро-Уилка, основанный на линейной комбинации разностей порядковых статистик.
Критерий Эппса-Палли
Авторы рассматривают критерий Эппса-Палли, основанный на сравнении эмпирической и теоретической характеристических функций.
Модифицированный критерий Шапиро-Уилка
Авторы рассматривают модифицированный критерий Шапиро-Уилка, предназначенный для проверки на нормальность нескольких выборок.
Критерий проверки на независимость и отсутствие тренда
В девятой главе рассматриваются критерии проверки гипотез независимости и отсутствия тренда. Авторы отмечают, что критерий Аббе, предназначенный для проверки гипотез о принадлежности двух выборок случайных величин одной и той же генеральной совокупности, является устойчивым к нарушениям предположения о нормальности.
Критерий автокорреляции
Авторы рассматривают критерий автокорреляции, предназначенный для проверки независимости последовательности измерений.
Критерий Фостера-Стюарта
Авторы рассматривают критерий Фостера-Стюарта, предназначенный для проверки отсутствия тренда в средних и дисперсиях.
Критерий Кокса-Стюарта
Авторы рассматривают критерий Кокса-Стюарта, предназначенный для проверки отсутствия тренда в средних и дисперсиях.
Критерий Вальда-Вольфовитца
Авторы рассматривают критерий Вальда-Вольфовитца, основанный на коэффициенте сериальной корреляции.
Критерий Бартелса
Авторы рассматривают критерий Бартелса, основанный на ранговом критерии случайности ряда.
Критерий Хсу
Авторы рассматривают критерий Хсу, предназначенный для обнаружения сдвига дисперсий.
Критерий Клотца
Авторы рассматривают критерий Клотца, предназначенный для проверки гипотез о равенстве параметров масштаба.
Сравнительный анализ мощности параметрических критериев
В заключительной части книги авторы проводят сравнительный анализ мощности различных критериев согласия, подчеркивая, что выбор критерия должен основываться на конкретной задаче и свойствах наблюдаемых данных.
Текст подготовлен языковой моделью и может содержать неточности.
Б.Ю. Лемешко, С.Б. Лемешко, С.Н. Постовалов, Е.В. Чимитова Статистический анализ данных, моделирование и исследование вероятных закономерностей. Компьютерный подход Москва znanium com электронно-библиотечная система Инфра-М 2015
Б.Ю. Лемешко, С.Б. Лемешко, С.Н. Постовалов, Е.В. Чимитова Статистический анализ данных, моделирование и исследование вероятных закономерностей. Компьютерный подход Москва Инфра-М; Znanium.com 2015
Лемешко, Б.Ю. Статистический анализ данных, моделирование и исследование вероятных закономерностей. Компьютерный подход: монография / Б.Ю. Лемешко, С.Б. Лемешко, С.Н. Постовалов, Е.В. Чимитова. - М.: Инфра-М; Znanium.com, 2015. - II, 888 с. ISBN 978-5-16-103267-1 (online) ISBN 978-5-16-103267-1 (online) © Б.Ю. Лемешко, С.Б. Лемешко, С.Н. Постовалов, Е.В. Чимитова, 2015
Предисловие Статистические методы анализа данных, методы прикладной математической статистики в силу объективных условий все шире используются в различных приложениях. В то же время уровень применения этих методов в России, использование современных информационных технологий в ходе решения задач статистического анализа при исследовании процессов и сложных систем в настоящее время не выдерживают никакой критики. В последние десятилетия с рынка научно-технической продукции практически полностью исчезли отечественные разработки в области программного обеспечения задач статистического анализа, пакеты и программные системы, ориентированные на задачи анализа данных. Это самым негативным образом отражается на качестве статистического анализа при обработке результатов экспериментальных исследований в различных сферах научно-технической деятельности, сужает спектр применяемых методов из широкого арсенала прикладной математической статистики, приводит к некорректным выводам и, как следствие, к принятию неверных решений. В настоящее время известно множество систем статистического анализа, используемых в мировой практике. Одни программные системы - универсальные, ориентированные на максимально широкий спектр методов статистического анализа, другие предназначены для решения относительно узкого класса задач. Предлагаемые системы дают инструментарий для решения различных задач статистического анализа, правильность использования которого не в последнюю очередь зависит от квалификации пользователя в области соответствующих методов.
Использование популярных систем не снимает проблем корректного решения задач анализа данных в различных приложениях и не только в силу того, что новые результаты в области прикладной математической статистики далеко не сразу воплощаются в программном обеспечении. До внедрения в универсальные системы нового метода проходит 10.. .15 лет, если это вообще происходит. Объективно применяемые системы включают в себя богатый арсенал классических методов прикладной математической статистики. Однако область корректного применения этого арсенала в различных приложениях сильно ограничена. Дело в том, что предпосылки применения многих методов в задачах, возникающих на практике, как правило, не выполняются. Например, не выполняются предположения о принадлежности ошибок измерений нормальному закону. Или вследствие ограниченности объемов выборок оказывается некорректным использование асимптотических результатов. Или форма регистрации наблюдений (группированные, цензурированные, многократно цензурированные, интервальные данные) не позволяет использовать классические методы оценивания и проверки статистических гипотез. Или, например, из-за сложности построения конкретных зависимостей аналитическими методами математики не смогли предложить аппарат для проверки сложных гипотез с применением непараметрических критериев согласия. Практика, таким образом, подкидывает множество постановок задач, на которые математический аппарат прикладной статистики пока не дает ответа (новых методов, критериев и т. п.). Надеяться на то, что поставляемые практикой все в больших масштабах задачи (в нестандартных условиях) будут своевременно разрешаться за счет человеческого интеллекта и аналитическими методами, не приходится. Выход видится в интенсивном и эффективном использовании компьютерных технологий. В последнее десятилетие увеличилось количество примеров использования методов статистического моделирования (методов Монте-Карло) для исследования статистических и вероятностных закономерностей, например, для нахождения процентных точек (квантилей) распределений статистик некоторых критериев. Хотя наиболее часто методы статистиче
Предисловие 9 ского моделирования в области прикладной математической статистики исследователи используют для проверки аналитических выводов (или только мечтают применить). Становится правилом хорошего тона, когда в международном журнале высокого уровня доказательство теоремы в области математической статистики подтверждается результатами имитационного моделирования. Однако эти разрозненные примеры еще не являются подтверждением системного подхода к развитию компьютерных технологий, направленных на исследование вероятностных закономерностей, на совершенствование аппарата прикладной математической статистики. Парадоксально, но развитие (прикладной) математической статистики сдерживает предубеждение к численным результатам, полученным в этой области: теорема, дающая асимптотический результат, - это хорошо, а приближенная модель, полученная с использованием компьютерных технологий и адекватно описывающая ситуацию в реальных условиях приложения, показывающая, что асимптотический результат здесь не имеет места, - это не совсем хорошо. Однако ситуация начинает меняться. Постепенно приходит осознание того, что численные методы, методы статистического моделирования способствуют развитию математической статистики, что «статистические пакеты - это инструмент исследователя». Но здесь надо однозначно понимать, что используемые системы статистического анализа универсального назначения, как правило, не могут служить инструментарием для исследования закономерностей в самой математической статистике, инструментом для развития ее математического аппарата (разве что в очень ограниченном смысле). Отличительной особенностью исследований коллектива авторов является развиваемый численный подход к исследованию закономерностей. В тех случаях, когда это оказывается сложным сделать с использованием аналитического аппарата, математические модели закономерностей строятся на основе компьютерного моделирования. Это позволяет добиваться хороших результатов там, где их не удается достичь одними аналитическими методами. Такая методика нахо
дится в процессе постоянной эволюции: найденные фундаментальные закономерности (модели, их описывающие), расширяющие аппарат математической статистики, встраиваются в программное обеспечение, расширяя, в свою очередь, его возможности для исследования вероятностных закономерностей. За последние 10.. .15 лет на базе этого подхода удалось добиться достаточно заметных результатов, способствующих расширению аппарата прикладной математической статистики. Например, по результатам исследований совокупности критериев согласия разработаны рекомендации по стандартизации Госстандарта России Р 50.1.033-2001 и Р 50.1.037-2002. В монографии эти результаты существенно уточнены и расширены. В условиях нарушения классических предположений были исследованы распределения и свойства статистик нескольких десятков широко используемых критериев, что способствовало пониманию возможностей статистических методов, совершенствованию аппарата прикладной статистики. Полученные результаты представлены более чем в пятидесяти журнальных публикациях, однако возникла естественная необходимость систематизировать и обобщить их в едином издании, чтобы сделать доступным широкому кругу специалистов, использующих статистические методы. Ряд проектов авторов в данном направлении исследований был поддержан Российским фондом фундаментальных исследований, Министерством образования и Министерством образования и науки Российской Федерации, за что авторы искренне признательны неизвестным экспертам, положительно оценившим перспективность компьютерного подхода к исследованию вероятностных и статистических закономерностей. Это особенно важно для молодых участников проектов. За последние сто с небольшим лет предложена масса статистических методов и критериев, в обилии которых невозможно ориентироваться даже специалисту. Многие из них реализованы в программных системах статистического анализа. Во многих случаях для проверки гипотезы одного и того же вида предложен целый набор критериев. По существу, имеется набор инструментов, предназначенных для
Предисловие 11 косвенного измерения одной и той же величины. И тут возникает проблема выбора: какой критерий предпочтительней? Какой критерий при заданной вероятности ошибки первого рода гарантирует меньшую вероятность ошибки второго рода? Можно ли вообще при таком объеме выборки различить эти две интересующие нас конкурирующие гипотезы? Можно ли при таких объемах выборок использовать асимптотические результаты для данного критерия? Как правило, получить ответ на эти вопросы можно только при использовании компьютерных технологий исследования. Только при использовании методов компьютерного моделирования «неожиданно» проявляются недостатки статистических критериев, ограничивающие область их корректного применения. В предлагаемой монографии, в которой основные результаты получены с использованием вычислительных методов и статистического моделирования, компьютерные технологии рассматриваются как инструментарий, направленный на изучение закономерностей математической статистики, на уточнение условий, в которых корректно применение конкретных теоретических результатов математической статистики, на исследование постановок, появившихся в последнее время в связи с потребностями практики. Развиваемые технологии существенно дополняют аналитические методы, помогают находить приближенные решения в тех случаях, когда этого не удается сделать аналитическими методами. На основании имитационного моделирования можно делать не только асимптотические выводы, но и прослеживать изменения закономерностей с ростом объемов выборок, моделировать и строить модели распределений любой исследуемой статистики в конкретной ситуации. В течение ряда последних лет на факультете прикладной математики и информатики Новосибирского государственного технического университета читается курс «Компьютерные технологии анализа данных и исследования статистических закономерностей» [253, 264]. Программа курса перекликается с содержанием монографии, а развиваемое математическое и программное обеспечение позволяет слушателям курса проводить самостоятельные исследования по всем направлениям, охваченным ее оглавлением.
В монографию включены только те разделы прикладной математической статистики, в которых авторы получили новые и интересные для практического использования результаты. Авторы надеются, что книга и приводимые в приложениях таблицы будут полезны читателям в их практической деятельности, а ее содержание пополнит знания, полученные при прослушивании вузовского курса по математической статистике, в котором «почти наверное» были опущены острые моменты, связанные с реальными свойствами методов и критериев. Б.Ю. Лемешко Август 2010
1. ОЦЕНИВАНИЕ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЙ 1.1. Введение /гу*усть в эксперименте наблюдается непрерывная случайная U L величина £, с функцией распределения вероятностей F(х, 0) и плотностью распределения f (х, 0), где 0 - вектор неизвестных параметров. По выборке Хп ={хь х₂,..., хп} требуется оценить неизвестные параметры распределения. Качество оценок, построенных по выборкам конечного объема (п < да), характеризуется следующими свойствами. Несмещенность. Оценка 0 называется несмещенной, если е [0( Хп )] = е. Эффективность. Несмещенная оценка 0 называется эффективной, если D |^0 (Хп)] = J,7l(0), где Jₙ (0) - информационная матрица Фишера. Эффективность имеет смысл только для регулярных моделей. Семейство {F(х, 0), 0еО} является регулярным, если выполняют ся следующие условия: • для любого 0, 0еО, плотность f (х, 0) дифференцируема по 0, Э т. е. существует —f (х, 0); Э Э Э0 • множество {х: f (х, 0) = 0} не зависит от 0. При п ^ да качество оценок определяется их асимптотическими свойствами.