Критерии проверки отклонения распределения от нормального закона. Руководство по применению
Покупка
Основная коллекция
Издательство:
НИЦ ИНФРА-М
Автор:
Лемешко Борис Юрьевич
Год издания: 2021
Кол-во страниц: 160
Дополнительно
Вид издания:
Монография
Уровень образования:
Дополнительное профессиональное образование
ISBN: 978-5-16-010314-3
ISBN-онлайн: 978-5-16-112804-6
Артикул: 479650.05.01
К покупке доступен более свежий выпуск
Перейти
Книга рассчитана на специалистов, сталкивающихся в своей деятельности в той или иной степени с вопросами статистического анализа данных, обработкой результатов экспериментов, применением статистических методов для анализа различных аспектов и тенденций окружающей действительности.
В руководстве рассматриваются вопросы применения статистических критериев, ориентированных на проверку гипотезы о принадлежности анализируемых данных нормальному закону распределения вероятностей. Рассматриваются и сравниваются специальные критерии, непараметрические критерии согласия и критерии типа χ2. Указываются недостатки и преимущества различных критериев.
Приводятся таблицы, содержащие процентные точки и модели распределений статистик, необходимые для корректного применения критериев.
Следование рекомендациям обеспечит корректность и повысит обоснованность статистических выводов при анализе данных.
Книга будет полезна инженерам, научным сотрудникам, специалистам различного профиля (медикам, биологам, социологам, экономистам и др.), сталкивающимся в своей деятельности с необходимостью статистического анализа результатов экспериментов. Руководство будет полезно преподавателям вузов, аспирантам и студентам.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 01.03.01: Математика
- 01.03.04: Прикладная математика
- ВО - Магистратура
- 01.04.01: Математика
- 01.04.04: Прикладная математика
- Аспирантура
- 01.06.01: Математика и механика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Москва ИНФРА-М 2021 КРИТЕРИИ ПРОВЕРКИ КРИТЕРИИ ПРОВЕРКИ ОТКЛОНЕНИЯ ОТКЛОНЕНИЯ РАСПРЕДЕЛЕНИЯ РАСПРЕДЕЛЕНИЯ ОТ НОРМАЛЬНОГО ЗАКОНА ОТ НОРМАЛЬНОГО ЗАКОНА РУКОВОДСТВО ПО ПРИМЕНЕНИЮ РУКОВОДСТВО ПО ПРИМЕНЕНИЮ Б.Ю. Л Б.Ю. Лемешко емешко Министерство образования и науки Российской Федерации НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ МОНОГРАФИЯ
УДК 519.23(075.4) ББК 60.6 Л44 ISBN 978-5-16-010314-3 (print) ISBN 978-5-16-102253-5 (online) Лемешко Б.Ю. Критерии проверки отклонения распределения от нормального закона. Руководство по применению : монография / Б.Ю. Лемешко. — Москва : ИНФРА-М, 2021. — 160 с. — (Научная мысль). — DOI 10.12737/6086. ISBN 978-5-16-010314-3 (print) ISBN 978-5-16-102253-5 (online) Книга рассчитана на специалистов, сталкивающихся в своей деятельности в той или иной степени с вопросами статистического анализа данных, обработкой результатов экспериментов, применением статистических методов для анализа различных аспектов и тенденций окружающей действительности. В руководстве рассматриваются вопросы применения статистических критериев, ориентированных на проверку гипотезы о принадлежности анализируемых данных нормальному закону распределения вероятностей. Рассматриваются и сравниваются специальные критерии, непараметрические критерии согласия и критерии типа χ2. Указываются недостатки и преимущества различных критериев. Приводятся таблицы, содержащие процентные точки и модели распределений статистик, необходимые для корректного применения критериев. Следование рекомендациям обеспечит корректность и повысит обоснованность статистических выводов при анализе данных. Книга будет полезна инженерам, научным сотрудникам, специалистам различного профиля (медикам, биологам, социологам, экономистам и др.), сталкивающимся в своей деятельности с необходимостью статистического анализа результатов экспериментов. Руководство будет полезно преподавателям вузов, аспирантам и студентам. УДК 519.23 (075.4) ББК 60.6 Л44 Р е ц е н з е н т ы: А.А. Попов — д-р техн. наук, профессор; В.А. Селезнев — д-р физ.-мат. наук, профессор © Лемешко Б.Ю., 2015 Подписано в печать 16.04.2021. Формат 6090/16. Печать цифровая. Бумага офсетная. Гарнитура Newton. Усл. печ. л. 10,0. ППТ10. Заказ № . ТК 479650-1516204-251014 ООО «Научно-издательский центр ИНФРА-М» 127214, Москва, ул. Полярная, д. 31В, стр. 1 Тел.: (495) 280-15-96, 280-33-86. Факс: (495) 280-36-29 E-mail: books@infra-m.ru http://www.infra-m.ru ФЗ № 436-ФЗ Издание не подлежит маркировке в соответствии с п. 1 ч. 2 ст. 1
Предисловие Нормальный закон распределения вероятностей занимает особое место в прикладной математической статистике. С одной стороны, применение нормального распределения в приложениях обосновывает ряд центральных предельных теорем, суть которых заключается в том, что сумма большого количества независимых (слабо зависимых) случайных величин с конечными математическими ожиданиями и (примерно одинаковыми) дисперсиями имеет распределение близкое к нормальному. Так как многие случайные величины, встречающиеся в приложениях, формируются под влиянием множества слабо зависимых случайных факторов, их распределения могут считаться (оказаться) приближенно нормальными. Как правило, ошибки измерений, характеризующие «отлаженную» измерительную систему, могут хорошо описываться нормальным законом. Отклонения контролируемого показателя от номинального значения для некоторого отлаженного технологического процесса также могут приближенно описываться нормальным законом распределения. С другой стороны, предпосылкой, обуславливающей возможность применения многих классических методов и критериев проверки статистических гипотез, является предположение о принадлежности анализируемых случайных величин нормальному закону. Корректность формирования статистического вывода с использованием соответствующего критерия обеспечивается только при выполнении этого предположения. То есть, соответствующий классический критерий можно применять и полученному выводу можно доверять, если не отклоняется гипотеза о принадлежности анализируемой выборки нормальному закону. В 2002 г. был введен в действие ГОСТ Р ИСО 5479–2002 [67], посвященный проверке отклонения распределения вероятностей от нормального закона. Сразу было видно, что он не помогает практикам в решении соответствующих задач и не отвечает на имеющиеся вопросы. Почему выбран такой краткий перечень критериев? Почему отобраны именно эти критерии? В чем их преимущество? Есть ли недостатки? Почему ничего не говорится об использовании для проверки нормальности непараметрических критериев согласия? О критериях типа χ2? Критериев, которые могут быть использованы для проверки гипотезы о принадлежности выборки нормальному закону, достаточно много. Однако несмотря на множество публикаций не хватает объективной информации о действительных свойствах критериев, их достоинствах и недостатках. Можно натолкнуться на авторитетные мнения о целесообразности применения тех или иных критериев, которые не под
крепляются результатами сравнительного анализа и не всегда подтверждаются при проверке. Специалистов, сталкивающихся в своей практической деятельности с необходимостью статистического анализа результатов экспериментов и, естественно, с проблемой проверки гипотез о принадлежности наблюдений или ошибок измерений нормальному закону, интересует, какие критерии предпочтительнее использовать и почему. Какие критерии обладают большей мощностью? Какие существуют «подводные камни», отражающиеся на результатах анализа? Данное руководство подготовлено на базе наших достаточно кропотливых исследований, проведенных после выхода стандарта [67]. Они позволили провести сравнительный анализ мощности критериев относительно различных альтернатив, показали недостатки некоторых популярных критериев. Можно надеяться, что настоящая книга, как и руководство по непараметрическим критериям согласия [95], окажет реальную помощь специалистам, заинтересованным в корректности проводимого статистического анализа. Я очень признателен своим ученикам и коллегам Лемешко С.Б. и Рогожникову А.П., последовательно много сделавшим для исследования распределений статистик и оценки мощности критериев, ориентированных на проверку гипотез о принадлежности наблюдений нормальному закону. Б.Ю. Лемешко Июль 2014
введение Принадлежность наблюдаемых данных нормальному закону является необходимой предпосылкой для корректного применения большинства классических методов математической статистики, используемых в задачах обработки измерений, стандартизации и контроля качества. Поэтому проверка на отклонение от нормального закона является частой процедурой в ходе проведения измерений, контроля и испытаний, имеющей особое значение, так как далеко не всегда ошибки измерений, связанные с приборами, построенными на различных физических принципах, или ошибки наблюдений некоторого контролируемого показателя подчиняются нормальному закону [99]. В таких случаях применение классического аппарата, опирающегося на предположение о нормальности наблюдаемого закона, оказывается некорректным и может приводить к неверным выводам. В 2002 г. введен в действие в отечественный стандарт ГОСТ Р ИСО 5479–2002 «Статистические методы. Проверка отклонения распределения вероятностей от нормального распределения» [67], который представляет собой аутентичный текст международного стандарта ISO 5479–97. В стандарте рассматриваются графический метод проверки на нормальность с использованием вероятностной бумаги, критерии проверки на симметричность и на значение эксцесса, статистики которых представляют собой функции от оценок моментов закона распределения, критерии Шапиро–Уилка, основанные на регрессионном анализе порядковых статистик, критерий Эппса–Палли, статистика которого измеряет некоторое расстояние между выборочной характеристической функцией и характеристической функцией нормального закона. По существу, стандарт охватывает лишь малую часть из существующего множества критериев, которые были предложены специально или могут быть использованы для проверки отклонения наблюдаемых данных (ошибок измерений) от нормального закона. В стандарте отказываются от использования критериев типа χ2 и не упоминается применение для проверки нормальности непараметрических критериев согласия. Содержание стандарта [67] и ограниченность перечня включенных в него критериев не позволяет его пользователям ориентироваться в том, какой из критериев наиболее предпочтителен для применения. Какой из критериев оказывается более мощным и против каких конкурирующих гипотез? При каких объемах выборок конкретный критерий обладает преимуществом или наоборот? Какие недостатки у конкретных критериев?
В отечественной литературе можно найти много примеров, связанных с проверкой отклонений от нормального закона, но исследованию специальных критериев, предназначенных для этих целей, уделено достаточно мало внимания [71, 64]. Напротив, в зарубежных источниках исследованию критериев проверки отклонений от нормальности посвящено значительное число работ. Уделено внимание и анализу мощности критериев при проверке отклонений от нормального закона по отношению к различным альтернативам [49, 44]. Подчеркивается, что критерии согласия при малых объемах выборок проигрывают по мощности специальным критериям проверки на отклонение от нормальности [49] и предпочтение, как правило, отдается критерию Шапиро– Уилка. В то же время не складывается полной картины того, когда и каким критерием целесообразней пользоваться при проверке отклонений распределения от нормального. Все сказанное не позволяет заинтересованным специалистам точно знать, насколько обоснован выбор критериев в стандарте, каковы их достоинства и недостатки, какова их мощность, как меняются распределения статистик критериев с ростом объемов выборок. Всегда ли, например, критерии Шапиро–Уилка и Эппса–Палли по мощности оказываются предпочтительнее? После выхода стандарта [67] в работе [84] был проведен сравнительный анализ ряда статистических критериев, предназначенных для проверки отклонения эмпирических распределений от нормального закона, в ходе которого была проанализирована мощность и выявлены недостатки отдельных критериев, ранее не упоминаемые в литературе. Исследования, проведенные в [84], показали, что популярные критерии Шапиро–Уилка и Эппса–Палли, рекомендуемые стандартом [67], при малых объемах выборок и малых уровнях значимости a (вероятностях ошибки первого рода) являются смещенными относительно некоторых конкурирующих гипотез (мощность критериев оказывается меньше уровня значимости). В [88] был продолжен анализ критериев нормальности. Перечень критериев, исследованных в [84], был расширен за счет критериев Фросини [18, 19], Хегази–Грина [24], Шпигельхальтера [51], Гири [20] и Дэвида–Хартли–Пирсона [12]. Эти исследования показали, что серьезными недостатками обладают и некоторые другие критерии. В [91] мощность множества критериев, применяемых для проверки нормальности относительно ряда конкурирующих законов, сравнивалась при анализе результатов классических экспериментов по измерению констант. Применение специальных критериев, ориентированных только на проверку гипотезы о принадлежности анализируемых данных нормальному закону, рассматривается в разделе 2. Классические непараметрические критерии согласия Колмогорова, Крамера-Мизеса-Смирнова, Андерсона-Дарлинга, Купера, Ватсона и критерии Жанга предназначены для проверки простых гипотез о при
надлежности выборки полностью известному теоретическому закону распределения вероятностей. В ситуации проверки сложных гипотез, когда оценки параметров теоретического закона оцениваются по этой же выборке, классические результаты, касающиеся этих критериев, оказываются бесполезными, так как распределения статистик при справедливости проверяемой гипотезы становятся зависящими от вида гипотезы. Возможности их использования в таких ситуациях наиболее полно изложены в [95, 103]. Применение критерия Колмогорова для проверки нормальности впервые было рассмотрено в [41], критериев Крамера-Мизеса-Смирнова и Андерсона-Дарлинга в этих же целях наиболее полно, по-видимому, в [96], Купера и Ватсона — в [92, 93, 38, 39, 94, 40], критериев Жанга — в работе [59]. Применение для проверки нормальности непараметрических критериев согласия рассматривается в разделе 3. Традиционно для проверки гипотезы о принадлежности анализируемой выборки нормальному закону применяются критерии согласия типа χ2. Применение (классического) критерия χ2 Пирсона для проверки нормальности предусматривает оценивание неизвестных параметров закона по группированным данным. Применение данного критерия с оцениванием параметров по негруппированным данным имеет свои особенности. В последнем случае целесообразным является применение модифицированных критериев, в частности, критерия Никулина-Рао-Робсона [97, 98, 45]. Применение для проверки нормальности критериев согласия типа χ2 рассматривается в разделе 4. В разделе 5 рассматривается проверка нормальности погрешностей в классических экспериментах. В разделе 6 обсуждаются некоторые проблемы, связанные с использованием критериев в «нестандартных» ситуациях. Большинство таблиц процентных точек (квантилей), необходимых при формировании статистического вывода по соответствующему критерию, для удобства вставлены в параграфы с описанием свойств этого критерия, так же, как и таблицы с оценками мощности. В приложение вынесены лишь наиболее громоздкие таблицы.
1. общие Положения 1.1. общие сведения о Проверке статистических гиПотез При проверке гипотез о виде закона распределения различают простые и сложные гипотезы. Простая проверяемая гипотеза имеет вид H0: F(x) = F(x, θ), где F(x, θ) — функция распределения вероятностей, с которой проверяют согласие наблюдаемой выборки X1, X2, …, Xn объемом n, а θ — известное значение параметра (скалярного или векторного). Сложная проверяемая гипотеза имеет вид H0: F(x) = F(x, θ) где Θ — область определения параметра θ. При проверке гипотезы о принадлежности анализируемой выборки нормальному закону проверяемая гипотеза имеет вид H0: F x F x ( ) ( , , ), ( , ), ( , ) ∈ ∈ ∞ ∞ { } µ σ µ σ 0 0 где F x e dx x x ( , , ) ( ) µ σ σ π µ σ = − − −∞∫ 1 2 2 2 — функция распределения вероятностей нормального закона. Для проверки этой гипотезы может использоваться ряд критериев, построенных специально для проверки принадлежности именно нормальному закону, а также применяться совокупность непараметрических критериев согласия и критериев согласия типа χ2. Тот факт, что проверяется сложная гипотеза особенно существенен для применения непараметрических критериев согласия, так как не могут быть использованы классические результаты для этих критериев, имеющие место при проверке простых гипотез [95]. Свои особенности применения в этом случае имеют и критерии согласия типа χ2. С каждым из критериев, используемым для проверки гипотезы H0, связана некоторая статистика S, измеряющая в соответствии с некоторой мерой расстояние между теоретическим законом распределения вероятностей и эмпирическим законом, определяемым выборкой. В силу случайности извлекаемых выборок случайными оказываются и значения статистики S, вычисляемые в соответствии с этими выборками. При справедливости проверяемой гипотезы H0 статистика S подчиняется некоторому распределению G(S |H0). Схема проверки гипотезы заключается в следующем. Область определения статистики разбивается на два подмножества, одно из которых представляет собой критическую область, и попадание в которую при справедливости H0 маловероятно. При попадании вычисленного по выборке значения S * статистики S в критическую область проверяемая гипотеза H0 отклоняется (отвергается). В противном случае — нет оснований для отклонения гипотезы H0.
Заметим, что неотклонение гипотезы H0 в процессе проверки не означает, что она справедлива. Истинный закон распределения реальных случайных величин остается всегда неизвестным. Результат проверки свидетельствует лишь о том, что этот закон, возможно, не очень сильно отличается, в данном случае, от нормального. С другой стороны, может быть отклонена и справедливая гипотеза H0 и этим самым совершена ошибка 1-го рода. При проверке гипотез, как правило, задают вероятность ошибки 1-го рода a (уровень значимости), допуская тем самым возможность отклонения H0 и возможность такой ошибки. При построении критериев стремятся к использованию одномерных статистик, что упрощает построение критической области. При этом критерии могут быть правосторонними, левосторонними и двусторонними, что определяет построение критической области. Все непараметрические критерии согласия и критерии типа χ2 — правосторонние, и проверяемая гипотеза H0 отклоняется при больших значениях статистики. Среди специальных критериев проверки нормальности большинство правосторонних и двусторонних, но есть и левосторонний критерий (Шапиро-Уилка). В случае правостороннего критерия граница критической области (критическое значение) S1-a, определяется уравнением α α α = = − − ∞ − ∫ g s H ds G S H S ( ) ( ) 0 1 0 1 1 , (1.1) где g s H ( ) 0 — условная плотность распределения статистики при справедливости H0. Для используемых на практике критериев асимптотические (предельные) распределения G S H ( ) 0 соответствующих статистик при условии истинности гипотезы H0, как правило, известны. Критическое значение S1-a обычно берут из соответствующей таблицы процентных точек (квантилей распределения G S H ( ) 0 ) или вычисляют. В принятой практике статистического анализа обычно полученное значение статистики S * сравнивают с критическим значением S1-a при заданном уровне значимости a. Проверяемую гипотезу H0 отклоняют, если S * > S1-a (рис. 1.1). Больше информации о степени согласия можно почерпнуть из «достигнутого уровня значимости»: величины вероятности возможного превышения полученного значения статистики при справедливости нулевой гипотезы (p-value) P S S g s H ds G S H S { } ( ) ( ) * * * > = = − ∞ ∫ 0 0 1 . (1.2) Именно эта вероятность позволяет судить о том, насколько хорошо выборка согласуется с теоретическим распределением, так как по существу представляет собой вероятность истинности нулевой гипотезы (рис. 1.2). Гипотезу о согласии не отвергают, если P S S { } * > > α.
Рис. 1.1. Плотность распределения статистики при справедливости гипотезы H0 и критическое значение для правостороннего критерия Рис. 1.2. Плотность распределения статистики при справедливости гипотезы H0 и достигнутый уровень значимости В случае левостороннего критерия граница критической области Sa определяется уравнением α α α = = −∞∫ g s H ds G S H S ( ) ( ) 0 0 . (1.3) Проверяемую гипотезу H0 отклоняют, если S * < Sa (рис. 1.3). Достигнутый уровень значимости (p-value) в этом случае определяется выражением P S S g s H ds G S H S { } ( ) ( ) * * * < = = −∞∫ 0 0 . (1.4)
К покупке доступен более свежий выпуск
Перейти