Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета, 2015, №112
Покупка
Основная коллекция
Издательство:
Кубанский государственный аграрный университет
Наименование: Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета
Год издания: 2015
Кол-во страниц: 2154
Дополнительно
Вид издания:
Журнал
Артикул: 641408.0001.99
ББК:
УДК:
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов.
Для полноценной работы с документом, пожалуйста, перейдите в
ридер.
Научный журнал КубГАУ, №112(08), 2015 года http://ej.kubagro.ru/2015/08/pdf/01.pdf УДК 330.322.16:629.78 UDC 330.322.16:629.78 01.00.00 Физико-математические науки Physics and mathematical sciences НЕПАРАМЕТРИЧЕСКОЕ ОЦЕНИВАНИЕ ХАРАКТЕРИСТИК РАСПРЕДЕЛЕНИЙ ВЕРОЯТНОСТЕЙ NONPARAMETRIC ESTIMATION OF CHARACTERISTICS OF PROBABILITY DISTRIBUTIONS Орлов Александр Иванович д.э.н., д.т.н., к.ф.-м.н., профессор РИНЦ SPIN-код: 4342-4994 Orlov Alexander Ivanovich Dr.Sci.Econ., Dr.Sci.Tech., Cand.Phys-Math.Sci., professor Московский государственный технический университет им. Н.Э. Баумана, Россия, 105005, Москва, 2-я Бауманская ул., 5, prof-orlov@mail.ru Bauman Moscow State Technical University, Moscow, Russia Статья посвящена непараметрическому точечному и интервальному оцениванию характеристик распределения вероятностей (математического ожидания, медианы, дисперсии, среднего квадратического отклонения, коэффициента вариации) по выборке результатов измерений. Выборочные значения рассматриваются как реализации независимых одинаково распределенных случайных величин с произвольной функцией распределения, имеющей нужное число моментов. Непараметрические процедуры анализа данных сопоставляются с параметрическими, основанными на предположении о том, что выборочные значения имеют нормальное распределение. Точечные оценки строятся очевидным образом – используют выборочные аналоги теоретических характеристик. Интервальные оценки основаны на асимптотической нормальности выборочных моментов и функций от них. Непараметрические асимптотические доверительные интервалы получены в результате применения специальной технологии вывода асимптотических соотношений прикладной статистики. Эта технология в качестве первого шага использует многомерную центральную предельную теорему, примененную к сумме векторов, координаты которых – степени исходных случайных величин. Второй шаг – преобразование предельного многомерного нормального вектора с целью получения интересующего исследователя вектора. При этом используются соображения линеаризации и отбрасываются бесконечно малые величины. Третий шаг – строгое обоснование полученных результатов на стандартном для асимптотических математико-статистических рассуждений уровне. При этом обычно приходится использовать необходимые и достаточные условия наследования сходимости. Статья содержит 10 числовых примеров. Исходные данные - сведения о наработке 50 резцов до предельного состояния. Использование методов, разработанных в предположении нормальности распределения, может привести к заметно искаженным выводам в ситуации, когда гипотеза нормальности не выполнена. Практические рекомендации таковы: при анализе реальных данных следует использовать непараметрические The article is devoted to the nonparametric point and interval estimation of the characteristics of the probabilistic distribution (the expectation, median, variance, standard deviation, variation coefficient) of the sample results. Sample values are regarded as the implementation of independent and identically distributed random variables with an arbitrary distribution function having the desired number of moments. Nonparametric analysis procedures are compared with the parametric procedures, based on the assumption that the sample values have a normal distribution. Point estimators are constructed in the obvious way - using sample analogs of the theoretical characteristics. Interval estimators are based on asymptotic normality of sample moments and functions from them. Nonparametric asymptotic confidence intervals are obtained through the use of special output technology of the asymptotic relations of Applied Statistics. In the first step this technology uses the multidimensional central limit theorem, applied to the sums of vectors whose coordinates are the degrees of initial random variables. The second step is the conversion limit multivariate normal vector to obtain the interest of researcher vector. At the same considerations we have used linearization and discarded infinitesimal quantities. The third step - a rigorous justification of the results on the asymptotic standard for mathematical and statistical reasoning level. It is usually necessary to use the necessary and sufficient conditions for the inheritance of convergence. This article contains 10 numerical examples. Initial data - information about an operating time of 50 cutting tools to the limit state. Using the methods developed on the assumption of normal distribution, it can lead to noticeably distorted conclusions in a situation where the normality hypothesis failed. Practical recommendations are: for the analysis of real data we should use nonparametric confidence limits
Научный журнал КубГАУ, №112(08), 2015 года http://ej.kubagro.ru/2015/08/pdf/01.pdf 2 доверительные границы Ключевые слова: МАТЕМАТИЧЕСКАЯ СТАТИСТИКА, ПРИКЛАДНАЯ СТАТИСТИКА, СТАТИСТИЧЕСКИЕ МЕТОДЫ, НЕПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА, ТОЧЕЧНОЕ ОЦЕНИВАНИЕ, ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ, МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ, МЕДИАНА, ДИСПЕРСИЯ, СРЕДНЕЕ КВАДРАТИЧЕСКОЕ ОТКЛОНЕНИЕ, КОЭФФИЦИЕНТ ВАРИАЦИИ, ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ Keywords: MATHEMATICAL STATISTICS, APPLIED STATISTICS, STATISTICAL METHODS, NONPARAMETRIC STATISTICS, POINT ESTIMATION, CONFIDENCE INTERVALS, EXPECTATION, MEDIAN, VARIANCE, STANDART DEVIATION, VARIATION COEFFICIENT, LIMIT THEOREMS 1. Введение Рассмотрим несколько типовых задач анализа числовых данных, часто встречающихся при применении статистических методов в различных областях научных исследований и отраслях народного хозяйства. В настоящей статье выборка моделируется как совокупность независимых одинаково распределенных числовых случайных величин. Анализ конкретных данных обычно начинают с получения "статистического портрета", т.е. с оценивания основных характеристик распределения [1]. Настоящая статья посвящена непараметрическому точечному и интервальному оцениванию характеристик распределения (математического ожидания, медианы, дисперсии, среднего квадратического отклонения, коэффициента вариации) по выборке результатов измерений. Выборочные значения рассматриваются как реализации независимых одинаково распределенных случайных величин с произвольной функцией распределения, имеющей нужное число моментов. Непараметрические процедуры анализа данных сопоставляются с параметрическими (ср. [2]). Существенная часть алгоритмов статистического анализа данных исходит из предположения о нормальности распределения результатов наблюдений. Между тем специально проведенные исследования (сводка дана, например, в [3] и [4, разд. 2.1]) показывают, что распределения погрешностей физических измерений, как правило, отличны от
Научный журнал КубГАУ, №112(08), 2015 года http://ej.kubagro.ru/2015/08/pdf/01.pdf 3 нормальных. Из-за отклонений от нормальности свойства алгоритмов могут в одних случаях измениться сравнительно слабо, как при проверке гипотезы однородности математических ожиданий для выборок равного объема (см. [4, разд.5.2], [5]), но иногда изменения таковы, что алгоритмы из научных переходят в эвристические. Например, свойства алгоритмов отбраковки выбросов (резко выделяющихся наблюдений) крайне неустойчивы по отношению к отклонениям от нормальности: если зафиксировать правило отбраковки, то крайне неустойчив уровень значимости, а если зафиксировать уровень значимости, то крайне неустойчиво критическое значение (см.[4, разд.4.2], [6]). Поэтому Российской академией статистических методов в 1998 г. выдвинута задача изучения влияния отклонения от нормальности на свойства всех практически используемых алгоритмов статистического анализа. Одна из основных задач в области статистических методов – оценивание по выборочным данным характеристик генеральной совокупности, таких, как математическое ожидание, медиана, дисперсия, среднее квадратическое отклонение, коэффициент вариации. Точечные оценки строятся очевидным образом – используют выборочные аналоги теоретических характеристик. Для получения интервальных оценок приходится использовать асимптотическую нормальность выборочных моментов и функций от них. Пусть исходные данные – это выборка x1, x2, … , xn, где n – объем выборки. В вероятностной модели выборочные значения x1, x2, … , xn рассматриваются как реализации независимых одинаково распределенных случайных величин X1, X2, … , Xn с общей функцией распределения F(x) = P (Xi < x), i = 1,2, …, n. Поскольку функция распределения произвольна (с точностью до условий регулярности типа существования моментов), то рассматриваемые задачи доверительного оценивания характеристик распределения являются непараметрическими. Существование моментов
Научный журнал КубГАУ, №112(08), 2015 года http://ej.kubagro.ru/2015/08/pdf/01.pdf 4 является скорее математическим ограничением, чем реальным, поскольку практически все реальные статистические данные финитны (т.е. ограничены сверху и снизу, например, шкалой прибора). Для простоты изложения примем это предположение финитности, из которого вытекает существование теоретических моментов любого порядка. В дальнейшем изложении будут использоваться выборочное среднее арифметическое X = (X1 + X2 +… + Xn) / n, выборочная дисперсия 2 0s = {(X1 – X )2 + (X2 – X )2 +… + (Xn – X )2} / (n - 1), выборочное среднее квадратическое отклонение s0 (квадратный корень из выборочной дисперсии) и некоторые другие выборочные характеристики, которые введем позже. 2. Точечное и интервальное оценивание математического ожидания. Точечной оценкой для математического ожидания в силу закона больших чисел является выборочное среднее арифметическое X . В некоторых случаях могут быть использованы и другие оценки. Например, если известно, что распределение симметрично относительно своего центра, то центр распределения является не только математическим ожиданием, но и медианой, а потому для его оценки можно использовать выборочную медиану. Нижняя доверительная граница для математического ожидания имеет вид X – U(p) s0 / n1/2 , где: p – доверительная вероятность (истинное значение математического ожидания находится между нижней доверительной границей и верхней
Научный журнал КубГАУ, №112(08), 2015 года http://ej.kubagro.ru/2015/08/pdf/01.pdf 5 доверительной границей с вероятностью, асимптотически равной доверительной); U(p) – число, заданное равенством Ф(U(p)) = (1+ p)/2, где Ф(х) – функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. Например, при p = 95% (т.е. при р = 0,95) имеем U(p) = 1,96. Функция U(p) имеется в большинстве литературных источников по теории вероятностей и математической статистике (см., например, [7]). Верхняя доверительная граница для математического ожидания имеет вид X + U(p) s0/ n1/2 . Выражения для верхней и нижней доверительных границ получены с помощью центральной предельной теоремы теории вероятностей и теоремы о наследовании сходимости (см., например, [8]). Они являются асимптотическими, т.е. становятся тем точнее, чем больше объем выборки. В частности, вероятность попадания истинного значения математического ожидания в интервал между нижней и верхней доверительными границами асимптотически приближается к доверительной вероятности. Но при конечном объеме выборки может незначительно отличаться от нее. Это – недостатки непараметрического подхода. Достоинством же является то, что его можно применять всегда, когда случайная величина имеет математическое ожидание и дисперсию, что в силу финитности (ограниченности шкал) имеет быть практически всегда в реальных ситуациях. Сопоставим с параметрическим подходом. Обычно в таких случаях предполагают нормальность результатов наблюдений (которой, как уже было отмечено, практически никогда нет). Тогда формулы нижней и верхней доверительных границ для математического ожидания имеют похожий вид, только вместо U(p) стоят квантили распределения
Научный журнал КубГАУ, №112(08), 2015 года http://ej.kubagro.ru/2015/08/pdf/01.pdf 6 Стьюдента. Как известно, при росте объема выборки квантили распределения Стьюдента сходятся к соответствующим квантилям стандартного нормального распределения, так что при больших объемах выборок оба подхода дают близкие результаты. Классические доверительные интервалы несколько длиннее, поскольку квантили распределения Стьюдента больше квантилей стандартного нормального распределения, хотя это различие и невелико. Таблица 1 Наработка резцов до предельного состояния (до отказа), ч № п/п Наработка, ч № п/п Наработка, ч № п/п Наработка, ч 1 9 18 47,5 35 63 2 17,5 19 48 36 64,5 3 21 20 50 37 65 4 26,5 21 51 38 67,5 5 27,5 22 53,5 39 68,5 6 31 23 55 40 70 7 32,5 24 56 41 72,5 8 34 25 56 42 77,5 9 36 26 56,5 43 81 10 36,5 27 57,5 44 82,5 11 39 28 58 45 90 12 40 29 59 46 96 13 41 30 59 47 101,5 14 42,5 31 60 48 117,5 15 43 32 61 49 127,5 16 45 33 61,5 50 130 17 46 34 62
Научный журнал КубГАУ, №112(08), 2015 года http://ej.kubagro.ru/2015/08/pdf/01.pdf 7 Пример 1. Рассмотрим данные о наработке резцов до отказа, приведенные в табл. 1. Для них объем выборки n = 50, выборочное среднее арифметическое X = 57,88 (это и есть точечная оценка для математического ожидания), выборочная дисперсия 2 0s = 663,00. Следовательно, выборочное среднее квадратическое отклонение s0 = 75 , 25 00 , 663 = и согласно приведенным выше формулам при доверительной вероятности р = 0,95 нижняя доверительная граница для математического ожидания такова: 57,88 – 1,96 × 25,75 / 50 = 57,88 – 7,14 = 50,74, а верхняя доверительная граница есть 57,88 + 7,14 = 65,02. Если заранее известно, что результаты наблюдения имеют нормальное распределение, то нижняя и верхняя доверительная границы для математического ожидания определяются по формулам X - t(p, n-1) s0 / n , X + t(p, n-1) s0 / n соответственно. Эти формулы отличаются от предыдущих тем, что квантиль нормального распределения U(p) заменена на аналогичную квантиль распределения Стьюдента с (n – 1) степенью свободы. Другими словами, t(p, n-1) – это число, заданное равенством STn-1(p) = (1+ p)/2, где STn-1(х) – функция распределения Стьюдента с (n – 1) степенью свободы. Для доверительной вероятности р = 0,95 при объеме выборки n = 50 согласно [7] имеем квантиль распределения Стьюдента t(p, n-1) = 2,0096. Следовательно, нижняя доверительная граница для математического ожидания такова: 57,88 – 2,0096 × 25,75 / 50 = 57,88 – 7,32 = 50,56, а верхняя доверительная граница есть 57,88 + 7,32 = 65,20. Таким образом, длина доверительного интервала увеличилась с 14,28 до 14,64, т.е. на 2,5%.
Научный журнал КубГАУ, №112(08), 2015 года http://ej.kubagro.ru/2015/08/pdf/01.pdf 8 Согласно расчетам, проведенным для проверки согласия с параметрическим семейством распределений методом моментов в [4, разд. 4.1] и [9], рассматриваемые данные согласуются с гамма-распределением, а не с нормальным распределением, поэтому использование распределения Стьюдента для получения доверительных границ некорректно. Иногда рекомендуют сначала проверить нормальность результатов наблюдений, а потом, в случае принятия гипотезы нормальности, рассчитывать доверительные границы с использованием квантилей распределения Стьюдента. Однако проверка нормальности - более сложная статистическая процедура, чем оценивание математического ожидания. Кроме того, применение одной статистической процедуры, как правило, нарушает предпосылки следующей процедуры, в частности, независимость результатов наблюдений (см., например, [4, разд. 4.3] и [10]). Поэтому цепочка статистических процедур, следующих друг за другом, как правило, образует статистическую технологию, свойства которой неизвестны на современном уровне развития статистических методов. Итак, только непараметрическую статистическую процедуру следует применять для анализа реальных данных. Как правило, встречающиеся на практике распределения не являются нормальными, а потому использование квантилей распределения Стьюдента неправомерно. 3. Точечное и интервальное оценивание медианы Естественной точечной оценкой для медианы является выборочная медиана. Пример 2. Для данных о наработке резцов до отказа (табл. 1) объем выборки – четное число, поэтому выборочной медианой является полусумма 25-го и 26-го членов вариационного ряда, т.е. (56 + 56,5)/2 = 56,25.
Научный журнал КубГАУ, №112(08), 2015 года http://ej.kubagro.ru/2015/08/pdf/01.pdf 9 Чтобы построить доверительные границы для медианы, по доверительной вероятности р находят U(p). Затем вычисляют натуральное число С(р) = [n/2 – U(p)n1/2 /2], где [.] – знак целой части числа. Нижняя доверительная граница для медианы имеет вид (при C(p) > 1; если p = 0,95 и U(p) = 1,96, то C(p) > 1 при n > 8) Х(С(р)), где Х(i) – член с номером i вариационного ряда, построенного по исходной выборке (т.е. i-я порядковая статистика). Верхняя доверительная граница для медианы имеет вид Х(n + 1 - С(р)). Теоретическое основание для приведенных доверительных границ содержится в литературе по порядковым статистикам (см., например, монографию [11, с.68]). Пример 3. Для данных о наработке резцов до отказа n = 50. Рассмотрим как обычно, доверительную вероятность р = 0,95. Тогда С(р) = [50/2 – 1,96 50 /2]= [18,07] = 18. Следовательно, нижней доверительной границей является Х(18) = 47,5, а верхней доверительной границей Х(50 + 1 - 18) = Х(33) = 61,5. Поскольку в случае нормального распределения медиана совпадает с математическим ожиданием, то каких-либо специальных способов ее оценивания в классическом случае нет. 4. Точечное и интервальное оценивание дисперсии Точечной оценкой дисперсии является выборочная дисперсия 2 0s . Эта оценка - несмещенная и состоятельная. Доверительные границы находятся с помощью величины d2 = (m4 - ((n – 1) /n ) 4 4 0s ) / n ,
Научный журнал КубГАУ, №112(08), 2015 года http://ej.kubagro.ru/2015/08/pdf/01.pdf 10 где m4 - выборочный четвертый центральный момент, т.е. m4 = {(X1 – X )4 + (X2 – X )4 +… + (X n – X )4 } / n . Нижняя доверительная граница для дисперсии такова: 2 0s - U(p)d , где 2 0s – выборочная дисперсия; U(p) – квантиль нормального распределения порядка (1+р)/2, а d – положительный квадратный корень из величины d2, введенной выше. Верхняя доверительная граница для дисперсии имеет вид 2 0s + U(p)d . При выводе приведенных соотношений используется асимптотическая нормальность выборочной дисперсии, установленная, например, в монографии [12, с.419]. Соответственно, непараметрический доверительный интервал является асимптотическим. В классическом случае точечная оценка имеет тот же вид, а вот доверительные границы находят с помощью квантилей распределения хи-квадрат с числом степеней свободы, на 1 меньшим объема выборки. В случае нормального распределения четвертый момент в 3 раза больше квадрата дисперсии, а потому можно оценить d2 как n s / 2 4 0 . Это дает быстрый способ для интервальной оценки дисперсии в нормальном случае. Пример 4. Для данных о наработке резцов до отказа объем выборки n = 50, выборочная дисперсия 2 0s = 663,00, четвертый выборочный момент m4 = 1702050,71. Поэтому d2 = (1702050,71- ((50 – 1) /50)4 663,002) /50 = 25932,13. Тогда d = 161,03. Для доверительной вероятности р = 0,95 нижняя доверительная граница для дисперсии случайной величины такова: 663,00 – 1,96×161,03 = 663,00 – 315,63 = 347,37, а верхняя доверительная граница для дисперсии есть 663,00 + 315,63 = 978,63.