Непараметрическая статистика в задачах защиты информации
Покупка
Основная коллекция
Издательство:
Новосибирский государственный технический университет
Автор:
Хиценко Владимир Евгеньевич
Год издания: 2012
Кол-во страниц: 196
Дополнительно
Тематика:
ББК:
УДК:
ОКСО:
- 10.00.00: ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ
- ВО - Бакалавриат
- 10.03.01: Информационная безопасность
- 38.03.01: Экономика
- ВО - Магистратура
- 10.04.01: Информационная безопасность
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Министерство образования и науки Российской Федерации НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ В.Е. ХИЦЕНКО НЕПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА В ЗАДАЧАХ ЗАЩИТЫ ИНФОРМАЦИИ Утверждено Редакционно-издательским советом университета в качестве конспекта лекций НОВОСИБИРСК 2012
УДК 004.056:519.234(075.8) X 529 Рецензенты: А.Ж. Абденов, д-р техн. наук, проф. А.П. Ковалевский, канд. физ.-мат. наук, доц. Работа подготовлена на кафедре защиты информации для студентов, обучающихся по специальностям 090104 - Комплексная защита объектов информатизации и 090105 - Комплексное обеспечение информационной безопасности автоматизированных систем. Хиценко В.Е. X 529 Непараметрическая статистика в задачах защиты информации : конспект лекций / В.Е. Хиценко. - Новосибирск: Изд-во НГТУ, 2012.- 196 с. ISBN 978-5-7782-1989-2 Пособие содержит теоретические описания, алгоритмы применения и примеры непараметрических критериев проверки связи и различия статистических данных. УДК 004.056:519.234(075.8) Хиценко Владимир Евгеньевич НЕПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА В ЗАДАЧАХ ЗАЩИТЫ ИНФОРМАЦИИ Конспект лекций Выпускающий редактор ИЛ. Брованова Корректор И. Е. Семенова Дизайн обложки А.В. Ладыжская Компьютерная верстка ЯД Гаврилова Подписано в печать 26.06.2012. Формат 60 х 84 1/16. Бумага офсетная Тираж 100 экз. Уч.-изд. л. 11,39. Печ. л. 12,25. Изд. 60. Заказ № 1032 Цена договорная Отпечатано в типографии Новосибирского государственного технического университета 630092, г. Новосибирск, пр. К. Маркса, 20 ISBN 978-5-7782-1989-2 © Хиценко В.Е., 2012 © Новосибирский государственный технический университет, 2012
ОГЛАВЛЕНИЕ Введение.........................................................5 1. КРИТЕРИИ РАЗЛИЧИЯ.............................13 1.1. Номинативная шкала.......................................14 1.1.1. Критерий Макнимара (McNemar)........................ 1.1.2. Проверка симметрии таблиц........................... 1.1.3. Q-критерий Кокрена (Cochran)........................ 1.1.4. Проверка соответствия эмпирического распределения предполагаемому закону ........................................ 1.1.5. Точный критерий Фишера (Fisher)..................... 1.1.6. Критерий %²......................................... 1.1.7. Информационный критерий Кульбака (Kullback)......... 14 16 17 19 20 22 26 1.2. Критерии различия для шкал не слабее порядковой.............28 1.2.1. Задача о сдвиге. Связные выборки............................ 1.2.1.1. Критерий знаков........................................ 1.2.1.2. Знаково-ранговый критерий Уилкоксона (Willcoxon)....... 1.2.1.З. Критерий Фрезера (Fraser).............................. 1.2.1.4. Критерий Фридмана (Fridman)............................ 1.2.1.5. Критерий Пейджа (Page)................................. 1.2.1.6. Критерий Доксама (Doksum).............................. 1.2.1.7. Метод множественных сравнений на основе ранговых сумм Фридмана.................................................. 1.2.1.8. Критерий взвешенных рангов Квейд (Quade)............... 1.2.2. Различие в параметре положения. Независимые выборки......... 1.2.2.1. Критерий Розенбаума (Rosenbaum)........................ 1.2.2.2. Критерий ранговых сумм Уилкоксона (Willcoxon).......... 1.2.2.З. Критерий нормальных меток (Fisher-Yates-Terry-Hoeffding)..................................................... 1.2.2.4. Критерий Ван дер Вардена (Van der Waerden)............. 1.2.2.5. Критерий Краскела-Уоллиса (Kruskal-Wallis)............. 1.2.2.6. Многовыборочный критерий нормальных меток.............. 1.2.2.7. Многовыборочный критерий Ван дер Вардена............... 1.2.2.8. Критерий тенденций Джонкхиера-Терпстры (Jonckheere-Terpstra).......................................... 1.2.3. Задача о масштабе. Связные выборки.......................... 1.2.З.1. Критерий Сэндвика-Олссона (Sandvik-Olsson)............. 28 28 32 38 40 46 47 50 51 55 56 58 62 64 66 69 72 75 78 78 3
1.2.З.2. Критерий Краута-Линерта (Krauth-Lienert)..............80 1.2.4. Задача о масштабе. Независимые выборки.....................82 1.2.4.1. Ранговый критерий Ансари-Бредли (Ansari-Bradley).....82 1.2.4.2. Критерий Зигеля-Тьюки (Siegel-Tukey)..................87 1.2.4.З. Критерий Мозеса (Moses)...............................89 1.2.5. Проверка различий независимых выборок при широких альтернативах ......................................................92 1.2.5.1. Критерий Буша-Винда (Bush-Wieand).....................92 1.2.5.2. Критерий Бхапкара-Дешпанде (Bhapkar-Deshpande)........95 1.2.5.З. Критерий серий Вальда-Вольфовица (Wald-Wolfowitz)....97 1.2.5.4. Критерий Колмогорова-Смирнова.........................98 2. ОЦЕНИВАНИЕ СТЕПЕНИ СВЯЗИ СЛУЧАЙНЫХ ПРИЗНАКОВ.10З 2.1. Номинативная шкала......................................10З 2.1.1. Коэффициент ассоциации..............................104 2.1.2. Коэффициент контингенции............................105 2.1.З. Частотный коэффициент детерминации..................108 2.1.4. Меры, использующие статистику %²....................110 2.1.5. Меры связи направленного типа.......................114 2.2. Ранговая шкала...........................................119 2.2.1. Коэффициент г-Спирмена..............................119 2.2.2. Коэффициент т-Кендалла..............................121 2.2.З. Коэффициент множественной ранговой корреляции (конкор-дации).....................................................126 2.З. Меры связи переменных, заданных в разных шкалах...........129 2.З.1. Бисериальный коффициент корреляции..................1З0 2.З.2. Рангово-бисериальный коэффициент корреляции.........1З1 Библиографический список......................................1З1 Приложение 1ЗЗ
ВВЕДЕНИЕ Конспект лекций предназначен для студентов специальностей «Комплексное обеспечение информационной безопасности автоматизированных систем» и «Комплексная защита объектов информатизации». Основная цель - знакомство с методами, позволяющими обнаруживать в статистических данных настораживающие закономерности, появление которых нельзя считать случайным. Следовательно, необходимо обратить на них внимание, искать разумные объяснения, выдвигать гипотезы, планировать и проводить уточняющие эксперименты. Это открывает возможность построения систем мониторинга обстановки на основе сравнения текущих значений непрерывно вычисляемой статистики с критическими значениями, вероятность превышения которых при отсутствии оснований для тревоги ничтожна. Многие из примеров взяты из специальной литературы, периодики¹. К сожалению, фактические данные о нарушениях режима секретности, несанкционированных вторжениях и сбоях в корпоративных компьютерных сетях являются конфиденциальной информацией и недоступны. Потому некоторые примеры искусственны и покажутся специалисту далекими от реальности. Предполагается, что студенты усвоили основы теории вероятностей и классические методы математической статистики. Напомним лишь логику проверки гипотез. Обычно исследования, связанные со случайными факторами, сводятся к проверке статистических гипотез. Формулируются две гипотезы: нуль-гипотеза Н- и альтернативная, конкурирующая гипотеза Яр Н- - это обычно предположение об отсутствии различий в группах наблюдений, отсутствии эффекта какой-либо обработки, отсутствии связи случайных переменных, отличия эмпирического и теоретического распределений, отсутствия сигнала в шуме, изменения в характере ¹ Использовались журналы: Вопросы защиты информации, Проблемы анализа риска, Защита информации. Инсайд, Специальная техника. 5
процесса и т. п. То есть это предположение о чисто случайном происхождении наблюдаемого эффекта. Альтернативная гипотеза И предполагает значимость, неслучайность эффекта, различия, сдвига, связи, наличие сигнала. Конкретная процедура, алгоритм проверки гипотез называется критерием. Нас может интересовать различие определенного вида. Например, Hq. тх = ту против альтернативы Н\. тх<ту. Тогда критерий и альтернативу называют односторонними. При ненаправленной альтернативе Hg. тх # ту критерий и альтернативу называют двусторонними. Понятно, что возможны две разные ошибки. ошибочное отклонение Но (ошибка 1-го рода) и ошибочное принятие Hq (ошибка 2-го рода). Все критерии подразумевают вычисление некоторой функции g(х 1, ...,хп) наблюдаемых значений выборки, так называемой статистики критерия, закон распределения которой в предположении о справедливости Но нам известен либо мы знаем закон, к которому асимптотически приближается статистика с ростом объема выборки п. Наконец, можно использовать статистическое моделирование для многочисленных имитаций статистики g в условиях Hq. Следовательно, мы можем найти точно или приблизительно критическую область значений Скр этой статистики, вероятность попадания в которую при справедливости Н₀ не превосходит заданного малого значения а, т. е. найти Пкр из условия Р | g е Пкр |Я₀| < а . Обычно, когда эмпирическая статистика g не менее² критического значения gKр, Hq отклоняем, рискуя совершить ошибку 1 -го рода с некоторой малой вероятностью. Эта вероятность а называется уровнем значимости и, как правило, принимается равной 0,05 или 0,01. Говорят «Яо отвергаем на уровне значимости а». Таким образом, используя а = 0,05, мы согласны совершать ошибку 1-го рода в 5 % случаев. Это очень малая вероятность, меньшая, чем вероятность последовательного появления четырех гербов при бросании монеты. На деле оппоненту, сомневающемуся в надежности статистического метода и допускающему чисто случайное происхождение результата, нужно взять монету и бросать ее до появления четырех гербов подряд. ² В некоторых критериях чем меньше статистика, тем сомнительнее Н₀ и тогда а есть вероятность того, что статистика g не превышает критического значения. То есть критической является область малых значений статистики. 6
Ясно, что чем меньше задаваемый уровень значимости, тем больше вероятность Р ошибки 2-го рода, но эту вероятность практически не удается оценить. Однако можно выбирать критерии для конкретной задачи из условия наибольшей мощности, равной 1 - р. Это вероятность правильно отклонить Hq, и в литературе по математической статистике указываются самые мощные критерии для конкретных задач и ситуаций. Впрочем, выбор критерия определяется многими условиями и об этом будет сказано ниже. Возможно более предпочтительным является иной подход к формированию критерия проверки гипотез, когда вычисляется так называемая эмпирическая, достигнутая в опыте значимость³. Это условная вероятность Р {g > g₃Mₙ|#о} получить такое или даже большее (меньшее, см. сноску на стр. 6) значение статистики при справедливости Hq. Другими словами, это вероятность получить в опыте такое же или даже более удивительное при справедливости Но значение статистики g. Ясно, что если достигнутый уровень значимости меньше приемлемого для нас уровня а, мы отклоняем Hq - слишком сомнителен результат g₃Mₙ при выполнении нуль-гипотезы. Понятно, что приемлемая вероятность ошибки 1-го рода а как степень риска должна зависеть от цены этой ошибки. Можно сказать, что достигнутая значимость - это наименьший уровень значимости, на котором можно отвергнуть //о. Как было сказано выше, в некоторых ситуациях закон распределения статистики g определен только асимптотически, при неограниченном увеличении объема выборки, либо для оценки значимости используется статистическое моделирование. В этом случае говорят об асимптотической или приблизительной значимости. Для всех рассматриваемых здесь критериев существуют таблицы критических значений соответствующих статистик и/или таблицы для определения значимости, например, в [1, 2]. Многие из часто используемых функций распределения (нормальная, Стьюдента, биномиальная, F-распределение, % -распределение) доступны в программах статистической обработки, что позволяет найти значимость и критические значения как верхние или нижние а %-е точки этих распределений. Рассмотрим в качестве примера t-критерий Стьюдента. Сделаны п 1 измерений нормальной случайной величины и найдены оценки а\ — ³ В зарубежной литературе p-value. 7
(среднее) и .v 1 (стандартное отклонение) параметров положения т 1 и масштаба oi. Затем сделаны п2 измерений другой нормальной случайной величины и найдены оценки с/₂ и v2. Есть основания полагать, что параметр положения второй величины больше при неизменном параметре масштаба. Таким образом, имеем гипотезы Н&т 1 = т2 и Ну. т i < т2. Для сравнения средних двух независимых выборок с одинаковыми дисперсиями вычисляем статистику Стьюдента: @ 2 — ®1 Смп ,2 = 2,03. 2 v1 ₊ VL п1 п 2 Найдем критические значения статистики Л,мп для уровней значимости а = 0,05 и а = 0,01 при числе степеней свободы пi + п2 - 2 = 23, равные верхним а %-м точкам распределения Стьюдента t(0,0₅;23) =1,714 и t₍₀,₀₁;₂₃₎ = 2,500 (Excel, СТЬЮДРАСПОБР(2а;23), SPSS (Преобразовать, Вычислить, Распределения обратные, ldf.T(1-a,23)))⁴. Условие t'>Mu > t(ₐ;23) выполняется лишь при a = 0,05. Таким образом, наш односторонний критерий позволяет отклонить Н0 в пользу Ну. т 1<т2 на 5 %-м уровне значимости. Среднее во второй выборке значимо больше. Если альтернативная гипотеза менее определенная, ненаправленная Н\: т 1 / т2, то критерий двусторонний, в числителе статистики См п стоит модуль разности и критические значения, равные верхним а/2 %-м точкам распределения Стьюдента, таковы: t(0,05/2;23) = 2,069 и t(0,01/2;23) = = 2,807 (Excel, СТЬЮДРАСПОБР(а;23), SPSS (Преобразовать, Вычислить, Распределения обратные, ldf.T((1-a/2),23))). При такой альтернативе мы уже не можем говорить о статистически значимых различиях средних даже на уровне 0,05. Значимость при двустороннем критерии равна 0,054 (Excel, СТЬЮДРАСП(2,03;23;2)), SPSS (Преобразовать, Вычислить, Группы функций, Распределения кумулятивные, 2(1-CDF.T (2.03, 23))). Она слегка превысила 5 %, и вопрос о реагировании на этот результат должны решать ответственные лица. Использование достигнутой в ⁴ Здесь и далее в скобках указаны способы вычисления в программах Excel и SPSS. 8
эксперименте значимости представляется более конструктивным подходом. Для односторонней альтернативы И: т1<т2 значимость равна 0,027 (Excel,СТЬЮДРАСП (2,03;23;1), SPSS (Преобразовать, Вычислить, Группы функций, Распределения кумулятивные, 1-CDF.T (2.03, 23))), что опять же позволяет отклонить Но на 5 %-м уровне значимости, но не позволяет на 1 %-м. Возьмем другой пример. Было показано, что поток попыток вторжений в сеть является пуассоновским с интенсивностью X = 1,414 попыток в неделю. В истекшую неделю было зафиксировано 5 попыток. Есть ли основания для беспокойства? Говоря на языке проверки гипотез: какова вероятность того, что при прежней интенсивности (гипотеза Н₀) могло случиться пять или более попыток? И если эта вероятность (значимость) слишком мала, то нужно отклонять Но и поднимать тревогу - поток вторжений значимо усилился. В пуассоновском потоке вероятность к событий за интервал т равна Р{х = к} = ^^к)_е, к = 0,1,..., и вероятность того, что за неделю (т = 1) произойдет 5 или более вторжений, т. е. значимость, равна О) У к=5 -к 4 кк у = 1 -У—е ~к= 0,015. к I к=0 к • Следует поднимать тревогу - вряд ли она будет ложной, слишком мала вероятность такого скачка интенсивности при Н₀. Несложно подобрать критическое значение числа вторжений £кр(а) так, чтобы вероятность его превышения была равной или меньшей достаточно малого уровня а. В этом примере статистика является дискретной, целочисленной случайной величиной, и найти ее точное критическое значение для заданного уровня в общем случае невозможно. Тогда как достигнутая значимость вычисляется точно. Непараметрическими критериями и методами называют такие приемы обработки экспериментальных данных, которые не предполагают, что анализируемое статистическое распределение принадлежит к какому-либо параметрическому семейству, т. е. зависящему от ограниченного числа параметров типа т и о в нормальном семействе, пара 9
метра л - в пуассоновском. Предполагается лишь непрерывность или симметричность распределения или равенство медианы нулю. Конкретные процедуры и результаты их применения называют свободными от распределения. В большинстве прикладных исследований для оценки существенности различий средних значений двух независимых выборок используют показанный выше параметрический t-критерий, который предполагает нормальность генеральных совокупностей, из которых взяты наши выборки. Практически распределения могут явно отличаться от нормального или отличия эти трудно обнаружить. Тогда применение t-критерия и иных методов классической (гауссовской) статистики необоснованно и может привести к ошибочным заключениям. Ситуация осложняется тем, что отличие от нормальности может проявляться в «утяжелении хвостов» - это более медленное, неэкспоненциальное убывание плотности распределения на бесконечности, при котором могут не существовать дисперсия и моменты более низких порядков. Применение t-критерия в таких случаях опасно потому, что распределение эмпирической статистики будет отличаться от распределения Стьюдента, особенно в области больших отклонений от центра⁵, и применение критерия становится некорректным. В нормальном случае с ростом объемов выборок дисперсии выборочных средних убывают, что повышает чувствительность критерия к различию средних. Если наблюдения распределены по закону Коши с очень «тяжелыми хвостами», выборочное среднее распределено также по Коши (устойчивость распределения), но, в отличие от нормального распределения, дисперсии средних остаются неизменными, т. е. проведение повторных испытаний не улучшает ситуацию. Иными словами, если наблюдения подчиняются такому распределению, то t-критерий не является даже состоятельным [3,4]. Еще одним ограничением для классических методов является объем выборки. Если фактическое распределение не столь неблагоприятно, и мы располагаем большим числом наблюдений, то можно считать выборочное среднее нормальным. Но если выборка мала, в этом нельзя быть уверенным. Проверка же нормальности по малой выборке сомнительна. ⁵ Именно там мы находим значимость, а также верхние и нижние а %-е точки и используем их в качестве критических значений статистик. 10