Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Непараметрическая статистика в задачах защиты информации

Покупка
Основная коллекция
Артикул: 636835.01.99
Доступ онлайн
98 ₽
В корзину
Хиценко, В. Е. Непараметрическая статистика в задачах защиты информации / Хиценко В.Е. - Новосибирск :НГТУ, 2012. - 196 с.: ISBN 978-5-7782-1989-2. - Текст : электронный. - URL: https://znanium.com/catalog/product/558646 (дата обращения: 16.06.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.

Министерство образования и науки Российской Федерации НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ




В.Е. ХИЦЕНКО


            НЕПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА В ЗАДАЧАХ ЗАЩИТЫ ИНФОРМАЦИИ



Утверждено Редакционно-издательским советом университета в качестве конспекта лекций








НОВОСИБИРСК

2012

УДК 004.056:519.234(075.8)
     X 529

Рецензенты:
А.Ж. Абденов, д-р техн. наук, проф.
А.П. Ковалевский, канд. физ.-мат. наук, доц.

    Работа подготовлена на кафедре защиты информации для студентов, обучающихся по специальностям 090104 - Комплексная защита объектов информатизации и 090105 - Комплексное обеспечение информационной безопасности автоматизированных систем.

    Хиценко В.Е.
X 529 Непараметрическая статистика в задачах защиты информации : конспект лекций / В.Е. Хиценко. - Новосибирск: Изд-во НГТУ, 2012.- 196 с.
         ISBN 978-5-7782-1989-2
         Пособие содержит теоретические описания, алгоритмы применения и примеры непараметрических критериев проверки связи и различия статистических данных.

УДК 004.056:519.234(075.8)

Хиценко Владимир Евгеньевич

НЕПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА В ЗАДАЧАХ ЗАЩИТЫ ИНФОРМАЦИИ
Конспект лекций
Выпускающий редактор ИЛ. Брованова
Корректор И. Е. Семенова
Дизайн обложки А.В. Ладыжская
Компьютерная верстка ЯД Гаврилова


Подписано в печать 26.06.2012. Формат 60 х 84 1/16. Бумага офсетная Тираж 100 экз. Уч.-изд. л. 11,39. Печ. л. 12,25. Изд. 60. Заказ № 1032 Цена договорная

Отпечатано в типографии Новосибирского государственного технического университета 630092, г. Новосибирск, пр. К. Маркса, 20

ISBN 978-5-7782-1989-2                            © Хиценко В.Е., 2012
© Новосибирский государственный технический университет, 2012

ОГЛАВЛЕНИЕ


Введение.........................................................5

1. КРИТЕРИИ РАЗЛИЧИЯ.............................13

1.1. Номинативная шкала.......................................14

   1.1.1. Критерий Макнимара (McNemar)........................
   1.1.2. Проверка симметрии таблиц...........................
   1.1.3. Q-критерий Кокрена (Cochran)........................
   1.1.4. Проверка соответствия эмпирического распределения предполагаемому закону ........................................
   1.1.5. Точный критерий Фишера (Fisher).....................
   1.1.6. Критерий %².........................................
   1.1.7. Информационный критерий Кульбака (Kullback).........

14
16
17

19
20
22
26

1.2. Критерии различия для шкал не слабее порядковой.............28

   1.2.1. Задача о сдвиге. Связные выборки............................
      1.2.1.1. Критерий знаков........................................
      1.2.1.2. Знаково-ранговый критерий Уилкоксона (Willcoxon).......
      1.2.1.З. Критерий Фрезера (Fraser)..............................
      1.2.1.4. Критерий Фридмана (Fridman)............................
      1.2.1.5. Критерий Пейджа (Page).................................
      1.2.1.6. Критерий Доксама (Doksum)..............................
      1.2.1.7. Метод множественных сравнений на основе ранговых сумм Фридмана..................................................
      1.2.1.8. Критерий взвешенных рангов Квейд (Quade)...............
   1.2.2. Различие в параметре положения. Независимые выборки.........
      1.2.2.1. Критерий Розенбаума (Rosenbaum)........................
      1.2.2.2. Критерий ранговых сумм Уилкоксона (Willcoxon)..........
      1.2.2.З. Критерий нормальных меток (Fisher-Yates-Terry-Hoeffding).....................................................
      1.2.2.4. Критерий Ван дер Вардена (Van der Waerden).............
      1.2.2.5. Критерий Краскела-Уоллиса (Kruskal-Wallis).............
      1.2.2.6. Многовыборочный критерий нормальных меток..............
      1.2.2.7. Многовыборочный критерий Ван дер Вардена...............
      1.2.2.8. Критерий тенденций Джонкхиера-Терпстры (Jonckheere-Terpstra)..........................................
   1.2.3. Задача о масштабе. Связные выборки..........................
      1.2.З.1. Критерий Сэндвика-Олссона (Sandvik-Olsson).............

28
28
32
38
40
46
47

50
51
55
56
58

62
64
66
69
72

75
78
78


3

      1.2.З.2. Критерий Краута-Линерта (Krauth-Lienert)..............80
   1.2.4. Задача о масштабе. Независимые выборки.....................82
      1.2.4.1. Ранговый критерий Ансари-Бредли (Ansari-Bradley).....82
      1.2.4.2. Критерий Зигеля-Тьюки (Siegel-Tukey)..................87
      1.2.4.З. Критерий Мозеса (Moses)...............................89
   1.2.5. Проверка различий независимых выборок при широких альтернативах ......................................................92
      1.2.5.1. Критерий Буша-Винда (Bush-Wieand).....................92
      1.2.5.2. Критерий Бхапкара-Дешпанде (Bhapkar-Deshpande)........95
      1.2.5.З. Критерий серий Вальда-Вольфовица (Wald-Wolfowitz)....97
      1.2.5.4. Критерий Колмогорова-Смирнова.........................98

2. ОЦЕНИВАНИЕ СТЕПЕНИ СВЯЗИ СЛУЧАЙНЫХ ПРИЗНАКОВ.10З

2.1. Номинативная шкала......................................10З

   2.1.1. Коэффициент ассоциации..............................104
   2.1.2. Коэффициент контингенции............................105
   2.1.З. Частотный коэффициент детерминации..................108
   2.1.4. Меры, использующие статистику %²....................110
   2.1.5. Меры связи направленного типа.......................114
2.2. Ранговая шкала...........................................119
   2.2.1. Коэффициент г-Спирмена..............................119
   2.2.2. Коэффициент т-Кендалла..............................121
   2.2.З. Коэффициент множественной ранговой корреляции (конкор-дации).....................................................126
2.З. Меры связи переменных, заданных в разных шкалах...........129
   2.З.1. Бисериальный коффициент корреляции..................1З0
   2.З.2. Рангово-бисериальный коэффициент корреляции.........1З1

Библиографический список......................................1З1

Приложение

1ЗЗ

ВВЕДЕНИЕ

   Конспект лекций предназначен для студентов специальностей «Комплексное обеспечение информационной безопасности автоматизированных систем» и «Комплексная защита объектов информатизации». Основная цель - знакомство с методами, позволяющими обнаруживать в статистических данных настораживающие закономерности, появление которых нельзя считать случайным. Следовательно, необходимо обратить на них внимание, искать разумные объяснения, выдвигать гипотезы, планировать и проводить уточняющие эксперименты.
   Это открывает возможность построения систем мониторинга обстановки на основе сравнения текущих значений непрерывно вычисляемой статистики с критическими значениями, вероятность превышения которых при отсутствии оснований для тревоги ничтожна.
   Многие из примеров взяты из специальной литературы, периодики¹. К сожалению, фактические данные о нарушениях режима секретности, несанкционированных вторжениях и сбоях в корпоративных компьютерных сетях являются конфиденциальной информацией и недоступны. Потому некоторые примеры искусственны и покажутся специалисту далекими от реальности.
   Предполагается, что студенты усвоили основы теории вероятностей и классические методы математической статистики. Напомним лишь логику проверки гипотез.
   Обычно исследования, связанные со случайными факторами, сводятся к проверке статистических гипотез. Формулируются две гипотезы: нуль-гипотеза Н- и альтернативная, конкурирующая гипотеза Яр Н- - это обычно предположение об отсутствии различий в группах наблюдений, отсутствии эффекта какой-либо обработки, отсутствии связи случайных переменных, отличия эмпирического и теоретического распределений, отсутствия сигнала в шуме, изменения в характере

    ¹ Использовались журналы: Вопросы защиты информации, Проблемы анализа риска, Защита информации. Инсайд, Специальная техника.

5

процесса и т. п. То есть это предположение о чисто случайном происхождении наблюдаемого эффекта.
   Альтернативная гипотеза И предполагает значимость, неслучайность эффекта, различия, сдвига, связи, наличие сигнала. Конкретная процедура, алгоритм проверки гипотез называется критерием. Нас может интересовать различие определенного вида. Например, Hq. тх = ту против альтернативы Н\. тх<ту. Тогда критерий и альтернативу называют односторонними. При ненаправленной альтернативе Hg. тх # ту критерий и альтернативу называют двусторонними.
   Понятно, что возможны две разные ошибки. ошибочное отклонение Но (ошибка 1-го рода) и ошибочное принятие Hq (ошибка 2-го рода).
   Все критерии подразумевают вычисление некоторой функции g(х 1, ...,хп) наблюдаемых значений выборки, так называемой статистики критерия, закон распределения которой в предположении о справедливости Но нам известен либо мы знаем закон, к которому асимптотически приближается статистика с ростом объема выборки п. Наконец, можно использовать статистическое моделирование для многочисленных имитаций статистики g в условиях Hq. Следовательно, мы можем найти точно или приблизительно критическую область значений Скр этой статистики, вероятность попадания в которую при справедливости Н₀ не превосходит заданного малого значения а, т. е. найти Пкр из условия Р | g е Пкр |Я₀| < а . Обычно, когда эмпирическая статистика g не менее² критического значения gKр, Hq отклоняем, рискуя совершить ошибку 1 -го рода с некоторой малой вероятностью. Эта вероятность а называется уровнем значимости и, как правило, принимается равной 0,05 или 0,01. Говорят «Яо отвергаем на уровне значимости а».
   Таким образом, используя а = 0,05, мы согласны совершать ошибку 1-го рода в 5 % случаев. Это очень малая вероятность, меньшая, чем вероятность последовательного появления четырех гербов при бросании монеты. На деле оппоненту, сомневающемуся в надежности статистического метода и допускающему чисто случайное происхождение результата, нужно взять монету и бросать ее до появления четырех гербов подряд.

    ² В некоторых критериях чем меньше статистика, тем сомнительнее Н₀ и тогда а есть вероятность того, что статистика g не превышает критического значения. То есть критической является область малых значений статистики.

6

   Ясно, что чем меньше задаваемый уровень значимости, тем больше вероятность Р ошибки 2-го рода, но эту вероятность практически не удается оценить. Однако можно выбирать критерии для конкретной задачи из условия наибольшей мощности, равной 1 - р. Это вероятность правильно отклонить Hq, и в литературе по математической статистике указываются самые мощные критерии для конкретных задач и ситуаций. Впрочем, выбор критерия определяется многими условиями и об этом будет сказано ниже.
   Возможно более предпочтительным является иной подход к формированию критерия проверки гипотез, когда вычисляется так называемая эмпирическая, достигнутая в опыте значимость³. Это условная вероятность Р {g > g₃Mₙ|#о} получить такое или даже большее (меньшее, см. сноску на стр. 6) значение статистики при справедливости Hq. Другими словами, это вероятность получить в опыте такое же или даже более удивительное при справедливости Но значение статистики g. Ясно, что если достигнутый уровень значимости меньше приемлемого для нас уровня а, мы отклоняем Hq - слишком сомнителен результат g₃Mₙ при выполнении нуль-гипотезы. Понятно, что приемлемая вероятность ошибки 1-го рода а как степень риска должна зависеть от цены этой ошибки. Можно сказать, что достигнутая значимость - это наименьший уровень значимости, на котором можно отвергнуть //о.
   Как было сказано выше, в некоторых ситуациях закон распределения статистики g определен только асимптотически, при неограниченном увеличении объема выборки, либо для оценки значимости используется статистическое моделирование. В этом случае говорят об асимптотической или приблизительной значимости.
   Для всех рассматриваемых здесь критериев существуют таблицы критических значений соответствующих статистик и/или таблицы для определения значимости, например, в [1, 2]. Многие из часто используемых функций распределения (нормальная, Стьюдента, биномиальная, F-распределение, % -распределение) доступны в программах статистической обработки, что позволяет найти значимость и критические значения как верхние или нижние а %-е точки этих распределений.
   Рассмотрим в качестве примера t-критерий Стьюдента. Сделаны п 1 измерений нормальной случайной величины и найдены оценки а\ —
   ³ В зарубежной литературе p-value.

7

(среднее) и .v 1 (стандартное отклонение) параметров положения т 1 и масштаба oi. Затем сделаны п2 измерений другой нормальной случайной величины и найдены оценки с/₂ и v2. Есть основания полагать, что параметр положения второй величины больше при неизменном параметре масштаба. Таким образом, имеем гипотезы Н&т 1 = т2 и Ну. т i < т2. Для сравнения средних двух независимых выборок с одинаковыми дисперсиями вычисляем статистику Стьюдента:

@ 2 — ®1

Смп

,2

= 2,03.

2

v1 ₊ VL

п1    п 2


    Найдем критические значения статистики Л,мп для уровней значимости а = 0,05 и а = 0,01 при числе степеней свободы пi + п2 - 2 = 23, равные верхним а %-м точкам распределения Стьюдента t(0,0₅;23) =1,714 и t₍₀,₀₁;₂₃₎ = 2,500 (Excel, СТЬЮДРАСПОБР(2а;23), SPSS (Преобразовать, Вычислить, Распределения обратные, ldf.T(1-a,23)))⁴. Условие t'>Mu > t(ₐ;23) выполняется лишь при a = 0,05. Таким образом, наш односторонний критерий позволяет отклонить Н0 в пользу Ну. т 1<т2 на 5 %-м уровне значимости. Среднее во второй выборке значимо больше.
    Если альтернативная гипотеза менее определенная, ненаправленная Н\: т 1 / т2, то критерий двусторонний, в числителе статистики См п стоит модуль разности и критические значения, равные верхним а/2 %-м точкам распределения Стьюдента, таковы: t(0,05/2;23) = 2,069 и t(0,01/2;23) = = 2,807 (Excel, СТЬЮДРАСПОБР(а;23), SPSS (Преобразовать, Вычислить, Распределения обратные, ldf.T((1-a/2),23))). При такой альтернативе мы уже не можем говорить о статистически значимых различиях средних даже на уровне 0,05.
    Значимость при двустороннем критерии равна 0,054 (Excel, СТЬЮДРАСП(2,03;23;2)), SPSS (Преобразовать, Вычислить, Группы функций, Распределения кумулятивные, 2(1-CDF.T (2.03, 23))). Она слегка превысила 5 %, и вопрос о реагировании на этот результат должны решать ответственные лица. Использование достигнутой в

    ⁴ Здесь и далее в скобках указаны способы вычисления в программах Excel и SPSS.

8

эксперименте значимости представляется более конструктивным подходом.
   Для односторонней альтернативы И: т1<т2 значимость равна 0,027 (Excel,СТЬЮДРАСП (2,03;23;1), SPSS (Преобразовать, Вычислить, Группы функций, Распределения кумулятивные, 1-CDF.T (2.03, 23))), что опять же позволяет отклонить Но на 5 %-м уровне значимости, но не позволяет на 1 %-м.
   Возьмем другой пример. Было показано, что поток попыток вторжений в сеть является пуассоновским с интенсивностью X = 1,414 попыток в неделю. В истекшую неделю было зафиксировано 5 попыток. Есть ли основания для беспокойства? Говоря на языке проверки гипотез: какова вероятность того, что при прежней интенсивности (гипотеза Н₀) могло случиться пять или более попыток? И если эта вероятность (значимость) слишком мала, то нужно отклонять Но и поднимать тревогу - поток вторжений значимо усилился.
   В пуассоновском потоке вероятность к событий за интервал т равна
Р{х = к} = ^^к)_е, к = 0,1,...,


и вероятность того, что за неделю (т = 1) произойдет 5 или более вторжений, т. е. значимость, равна

О) У к=5

-к

4 кк у
= 1 -У—е ~к= 0,015. к I
к=0 к •


Следует поднимать тревогу - вряд ли она будет ложной, слишком мала вероятность такого скачка интенсивности при Н₀. Несложно подобрать критическое значение числа вторжений £кр(а) так, чтобы вероятность его превышения была равной или меньшей достаточно малого уровня а.
   В этом примере статистика является дискретной, целочисленной случайной величиной, и найти ее точное критическое значение для заданного уровня в общем случае невозможно. Тогда как достигнутая значимость вычисляется точно.
   Непараметрическими критериями и методами называют такие приемы обработки экспериментальных данных, которые не предполагают, что анализируемое статистическое распределение принадлежит к какому-либо параметрическому семейству, т. е. зависящему от ограниченного числа параметров типа т и о в нормальном семействе, пара

9

метра л - в пуассоновском. Предполагается лишь непрерывность или симметричность распределения или равенство медианы нулю. Конкретные процедуры и результаты их применения называют свободными от распределения.
   В большинстве прикладных исследований для оценки существенности различий средних значений двух независимых выборок используют показанный выше параметрический t-критерий, который предполагает нормальность генеральных совокупностей, из которых взяты наши выборки. Практически распределения могут явно отличаться от нормального или отличия эти трудно обнаружить. Тогда применение t-критерия и иных методов классической (гауссовской) статистики необоснованно и может привести к ошибочным заключениям.
   Ситуация осложняется тем, что отличие от нормальности может проявляться в «утяжелении хвостов» - это более медленное, неэкспоненциальное убывание плотности распределения на бесконечности, при котором могут не существовать дисперсия и моменты более низких порядков.
   Применение t-критерия в таких случаях опасно потому, что распределение эмпирической статистики будет отличаться от распределения Стьюдента, особенно в области больших отклонений от центра⁵, и применение критерия становится некорректным.
   В нормальном случае с ростом объемов выборок дисперсии выборочных средних убывают, что повышает чувствительность критерия к различию средних. Если наблюдения распределены по закону Коши с очень «тяжелыми хвостами», выборочное среднее распределено также по Коши (устойчивость распределения), но, в отличие от нормального распределения, дисперсии средних остаются неизменными, т. е. проведение повторных испытаний не улучшает ситуацию. Иными словами, если наблюдения подчиняются такому распределению, то t-критерий не является даже состоятельным [3,4].
   Еще одним ограничением для классических методов является объем выборки. Если фактическое распределение не столь неблагоприятно, и мы располагаем большим числом наблюдений, то можно считать выборочное среднее нормальным. Но если выборка мала, в этом нельзя быть уверенным. Проверка же нормальности по малой выборке сомнительна.

    ⁵ Именно там мы находим значимость, а также верхние и нижние а %-е точки и используем их в качестве критических значений статистик.

10

   Назовем основные преимущества непараметрических методов:
   -  они свободны от распределений;
   -     позволяют обрабатывать данные, представленные в слабых шкалах (ранговой, балльной, номинативной);
   -  используют относительно простой математический аппарат;
   -  могут работать в условиях малых выборок.
   Многие из непараметрических критериев предназначены для наблюдений, которые не представлены числами, а лишь упорядочены по степени проявления какого-либо признака, пронумерованы, т. е. измерены в ранговой шкале. Напомним понятие ранга.
   Представим выборку хi, х2,..., хп в виде вариационного ряда х(i), х(2),., х(п) (последовательность порядковых статистик), т. е. упорядочим так, чтобы х(i) < х(2) < ...< х(п). Ранг Rₖ элемента выборки хк есть номер этого элемента в вариационном ряду, т. е. R/ₜ =j, если х/₍ = х(у).
   Ранговые критерии единственно возможны, когда наблюдения не умышленно переведены в ранговую шкалу, а в принципе не могут быть представлены иначе, чем в виде некоторого упорядочения. Например, экспертное заключение о сравнительной эффективности средств защиты, перспективности проектов, сформулированное в порядке предпочтительности.
   При переходе к более слабой ранговой шкале мы теряем часть информации в исходных данных. Это плата за нечувствительность к закону распределения генеральной совокупности. Правда, одновременно снижается чувствительность результатов к ошибкам, «засорениям» в данных. Это качество метода называют робастностью.
   Если в выборке встречаются одинаковые элементы, то им назначается один и тот же ранг, равный среднему арифметическому номеров этих элементов в вариационном ряду. (SPSS, Преобразовать, Ранжировать, Ранг 1 с минимальным значением, Совпадающие, Средний), (EXCEL, РАНГ(элемент;массив;1) +(п+1-РАНГ(элемент;массив;0)-РАНГ (элемент;массив;1))/2).
   Ранговой статистикой называют линейную комбинацию рангов или иную функцию от рангов выборки. Если ранговая статистика критерия g(R₁, R₂,..., Rₙ) - дискретная случайная величина, то для заданного уровня значимости а может не существовать значения gKₚ при справедливости Яо. Поэтому для определения критической области используется верхнее критическое значение статистики критерия g i ,

11

равное наименьшему значению g, такому, что Р|g > g\_ᵤ \Но}<а, и нижнее критическое значение gₐ, равное наибольшему значению g, такому, что Р|g < gа \Но} < а. Как правило, значения квантилей gₐ и g 1 ₍/ находятся по таблицам. В этой ситуации вычисление значимости проще и предпочтительнее.
   Кроме ранговых методов большое место в непараметрической статистике занимают методы, использующие наибольшее отклонение между функциями распределения. Это так называемые критерии типа Колмогорова-Смирнова. Если мы сравниваем эмпирическую и теоретическую функции распределения, т. е. используем критерий согласия, то этот по сути своей непараметрический метод, как и распространенный критерий %², ранговым не является. Если же мы сравниваем две эмпирические функции распределения, то эта ситуация сводится к ранговым критериям [4, 5].
   И, наконец, существует группа непараметрических методов, предназначенных для анализа данных, представленных в наиболее слабой из шкал - номинативной (шкала наименований). По существу, здесь для проверки гипотез приходится анализировать частоты попадания признака в некоторые категории, качественного характера. Иногда эти категории все же подразумевают отношение порядка, скажем, низкий, средний и высокий уровни проявления признака.
   Весь материал конспекта лекций разделен на две главы: Критерии различия и Меры связи случайных признаков. Внутри первой главы материал разделяется по типу используемых измерительных шкал, на ситуации связанных и независимых выборок. Дальнейшая рубрикация разделяет поиск различий параметров сдвига, масштаба и законов распределения. Вторая глава посвящена мерам связи случайных признаков и подразделяется на номинативные, ранговые и смешанные шкалы.
   Кроме ссылок на необходимые таблицы Приложения в скобках дается последовательность действий в программах Excel и SPSS для реализации метода, для определения критических значений статистик или достигаемой значимости. Даны многочисленные примеры программной реализации методов в указанных программах. При изучении материала настоятельно рекомендуется применять конкретные методы для других примеров из соответствующего раздела.
   Автор благодарит Б.Ю. Лемешко за полезные замечания и уточнения в тексте.

Доступ онлайн
98 ₽
В корзину