Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Вероятностные основы методов и алгоритмов анализа данных

Покупка
Основная коллекция
Артикул: 778140.01.99
Учебное пособие представляет собой дополнительные материалы по курсу «Статистические методы анализа данных». В пособии приведены вероятностные постановки, описаны модели бинарного отклика и модели с ошибками в переменных, рассмотрены методы и алгоритмы построения регрессионных зависимостей для этих моделей. Кроме того, в пособие включены скрипты на языке R для реализации некоторых расчетов и вывода графиков.
Тимофеева, А. Ю. Вероятностные основы методов и алгоритмов анализа данных : учебное пособие / А. Ю. Тимофеева, Е. А. Хайленко. - Новосибирск : Изд-во НГТУ, 2020. - 82 с. - ISBN 978-5-7782-4166-4. - Текст : электронный. - URL: https://znanium.com/catalog/product/1866892 (дата обращения: 13.07.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Министерство науки и высшего образования Российской Федерации 

НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ 

 
 
 
 
 
А.Ю. ТИМОФЕЕВА, Е.А. ХАЙЛЕНКО 
 
 
 
 
ВЕРОЯТНОСТНЫЕ ОСНОВЫ 
МЕТОДОВ И АЛГОРИТМОВ  
АНАЛИЗА ДАННЫХ 
 
 
 
Утверждено  
Редакционно-издательским советом университета  
в качестве учебного пособия 
 
 
 
 
 
 
 
 
 
 
 
НОВОСИБИРСК 
2020 

УДК 519.2(075.8) 
         Т 415 
 
 
 
Рецензенты: 
д-р техн. наук, профессор А.А. Попов, 
канд. техн. наук, доцент В.Ю. Щеколдин 
 
 
 
Работа подготовлена на кафедре теоретической и прикладной  
информатики для студентов, обучающихся по направлениям  
подготовки 01.03.02 «Прикладная математика и информатика», 
02.03.03 «Математическое обеспечение и администрирование  
информационных систем» 
 
 
Тимофеева А.Ю. 
Т 415  
Вероятностные основы методов и алгоритмов анализа данных : учебное пособие / А.Ю. Тимофеева, Е.А. Хайленко. –  
Новосибирск : Изд-во НГТУ, 2020. – 82 с. 

 
 
ISBN 978-5-7782-4166-4 

Учебное пособие представляет собой дополнительные материалы 

по курсу «Статистические методы анализа данных». В пособии приведены вероятностные постановки, описаны модели бинарного отклика и 
модели с ошибками в переменных, рассмотрены методы и алгоритмы 
построения регрессионных зависимостей для этих моделей. Кроме того, в пособие включены скрипты на языке R для реализации некоторых 
расчетов и вывода графиков. 
 
 
УДК 519.2(075.8) 
 
 
ISBN 978-5-7782-4166-4 
 Тимофеева А.Ю., Хайленко Е.А., 2020 
 
 Новосибирский государственный  
 
    технический университет, 2020 

ОГЛАВЛЕНИЕ 
 

Введение ................................................................................................................... 4 

1. Вероятностные постановки задач анализа данных ..................................... 5 

1.1. Условная вероятность и взаимная информация ....................................... 6 
1.2. Функция правдоподобия и метод максимального правдоподобия ....... 14 
1.3. Корреляция ................................................................................................ 21 
1.4. Регрессия как условное математическое ожидание ............................... 26 
1.5. Модели бинарного отклика ...................................................................... 29 
1.6. Модели с ошибками в переменных ......................................................... 33 
1.7. Неоднородные данные .............................................................................. 35 

2. Алгоритмы анализа данных .......................................................................... 39 

2.1. EM-алгоритм разделения смесей ............................................................. 39 
2.2. Алгоритмы оценивания параметров моделей бинарного отклика ........ 43 
2.3. Итерационный алгоритм поиска ММП-оценок параметров  
моделей с ошибками в переменных ........................................................ 49 

3. Методы анализа данных ................................................................................. 51 

3.1. Ортогональная регрессия ......................................................................... 51 
3.2. Метод наименьших квадратов синусов ................................................... 54 
3.3. Метод устойчивой средней геометрической регрессии ........................ 59 
3.4. Метод смешанной устойчивой регрессии ............................................... 60 
3.5. Метод общих наименьших квадратов ..................................................... 69 
3.6. Метод скорректированных наименьших квадратов ............................... 75 

Заключение ............................................................................................................. 78 

Библиографический список .................................................................................. 79 
 

ВВЕДЕНИЕ 

Часто студенты, сталкиваясь с проблемой анализа и обработки 
данных, уделяют больше внимания реализации конкретных алгоритмов, не вдаваясь в теоретические основы тех или иных методов. Тем не 
менее знание вероятностных постановок используемых статистических 
методов позволяет очертить границы их применимости, грамотно выбрать инструментарий в зависимости от природы исходных признаков. 
В то же время изложение теоретических постановок кажется сухим 
и неубедительным, поэтому мы постарались снабдить его примерами 
анализа реальных данных из открытых источников. Важным остается и 
освоение навыков реализации алгоритмов анализа данных, поэтому 
многие задачи мы рассмотрели вплоть до примеров реализации на 
языке R [32]. Предполагается, что читатель знаком с основами работы 
в среде R. Небольшое введение в особенности программирования на 
языке R можно получить из [12]. 
В пособие включены нестандартные постановки, которые глубоко 
исследовались авторами и представляют сферу их научных интересов, 
– модели с ошибками в переменных. Хотя в большинстве случаев в 
ходе анализа ошибки в объясняющих переменных игнорируются, но 
они бывают столь велики, что искажают результаты исследований и 
приводят к неверным выводам. По этой причине важно иметь представление о таких вероятностных постановках и владеть подходящими 
методами анализа данных. 
 

 

1. ВЕРОЯТНОСТНЫЕ ПОСТАНОВКИ ЗАДАЧ  
АНАЛИЗА ДАННЫХ 

Выявление закономерностей часто основано на наблюдении за 
происходящими в природе или в обществе явлениями. Для наблюдателя – это случайные события. Он не может заранее с полной уверенностью утверждать, что произойдет тот или иной исход, например, что 
в следующем месяце выйдет из строя оборудование или что водитель 
не попадет в аварию в новом году. Но при разных характеристиках 
оборудования и водителя можно предположить, что поломка или авария наступит с большей или меньшей вероятностью. Это означает, что 
устанавливается взаимосвязь между характеристиками и результирующей переменной (откликом). Она и формулируется в виде закономерности. Для количественной оценки такой взаимосвязи требуется 
проанализировать данные достаточного объема. 
Пусть вещественная случайная величина   – это отклик. В дискретном случае для каждого исхода y  определена вероятность 
P{
}
  y . Если речь идет о непрерывной случайной величине, то   
имеет некоторую функцию плотности распределения вероятностей 
( )

f
y . Совместно с откликом наблюдается некоторая объясняющая 

величина  . Аналогично для дискретного случая каждому исходу x  
соответствует вероятность P{
}
  x , а для непрерывного – функция 
плотности 
( )
f
x . Здесь ,x y  – это переменные, принимающие конеч
ное число значений (или бесконечное, но счетное) в дискретном случае 
и любые действительные значения – в непрерывном. 
В ходе наблюдений, однако, все фиксированные значения оказываются дискретными. Предположения о том, что величины   и   дис
кретны или непрерывны и подчинены какому-то конкретному закону 
распределения, делаются исследователем исходя из практической ситуации и путем проверки гипотез по исходным данным. 
Пусть получен набор из n  реализаций случайных величин   и  . 
Собранные данные – это конкретные значения, которые принимали 
случайные величины в ходе наблюдений. Для i -го наблюдения обозначим их 
,i
i
x
y . Стоит отличать случайные величины от их реализаций. Так,   соответствует набор значений и их вероятностей или 
функция плотности, в то время как 
iy  – это некоторое число, полученное в ходе наблюдения. При повторном наблюдении случайная величина   может принять другое значение, на то она и случайная. При 
описании алгоритмов анализа данных операции будут производиться 
над числами 
,i
i
x
y . Для объяснения методов анализа данных потребуется обращаться и к случайным величинам, вводить предположения об 
их структуре и о виде их распределения. В общем случае, когда  
распределения могут изменяться в ходе опытов, будем иметь дело с 
набором случайных величин 
1,
,



n  
1
(
,
,
)



n . Чаще всего, однако, предполагается, что они одинаково и независимо распределены. 
Это обеспечивается за счет одних и тех же условий и отсутствия влияния результатов некоторого i -го наблюдения на последующие и 
предыдущие. 

1.1. УСЛОВНАЯ ВЕРОЯТНОСТЬ  
И ВЗАИМНАЯ ИНФОРМАЦИЯ 

Взаимосвязь между случайными величинами   и   может быть 
выражена в терминах условных вероятностей. Рассмотрим события 
  y  и   x . Пусть событие   x  произошло, т. е. случайная величина   приняла некоторое значение x . Это сокращает все возможные 
реализации случайного вектора ( ,
)
  , остается как бы срез значений 
случайной величины  . Так, вероятность события   y  в таком сокращенном пространстве исходов будет называться условной вероятностью события   y  при условии, что произошло событие   x . 

Обозначается условная вероятность как 

P
|
 
 
y
x . 

Условная вероятность события   y  при условии, что событие 
  x  произошло, определяется как отношение вероятности пересечения этих событий к вероятности условия [11]: 









P
P
|
P

 
 
 
 

 


y
x
y
x
x
, 

где P{
}
0
 

x
. Для непрерывных случайных величин необходимо 
ввести функцию совместной плотности распределения вероятностей 
случайных величин 
,
  . Обозначим ее 
, ( , )
 
f
y x . Тогда условная 

плотность задается следующим образом: 



,
|
( , )
|
( )

 




f
y x
f
y x
f
x
, 

где значение x  такое, что 
( )
0


f
x
. 

 
Пример 1. Поясним определения на примере данных об оттоке 
клиентов, взятых с репозитория UCI [21]. Переменные смоделированы 
приближенно к реальным данным телекоммуникационных компаний и 
включают информацию о сроках сотрудничества с компанией, количестве звонков, минут, о платежах по тарифам, обращениях в техническую поддержку. Объем выборки составляет 5000 записей. 
Для считывания данных воспользуемся командой: 

data_churnUCI=read.csv("churn.csv") 

В качестве выборочных оценок вероятностей используются относительные частоты, или доли. Рассмотрим в качестве отклика факт 
ухода клиента (бинарная переменная), а в качестве входного признака, 
например, наличие международного тарифа. 

table_intpl_churn=table(data_churnUCI$internationalplan,data_churnUCI$churn) 
table_intpl=table(data_churnUCI$internationalplan) 
table_intpl_churn[1,]/table_intpl[1] 
table_intpl_churn[2,]/table_intpl[2] 

Проделаем то же самое с длиной поля учетной записи. Она принимает дискретные значения от 1 до 243. Рассмотрим два события: длина 
поля учетной записи меньше либо равна 100 и превышает 100. 

accountlength100=data_churnUCI$accountlength>100 
table_aclen=table(accountlength100) 
table_aclen_churn=table(accountlength100,data_churnUCI$churn) 
table_aclen_churn[1,]/table_aclen[1] 
table_aclen_churn[2,]/table_aclen[2] 

В результате мы получили условные распределения отклика при 
условии отсутствия международного тарифа и при его наличии и при 
длине поля учетной записи, большей 100 или не превышающей 100 
(табл. 1.1). 

Т а б л и ц а  1.1  

Условные распределения отклика 

Условие 
Условная доля оставшихся клиентов
Условная доля 
ушедших клиентов

Международный тариф 
отсутствует 
0,888 
0,112

Есть международный тариф
0,579 
0,421

Длина поля учетной записи 
не превышает 100 
0,866 
0,134

Длина поля учетной записи 
превышает 100 
0,851 
0,149

 
Для того чтобы продемонстрировать использование условной 
плотности распределения вероятностей, рассмотрим непрерывный 
входной признак, например общую продолжительность разговоров в 
дневное время. 
Поскольку отклик дискретный, достаточно оценить условную 
плотность распределения вероятностей времени разговоров для оставшихся клиентов 


|
|
0


f
x y
 и для ушедших клиентов


|
|
1


f
x y
. 
Сделаем это с помощью ядерных оценок функций плотности (рис. 1.1). 

y=as.numeric(data_churnUCI$churn)-1 
plot(density(data_churnUCI$totaldayminutes[y==0])) 
lines(density(data_churnUCI$totaldayminutes[y==1]),col="red",lty=2) 

Рис. 1.1. Ядерные оценки функций плотности 
 

 
В том случае, если условная и безусловная вероятности равны друг 
другу, можно говорить о независимости событий   y  и   x , т. е. 
выполняются условия 





P
|
P
 
 

 
y
x
y . 

Иначе это условие выражается так: вероятность пересечения событий 
равна произведению вероятностей этих событий 

 



 

P
P
P
 
 

 
 

y
x
y
x . 
(1.1) 

Для непрерывных случайных величин аналогично запишем: 



|
|
( )



f
y x
f
y , 

 
, ( , )
( )
( )
 



f
y x
f
y f
x . 
(1.2) 

Если эти условия выполняются при любых значениях y  и x , при которых события   y  и   x  имеют положительную вероятность 
(функцию плотности), то уместно говорить о независимости случайных величин. В противном случае случайные величины зависимы. 
 

 
Пример 2. Сравним оценки условных вероятностей с оценками 
безусловных для приведенных выше примеров. Для этого рассчитаем 
доли ушедших и оставшихся клиентов по всей совокупности. 

mean(y) 

Оказывается, что относительная частота оттока составляет 0,141, 
следовательно, доля оставшихся клиентов равна 0,859. Эти значения 
близки к оценкам условного распределения отклика при условии отсутствия международного тарифа (табл. 1.1). Однако у клиентов с 
международным тарифом факт оттока наблюдается гораздо чаще, так 
как условная доля ушедших клиентов составляет 0,421. Следовательно, 
можно сделать вывод о наличии зависимости между оттоком и наличием международного тарифа. 
Другая ситуация наблюдается с длиной поля учетной записи. Здесь 
при длине, превышающей 100 и не превышающей 100, доли ушедших 
и оставшихся клиентов очень близки к оценкам безусловных вероятностей. Следовательно, между признаками нет взаимосвязи. 
Для того чтобы проанализировать взаимосвязь отклика с общей 
продолжительностью разговоров в дневное время, изобразим на том 
же графике (см. рис. 1.1) безусловную плотность распределения вероятностей этого входного признака. 

lines(density(data_churnUCI$totaldayminutes),col="green",lty=3) 

Из рис. 1.1 хорошо видно, что для ушедших клиентов распределение времени разговоров существенно отличается от безусловного распределения. Следовательно, существует зависимость между оттоком и 
продолжительностью звонков в дневное время. 
 
 
Тем самым для определения независимости используется информация о совместном распределении случайных величин. На этом  

построен такой показатель, как взаимная информация [2]. В дискретном случае он вычисляется как 

 








 


P
I
;
P
log P
P





 
 
  
 
 
 
 




x
y

y
x
y
x
x
y , 
(1.3) 

где 




: P
0

 
 

x
x
, 




: P
0



 

y
y
. 

Если при логарифмировании задавать основание логарифма, равное двум, то показатель (1.3) будет отражать число бит взаимной информации. 
В силу условия (1.1) получаем, что для независимых величин 





 


P
log
log1
0
P
P

 
 


 
 


y
x

x
y
  
,


 

x
y
. 

Для непрерывного случая выполняется то же самое в силу условия (1.2). Значит, I( ;
)
0
  
 тогда и только тогда, когда   и   – независимые случайные величины. 
Показатель взаимной информации принимает неотрицательные 
значения, 

I
;
0
  
. Он симметричен, т. е. I( ;
)
I( ; )
  
  . 

 
 
Пример 3. Проанализируем данные об оттоке клиентов. Ответим 
на вопрос, влияет ли число обращений в службу поддержки на отток 
клиентов компании. Построим таблицу сопряженности и таблицы частот. Сразу поделим частоты на объем выборки, чтобы получить относительные частоты. 

n=dim(data_churnUCI)[1] 
tt_xy=table(data_churnUCI$numbercustomerservicecalls,data_churnUCI$chu
rn)/n 
tt_x=table(data_churnUCI$numbercustomerservicecalls)/n 
tt_y=table(data_churnUCI$churn)/n 

Рассчитаем показатель взаимной информации по соотношению (1.3). 
Поскольку в таблице сопряженности возможны нулевые частоты, которые при логарифмировании дают –Inf, для того чтобы эти значения