Вероятностные основы методов и алгоритмов анализа данных
Покупка
Основная коллекция
Тематика:
Базы и банки данных. СУБД
Издательство:
Новосибирский государственный технический университет
Год издания: 2020
Кол-во страниц: 82
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-7782-4166-4
Артикул: 778140.01.99
Учебное пособие представляет собой дополнительные материалы по курсу «Статистические методы анализа данных». В пособии приведены вероятностные постановки, описаны модели бинарного отклика и модели с ошибками в переменных, рассмотрены методы и алгоритмы построения регрессионных зависимостей для этих моделей. Кроме того, в пособие включены скрипты на языке R для реализации некоторых расчетов и вывода графиков.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 01.03.02: Прикладная математика и информатика
- 02.03.03: Механика и математическое моделирование
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Министерство науки и высшего образования Российской Федерации НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ А.Ю. ТИМОФЕЕВА, Е.А. ХАЙЛЕНКО ВЕРОЯТНОСТНЫЕ ОСНОВЫ МЕТОДОВ И АЛГОРИТМОВ АНАЛИЗА ДАННЫХ Утверждено Редакционно-издательским советом университета в качестве учебного пособия НОВОСИБИРСК 2020
УДК 519.2(075.8) Т 415 Рецензенты: д-р техн. наук, профессор А.А. Попов, канд. техн. наук, доцент В.Ю. Щеколдин Работа подготовлена на кафедре теоретической и прикладной информатики для студентов, обучающихся по направлениям подготовки 01.03.02 «Прикладная математика и информатика», 02.03.03 «Математическое обеспечение и администрирование информационных систем» Тимофеева А.Ю. Т 415 Вероятностные основы методов и алгоритмов анализа данных : учебное пособие / А.Ю. Тимофеева, Е.А. Хайленко. – Новосибирск : Изд-во НГТУ, 2020. – 82 с. ISBN 978-5-7782-4166-4 Учебное пособие представляет собой дополнительные материалы по курсу «Статистические методы анализа данных». В пособии приведены вероятностные постановки, описаны модели бинарного отклика и модели с ошибками в переменных, рассмотрены методы и алгоритмы построения регрессионных зависимостей для этих моделей. Кроме того, в пособие включены скрипты на языке R для реализации некоторых расчетов и вывода графиков. УДК 519.2(075.8) ISBN 978-5-7782-4166-4 Тимофеева А.Ю., Хайленко Е.А., 2020 Новосибирский государственный технический университет, 2020
ОГЛАВЛЕНИЕ Введение ................................................................................................................... 4 1. Вероятностные постановки задач анализа данных ..................................... 5 1.1. Условная вероятность и взаимная информация ....................................... 6 1.2. Функция правдоподобия и метод максимального правдоподобия ....... 14 1.3. Корреляция ................................................................................................ 21 1.4. Регрессия как условное математическое ожидание ............................... 26 1.5. Модели бинарного отклика ...................................................................... 29 1.6. Модели с ошибками в переменных ......................................................... 33 1.7. Неоднородные данные .............................................................................. 35 2. Алгоритмы анализа данных .......................................................................... 39 2.1. EM-алгоритм разделения смесей ............................................................. 39 2.2. Алгоритмы оценивания параметров моделей бинарного отклика ........ 43 2.3. Итерационный алгоритм поиска ММП-оценок параметров моделей с ошибками в переменных ........................................................ 49 3. Методы анализа данных ................................................................................. 51 3.1. Ортогональная регрессия ......................................................................... 51 3.2. Метод наименьших квадратов синусов ................................................... 54 3.3. Метод устойчивой средней геометрической регрессии ........................ 59 3.4. Метод смешанной устойчивой регрессии ............................................... 60 3.5. Метод общих наименьших квадратов ..................................................... 69 3.6. Метод скорректированных наименьших квадратов ............................... 75 Заключение ............................................................................................................. 78 Библиографический список .................................................................................. 79
ВВЕДЕНИЕ Часто студенты, сталкиваясь с проблемой анализа и обработки данных, уделяют больше внимания реализации конкретных алгоритмов, не вдаваясь в теоретические основы тех или иных методов. Тем не менее знание вероятностных постановок используемых статистических методов позволяет очертить границы их применимости, грамотно выбрать инструментарий в зависимости от природы исходных признаков. В то же время изложение теоретических постановок кажется сухим и неубедительным, поэтому мы постарались снабдить его примерами анализа реальных данных из открытых источников. Важным остается и освоение навыков реализации алгоритмов анализа данных, поэтому многие задачи мы рассмотрели вплоть до примеров реализации на языке R [32]. Предполагается, что читатель знаком с основами работы в среде R. Небольшое введение в особенности программирования на языке R можно получить из [12]. В пособие включены нестандартные постановки, которые глубоко исследовались авторами и представляют сферу их научных интересов, – модели с ошибками в переменных. Хотя в большинстве случаев в ходе анализа ошибки в объясняющих переменных игнорируются, но они бывают столь велики, что искажают результаты исследований и приводят к неверным выводам. По этой причине важно иметь представление о таких вероятностных постановках и владеть подходящими методами анализа данных.
1. ВЕРОЯТНОСТНЫЕ ПОСТАНОВКИ ЗАДАЧ АНАЛИЗА ДАННЫХ Выявление закономерностей часто основано на наблюдении за происходящими в природе или в обществе явлениями. Для наблюдателя – это случайные события. Он не может заранее с полной уверенностью утверждать, что произойдет тот или иной исход, например, что в следующем месяце выйдет из строя оборудование или что водитель не попадет в аварию в новом году. Но при разных характеристиках оборудования и водителя можно предположить, что поломка или авария наступит с большей или меньшей вероятностью. Это означает, что устанавливается взаимосвязь между характеристиками и результирующей переменной (откликом). Она и формулируется в виде закономерности. Для количественной оценки такой взаимосвязи требуется проанализировать данные достаточного объема. Пусть вещественная случайная величина – это отклик. В дискретном случае для каждого исхода y определена вероятность P{ } y . Если речь идет о непрерывной случайной величине, то имеет некоторую функцию плотности распределения вероятностей ( ) f y . Совместно с откликом наблюдается некоторая объясняющая величина . Аналогично для дискретного случая каждому исходу x соответствует вероятность P{ } x , а для непрерывного – функция плотности ( ) f x . Здесь ,x y – это переменные, принимающие конеч ное число значений (или бесконечное, но счетное) в дискретном случае и любые действительные значения – в непрерывном. В ходе наблюдений, однако, все фиксированные значения оказываются дискретными. Предположения о том, что величины и дис
кретны или непрерывны и подчинены какому-то конкретному закону распределения, делаются исследователем исходя из практической ситуации и путем проверки гипотез по исходным данным. Пусть получен набор из n реализаций случайных величин и . Собранные данные – это конкретные значения, которые принимали случайные величины в ходе наблюдений. Для i -го наблюдения обозначим их ,i i x y . Стоит отличать случайные величины от их реализаций. Так, соответствует набор значений и их вероятностей или функция плотности, в то время как iy – это некоторое число, полученное в ходе наблюдения. При повторном наблюдении случайная величина может принять другое значение, на то она и случайная. При описании алгоритмов анализа данных операции будут производиться над числами ,i i x y . Для объяснения методов анализа данных потребуется обращаться и к случайным величинам, вводить предположения об их структуре и о виде их распределения. В общем случае, когда распределения могут изменяться в ходе опытов, будем иметь дело с набором случайных величин 1, , n 1 ( , , ) n . Чаще всего, однако, предполагается, что они одинаково и независимо распределены. Это обеспечивается за счет одних и тех же условий и отсутствия влияния результатов некоторого i -го наблюдения на последующие и предыдущие. 1.1. УСЛОВНАЯ ВЕРОЯТНОСТЬ И ВЗАИМНАЯ ИНФОРМАЦИЯ Взаимосвязь между случайными величинами и может быть выражена в терминах условных вероятностей. Рассмотрим события y и x . Пусть событие x произошло, т. е. случайная величина приняла некоторое значение x . Это сокращает все возможные реализации случайного вектора ( , ) , остается как бы срез значений случайной величины . Так, вероятность события y в таком сокращенном пространстве исходов будет называться условной вероятностью события y при условии, что произошло событие x . Обозначается условная вероятность как P | y x .
Условная вероятность события y при условии, что событие x произошло, определяется как отношение вероятности пересечения этих событий к вероятности условия [11]: P P | P y x y x x , где P{ } 0 x . Для непрерывных случайных величин необходимо ввести функцию совместной плотности распределения вероятностей случайных величин , . Обозначим ее , ( , ) f y x . Тогда условная плотность задается следующим образом: , | ( , ) | ( ) f y x f y x f x , где значение x такое, что ( ) 0 f x . Пример 1. Поясним определения на примере данных об оттоке клиентов, взятых с репозитория UCI [21]. Переменные смоделированы приближенно к реальным данным телекоммуникационных компаний и включают информацию о сроках сотрудничества с компанией, количестве звонков, минут, о платежах по тарифам, обращениях в техническую поддержку. Объем выборки составляет 5000 записей. Для считывания данных воспользуемся командой: data_churnUCI=read.csv("churn.csv") В качестве выборочных оценок вероятностей используются относительные частоты, или доли. Рассмотрим в качестве отклика факт ухода клиента (бинарная переменная), а в качестве входного признака, например, наличие международного тарифа. table_intpl_churn=table(data_churnUCI$internationalplan,data_churnUCI$churn) table_intpl=table(data_churnUCI$internationalplan) table_intpl_churn[1,]/table_intpl[1] table_intpl_churn[2,]/table_intpl[2]
Проделаем то же самое с длиной поля учетной записи. Она принимает дискретные значения от 1 до 243. Рассмотрим два события: длина поля учетной записи меньше либо равна 100 и превышает 100. accountlength100=data_churnUCI$accountlength>100 table_aclen=table(accountlength100) table_aclen_churn=table(accountlength100,data_churnUCI$churn) table_aclen_churn[1,]/table_aclen[1] table_aclen_churn[2,]/table_aclen[2] В результате мы получили условные распределения отклика при условии отсутствия международного тарифа и при его наличии и при длине поля учетной записи, большей 100 или не превышающей 100 (табл. 1.1). Т а б л и ц а 1.1 Условные распределения отклика Условие Условная доля оставшихся клиентов Условная доля ушедших клиентов Международный тариф отсутствует 0,888 0,112 Есть международный тариф 0,579 0,421 Длина поля учетной записи не превышает 100 0,866 0,134 Длина поля учетной записи превышает 100 0,851 0,149 Для того чтобы продемонстрировать использование условной плотности распределения вероятностей, рассмотрим непрерывный входной признак, например общую продолжительность разговоров в дневное время. Поскольку отклик дискретный, достаточно оценить условную плотность распределения вероятностей времени разговоров для оставшихся клиентов | | 0 f x y и для ушедших клиентов | | 1 f x y . Сделаем это с помощью ядерных оценок функций плотности (рис. 1.1). y=as.numeric(data_churnUCI$churn)-1 plot(density(data_churnUCI$totaldayminutes[y==0])) lines(density(data_churnUCI$totaldayminutes[y==1]),col="red",lty=2)
Рис. 1.1. Ядерные оценки функций плотности В том случае, если условная и безусловная вероятности равны друг другу, можно говорить о независимости событий y и x , т. е. выполняются условия P | P y x y . Иначе это условие выражается так: вероятность пересечения событий равна произведению вероятностей этих событий P P P y x y x . (1.1) Для непрерывных случайных величин аналогично запишем: | | ( ) f y x f y , , ( , ) ( ) ( ) f y x f y f x . (1.2)