Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Методы восстановления непараметрической регрессии в условиях несбалансированных данных

Покупка
Новинка
Основная коллекция
Артикул: 842396.01.99
Рассматривается регрессионный подход к решению предметно-прикладных задач на примере одной области данных. Читатели смогут повторить все операции над собственными датасетами, так как монография содержит в себе детальные расчеты и приложения, в которых представлен весь комплекс вычисленных промежуточных значений, требуемых для достижения поставленной цели. Для специалистов в области искусственного интеллекта. Может быть полезно студентам, обучающимся по направлению подготовки «Искусственный интеллект».
Методы восстановления непараметрической регрессии в условиях несбалансированных данных : монография / П. А. Пылов, Р. В. Майтак, А. В. Дягилева [и др.]. - Москва ; Вологда : Инфра-Инженерия, 2024. - 192 с. - ISBN 978-5-9729-1856-0. - Текст : электронный. - URL: https://znanium.ru/catalog/product/2169707 (дата обращения: 16.09.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
 
 
 
 
 
 
 
 
МЕТОДЫ ВОССТАНОВЛЕНИЯ 
НЕПАРАМЕТРИЧЕСКОЙ РЕГРЕССИИ 
В УСЛОВИЯХ НЕСБАЛАНСИРОВАННЫХ ДАННЫХ 
 
Монография 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Москва    Вологда 
«Инфра-Инженерия» 
2024 
 


УДК 004.8 
ББК 32.813 
М54 
 
 
 
Авторы:  
Пылов П. А., Майтак Р. В., Дягилева А. В., Салычева А. Д. 
 
Рецензенты: 
д. т. н., проф., академик РЭА, ведущий научный сотрудник АО «НЦ ВостНИИ»  
Вадим Васильевич Иванов; 
д. т. н., проф., академик РЭА, ведущий научный сотрудник АО «НЦ ВостНИИ»  
Виктор Семенович Зыков; 
д. т. н., профессор кафедры математики ФГБОУ ВО «Кузбасский государственный  
университет имени Т. Ф. Горбачева» Инна Алексеевна Ермакова 
 
 
 
 
 
 
 
 
М54   
Методы восстановления непараметрической регрессии в условиях 
несбалансированных данных : монография / [Пылов П. А. и др.]. – 
Москва ; Вологда : Инфра-Инженерия, 2024. – 192 с. : ил., табл. 
ISBN 978-5-9729-1856-0 
 
Рассматривается регрессионный подход к решению предметно-прикладных задач 
на примере одной области данных. Читатели смогут повторить все операции над 
собственными датасетами, так как монография содержит в себе детальные расчеты и 
приложения, в которых представлен весь комплекс вычисленных промежуточных 
значений, требуемых для достижения поставленной цели. 
Для специалистов в области искусственного интеллекта. Может быть полезно студентам, обучающимся по направлению подготовки «Искусственный интеллект». 
 
УДК 004.8 
ББК 32.813 
 
 
 
 
 
 
ISBN 978-5-9729-1856-0 
” Издательство «Инфра-Инженерия», 2024 
 
” Оформление. Издательство «Инфра-Инженерия», 2024 
 


ОГЛАВЛЕНИЕ 
 
ПРЕДИСЛОВИЕ 
.......................................................................................................... 4 
ВВЕДЕНИЕ .................................................................................................................. 5 
РАЗДЕЛ 1. Определение объектов и признаков   
в прикладной области знаний .................................................................................... 6 
РАЗДЕЛ 2. Оценка и восстановление плотности распределения 
репрезентативной выборки ...................................................................................... 15 
РАЗДЕЛ 3. Непараметрические методы классификации выборки данных ........ 18 
РАЗДЕЛ 4 ................................................................................................................... 25 
РАЗДЕЛ 5 ................................................................................................................... 28 
ЗАКЛЮЧЕНИЕ ......................................................................................................... 30 
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 
...................................................................... 31 
ПРИЛОЖЕНИЕ А. Таблица экспериментальных расчетов   
для выполнения полного анализа влияния прецедентов   
на целевую переменную ........................................................................................... 36 
ПРИЛОЖЕНИЕ Б. Вывод вероятности аналитического дисперсионного  
расчета ........................................................................................................................ 62 
ПРИЛОЖЕНИЕ В. Оценка локальных плотностей распределения  
классов и их влияния на целевой класс 
................................................................... 80 
ПРИЛОЖЕНИЕ Г. Расчет параметров распределения   
выборки данных 
......................................................................................................... 96 
ПРИЛОЖЕНИЕ Д. Расчет коэффициентов для восстановления 
непараметрической регрессии в многомерном случае  
по формуле обобщения Надарая – Ватсона 
.......................................................... 124 
 
 
 
3 


ПРЕДИСЛОВИЕ 
 
Машинное обучение покоится на краеугольном камне математического 
анализа. По этой причине логично начинать изучение прикладных методов искусственного интеллекта с его базовых методов. 
С другой стороны, сложные взаимосвязи в данных порой могут быть 
определены более простым методом, поэтому не всегда искусственные нейронные сети являются панацеей при решении задач предметных областей. 
В рамках данной книги рассматривается регрессионный подход к решению предметно-прикладных задач на примере одной области данных. Читатели 
смогут повторить все операции над собственными датасетами, так как монография содержит в себе детальные расчеты и приложения, в которых представлен весь комплекс вычисленных промежуточных значений, требуемых для достижения поставленной цели. 
 
 
4 


ВВЕДЕНИЕ 
 
В современном мире быстро развивающихся информационных технологий (и искусственного интеллекта, в частности) с каждым днем возрастают объемы данных и информации, которую необходимо обрабатывать людям. 
Анализ и извлечение полезных знаний из информации стали ключевыми 
задачами для различных научных дисциплин и практических областей. Одной 
из фундаментальных проблем анализа данных является задача восстановления 
функциональных зависимостей между переменными. В данном контексте, методы восстановления непараметрической регрессии играют важную роль, 
предоставляя инструменты для поиска скрытых структур и трендов в данных 
без необходимости задания априорных параметрических моделей. 
Цель данной монографии заключается в исследовании, описании и анализе методов восстановления непараметрической регрессии, их применении на 
конкретной предметной области и контексте, а также в исследовании связанных 
с задачей теоретических аспектов. Авторами были рассмотрены разнообразные 
методологии, начиная с основных концепций и подходов к непараметрическому восстановлению регрессии, и продвигаясь к более сложным и современным 
методам, таким как локальная полиномиальная регрессия, ядерные методы, и 
использование семейства базисных функций. 
Путем углубленного рассмотрения теоретических основ, практических 
примеров и сравнительного анализа, данная монография представляет собой 
практическое руководство и основной источник исследовательской информации для всех, кто интересуется методами восстановления непараметрической 
регрессии и стремится к пониманию её принципов, ищет прикладное применение и потенциальную выгоду. 
Благодаря своей способности обнаруживать скрытые зависимости и модели в данных без предварительных предположений, методы восстановления 
непараметрической регрессии играют краеугольную роль в современной статистике, анализе данных и машинном обучении, поэтому данная монография 
стремится предоставить наиболее полное и глубокое понимание этой важной 
области математики, без которой было бы невозможно развитие современного 
прикладного искусственного интеллекта и машинного обучения в целом. 
 
Понимание основ базовых моделей машинного обучения позволит в 
дальнейшем начинающим исследователям данных расширять свои навыки на 
более сложных алгоритмах и архитектурах моделей прикладного искусственного интеллекта. 
 
 
5 


РАЗДЕЛ 1. Определение объектов и признаков  
в прикладной области знаний 
 
Постановка задачи предметной области 
Одной из основных проблем, связанных с заболеванием диабетом, является его превентивное определение. Набор данных для прогнозирования диабета представляет собой конкатенацию медицинских и демографических сведений пациентов (обезличенных), а также их диабетический статус (положительный или отрицательный). Данные включают такие характеристики, как возраст, 
пол, индекс массы тела (ИМТ), гипертония, болезни сердца, история курения, 
уровень HbA1c и уровень глюкозы в крови. 
Соответственно, анализируя медицинские показатели пациента моделью 
машинного обучения, можно будет заранее определять склонность последнего 
к заболеванию и/или его наличие, что позволит значительно ускорить процесс 
определения курса лечения для заболевшего. 
Выборка данных прикладной области знаний  
Для того, чтобы решить поставленную задачу [спрогнозировать состояние заболевания диабетом у пациента], необходимо и достаточно получить 
набор следующих признаков (атрибутивную информацию): 
1. Пол (Гендер относится к биологическому полу человека, который может оказывать влияние на его восприимчивость к диабету); 
2. Возраст (Возраст является важным фактором, поскольку диабет чаще 
диагностируется у пожилых людей. Возраст в нашем наборе данных колеблется 
от 0 до 80 лет); 
3. Гипертония (Заболевание, при котором кровяное давление в артериях 
постоянно повышено. Показатель имеет значение бинарного типа); 
4. Болезни сердца (Заболевание, которое связано с повышенным риском 
развития диабета. Представлено в бинарном типе); 
5. Курение (Курение в анамнезе также считается фактором риска развития диабета и может усугубить связанные с ним осложнения); 
6. Индекс массы тела (Показатель жировых отложений, основанный на 
весе и росте. Более высокие значения ИМТ связаны с более высоким риском); 
7. Показатель сахара в крови (Показатель среднего уровня сахара в крови 
человека взят за последние 2-3 месяца); 
8. Уровень глюкозы в крови (Относится к количеству глюкозы в кровотоке в данный момент времени. Высокий уровень глюкозы в крови является ключевым); 
9. Диабет (Является прогнозируемой целевой переменной, при этом значения 1 указывают на наличие диабета, а 0 – на его отсутствие). 
Поскольку формирование датасета требует отнести выборку к определенной задаче машинного обучения, то предварительно исследуем скомпонованный набор данных (рисунок 1). 
6 


Рисунок 1. Фрагмент собранного набора данных (разделитель – пробел) 


На основе исследования набора данных (рисунка 1) и его атрибутивной 
информации, можно сделать вывод о том, что выборка данных относится к задаче бинарной классификации (по типу задач в машинном обучении), так как 
это обусловлено наличием двух значений отличающихся классов в столбце целевой переменной. 
Проанализируем природу множества признаков собранного набора данных. 
Первый признак «фиктивной» переменной пола пациента является бинарным, так как множество ܦ
௙
భൌሼ0, 1ሽ; 
Второй столбец является конечным неупорядоченным множеством ܦ
௙
మ 
классов, поэтому ݂
ଶ – номинальный признак; 
Третий признак является бинарным, так как множество ܦ
௙
యൌሼ0, 1ሽ; 
Четвертый признак является бинарным, так как множество ܦ
௙
రൌሼ0, 1ሽ; 
Пятый признак является конечным неупорядоченным множеством ܦ
௙
ఱ 
классов, поэтому ݂
ହ – номинальный признак; 
Шестой признак является конечным неупорядоченным множеством ܦ
௙
ల 
классов, поэтому ݂
଺ – номинальный признак; 
Седьмой столбец является конечным целочисленным неупорядоченным 
множеством ܦ
௙
ళ классов, поэтому  ݂
଻ – номинальный признак; 
Восьмой признак является целевым классом, который принадлежит к бинарному типу, так как множество ܦ
௙
ఴൌሼ0, 1ሽ. 
Так как не все признаки имеют одинаковый тип, ܦ
௙
భൌڮ ൌ ܦ
௙
ఴ, то очевидно, что исходные данные являются неоднородными. 
Отметим, что набор данных был сформирован за счет конкатенации новых признаковых описаний в качестве дополнительных к основным, поэтому 
данные «наращивались» репрезентативно и топологически связанно, то есть 
каждому параметру здоровья пациента поставлено в соответствие собственные 
значения новых, наращиваемых критериев. Такой подход к формированию выборки сохраняет обусловленность данных, поэтому сами величины являются 
случайными, а строки данных сформированы неслучайным образом. 
Определив характер случайности величин – признаковых описаний в 
наборе данных, перейдем к анализу статистического распределения данных. 
Для удобства воспользуемся таблицей, в которой напротив каждого признака 
будет находиться график его статистического распределения (таблица 1). 
 
 
8 


Т а б л и ц а  1 
Распределение признаков в наборе данных 
Геометрическое  
распределение, 
кусочно-заданное 
Гипергеометрическое 
распределение,  
многомодальное 
݆ 
Название  
признака ݂
௝ 
Тип 
График распределения данных 
1 
Первый  
признак 
2 
Второй  
признак 
 
 


 
 
П р о д о л ж е н и е  т а б л и ц ы  1 
10 
Гипергеометрическое распределение, 
многомодальное 
Гипергеометрическое распределение, 
многомодальное 
݆ 
Название  
признака ݂
௝ 
Тип 
График распределения данных 
3 
Третий  
признак 
4 
Четвертый  
признак