Методы восстановления непараметрической регрессии в условиях несбалансированных данных
Покупка
Новинка
Основная коллекция
Тематика:
Системы управления базами данных (СУБД)
Издательство:
Инфра-Инженерия
Авторы:
Пылов Петр Андреевич, Майтак Роман Вячеславович, Дягилева Анна Владимировна, Салычева Анжелика Дмитриевна
Год издания: 2024
Кол-во страниц: 192
Дополнительно
Вид издания:
Монография
Уровень образования:
Профессиональное образование
ISBN: 978-5-9729-1856-0
Артикул: 842396.01.99
Рассматривается регрессионный подход к решению предметно-прикладных задач на примере одной области данных. Читатели смогут повторить все операции над собственными датасетами, так как монография содержит в себе детальные расчеты и приложения, в которых представлен весь комплекс вычисленных промежуточных значений, требуемых для достижения поставленной цели. Для специалистов в области искусственного интеллекта. Может быть полезно студентам, обучающимся по направлению подготовки «Искусственный интеллект».
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 01.03.02: Прикладная математика и информатика
- 03.03.02: Прикладная математика и информатика
- ВО - Магистратура
- 01.04.02: Прикладная математика и информатика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
МЕТОДЫ ВОССТАНОВЛЕНИЯ НЕПАРАМЕТРИЧЕСКОЙ РЕГРЕССИИ В УСЛОВИЯХ НЕСБАЛАНСИРОВАННЫХ ДАННЫХ Монография Москва Вологда «Инфра-Инженерия» 2024
УДК 004.8 ББК 32.813 М54 Авторы: Пылов П. А., Майтак Р. В., Дягилева А. В., Салычева А. Д. Рецензенты: д. т. н., проф., академик РЭА, ведущий научный сотрудник АО «НЦ ВостНИИ» Вадим Васильевич Иванов; д. т. н., проф., академик РЭА, ведущий научный сотрудник АО «НЦ ВостНИИ» Виктор Семенович Зыков; д. т. н., профессор кафедры математики ФГБОУ ВО «Кузбасский государственный университет имени Т. Ф. Горбачева» Инна Алексеевна Ермакова М54 Методы восстановления непараметрической регрессии в условиях несбалансированных данных : монография / [Пылов П. А. и др.]. – Москва ; Вологда : Инфра-Инженерия, 2024. – 192 с. : ил., табл. ISBN 978-5-9729-1856-0 Рассматривается регрессионный подход к решению предметно-прикладных задач на примере одной области данных. Читатели смогут повторить все операции над собственными датасетами, так как монография содержит в себе детальные расчеты и приложения, в которых представлен весь комплекс вычисленных промежуточных значений, требуемых для достижения поставленной цели. Для специалистов в области искусственного интеллекта. Может быть полезно студентам, обучающимся по направлению подготовки «Искусственный интеллект». УДК 004.8 ББК 32.813 ISBN 978-5-9729-1856-0 Издательство «Инфра-Инженерия», 2024 Оформление. Издательство «Инфра-Инженерия», 2024
ОГЛАВЛЕНИЕ ПРЕДИСЛОВИЕ .......................................................................................................... 4 ВВЕДЕНИЕ .................................................................................................................. 5 РАЗДЕЛ 1. Определение объектов и признаков в прикладной области знаний .................................................................................... 6 РАЗДЕЛ 2. Оценка и восстановление плотности распределения репрезентативной выборки ...................................................................................... 15 РАЗДЕЛ 3. Непараметрические методы классификации выборки данных ........ 18 РАЗДЕЛ 4 ................................................................................................................... 25 РАЗДЕЛ 5 ................................................................................................................... 28 ЗАКЛЮЧЕНИЕ ......................................................................................................... 30 БИБЛИОГРАФИЧЕСКИЙ СПИСОК ...................................................................... 31 ПРИЛОЖЕНИЕ А. Таблица экспериментальных расчетов для выполнения полного анализа влияния прецедентов на целевую переменную ........................................................................................... 36 ПРИЛОЖЕНИЕ Б. Вывод вероятности аналитического дисперсионного расчета ........................................................................................................................ 62 ПРИЛОЖЕНИЕ В. Оценка локальных плотностей распределения классов и их влияния на целевой класс ................................................................... 80 ПРИЛОЖЕНИЕ Г. Расчет параметров распределения выборки данных ......................................................................................................... 96 ПРИЛОЖЕНИЕ Д. Расчет коэффициентов для восстановления непараметрической регрессии в многомерном случае по формуле обобщения Надарая – Ватсона .......................................................... 124 3
ПРЕДИСЛОВИЕ Машинное обучение покоится на краеугольном камне математического анализа. По этой причине логично начинать изучение прикладных методов искусственного интеллекта с его базовых методов. С другой стороны, сложные взаимосвязи в данных порой могут быть определены более простым методом, поэтому не всегда искусственные нейронные сети являются панацеей при решении задач предметных областей. В рамках данной книги рассматривается регрессионный подход к решению предметно-прикладных задач на примере одной области данных. Читатели смогут повторить все операции над собственными датасетами, так как монография содержит в себе детальные расчеты и приложения, в которых представлен весь комплекс вычисленных промежуточных значений, требуемых для достижения поставленной цели. 4
ВВЕДЕНИЕ В современном мире быстро развивающихся информационных технологий (и искусственного интеллекта, в частности) с каждым днем возрастают объемы данных и информации, которую необходимо обрабатывать людям. Анализ и извлечение полезных знаний из информации стали ключевыми задачами для различных научных дисциплин и практических областей. Одной из фундаментальных проблем анализа данных является задача восстановления функциональных зависимостей между переменными. В данном контексте, методы восстановления непараметрической регрессии играют важную роль, предоставляя инструменты для поиска скрытых структур и трендов в данных без необходимости задания априорных параметрических моделей. Цель данной монографии заключается в исследовании, описании и анализе методов восстановления непараметрической регрессии, их применении на конкретной предметной области и контексте, а также в исследовании связанных с задачей теоретических аспектов. Авторами были рассмотрены разнообразные методологии, начиная с основных концепций и подходов к непараметрическому восстановлению регрессии, и продвигаясь к более сложным и современным методам, таким как локальная полиномиальная регрессия, ядерные методы, и использование семейства базисных функций. Путем углубленного рассмотрения теоретических основ, практических примеров и сравнительного анализа, данная монография представляет собой практическое руководство и основной источник исследовательской информации для всех, кто интересуется методами восстановления непараметрической регрессии и стремится к пониманию её принципов, ищет прикладное применение и потенциальную выгоду. Благодаря своей способности обнаруживать скрытые зависимости и модели в данных без предварительных предположений, методы восстановления непараметрической регрессии играют краеугольную роль в современной статистике, анализе данных и машинном обучении, поэтому данная монография стремится предоставить наиболее полное и глубокое понимание этой важной области математики, без которой было бы невозможно развитие современного прикладного искусственного интеллекта и машинного обучения в целом. Понимание основ базовых моделей машинного обучения позволит в дальнейшем начинающим исследователям данных расширять свои навыки на более сложных алгоритмах и архитектурах моделей прикладного искусственного интеллекта. 5
РАЗДЕЛ 1. Определение объектов и признаков в прикладной области знаний Постановка задачи предметной области Одной из основных проблем, связанных с заболеванием диабетом, является его превентивное определение. Набор данных для прогнозирования диабета представляет собой конкатенацию медицинских и демографических сведений пациентов (обезличенных), а также их диабетический статус (положительный или отрицательный). Данные включают такие характеристики, как возраст, пол, индекс массы тела (ИМТ), гипертония, болезни сердца, история курения, уровень HbA1c и уровень глюкозы в крови. Соответственно, анализируя медицинские показатели пациента моделью машинного обучения, можно будет заранее определять склонность последнего к заболеванию и/или его наличие, что позволит значительно ускорить процесс определения курса лечения для заболевшего. Выборка данных прикладной области знаний Для того, чтобы решить поставленную задачу [спрогнозировать состояние заболевания диабетом у пациента], необходимо и достаточно получить набор следующих признаков (атрибутивную информацию): 1. Пол (Гендер относится к биологическому полу человека, который может оказывать влияние на его восприимчивость к диабету); 2. Возраст (Возраст является важным фактором, поскольку диабет чаще диагностируется у пожилых людей. Возраст в нашем наборе данных колеблется от 0 до 80 лет); 3. Гипертония (Заболевание, при котором кровяное давление в артериях постоянно повышено. Показатель имеет значение бинарного типа); 4. Болезни сердца (Заболевание, которое связано с повышенным риском развития диабета. Представлено в бинарном типе); 5. Курение (Курение в анамнезе также считается фактором риска развития диабета и может усугубить связанные с ним осложнения); 6. Индекс массы тела (Показатель жировых отложений, основанный на весе и росте. Более высокие значения ИМТ связаны с более высоким риском); 7. Показатель сахара в крови (Показатель среднего уровня сахара в крови человека взят за последние 2-3 месяца); 8. Уровень глюкозы в крови (Относится к количеству глюкозы в кровотоке в данный момент времени. Высокий уровень глюкозы в крови является ключевым); 9. Диабет (Является прогнозируемой целевой переменной, при этом значения 1 указывают на наличие диабета, а 0 – на его отсутствие). Поскольку формирование датасета требует отнести выборку к определенной задаче машинного обучения, то предварительно исследуем скомпонованный набор данных (рисунок 1). 6
Рисунок 1. Фрагмент собранного набора данных (разделитель – пробел)
На основе исследования набора данных (рисунка 1) и его атрибутивной информации, можно сделать вывод о том, что выборка данных относится к задаче бинарной классификации (по типу задач в машинном обучении), так как это обусловлено наличием двух значений отличающихся классов в столбце целевой переменной. Проанализируем природу множества признаков собранного набора данных. Первый признак «фиктивной» переменной пола пациента является бинарным, так как множество ܦ భൌሼ0, 1ሽ; Второй столбец является конечным неупорядоченным множеством ܦ మ классов, поэтому ݂ ଶ – номинальный признак; Третий признак является бинарным, так как множество ܦ యൌሼ0, 1ሽ; Четвертый признак является бинарным, так как множество ܦ రൌሼ0, 1ሽ; Пятый признак является конечным неупорядоченным множеством ܦ ఱ классов, поэтому ݂ ହ – номинальный признак; Шестой признак является конечным неупорядоченным множеством ܦ ల классов, поэтому ݂ – номинальный признак; Седьмой столбец является конечным целочисленным неупорядоченным множеством ܦ ళ классов, поэтому ݂ – номинальный признак; Восьмой признак является целевым классом, который принадлежит к бинарному типу, так как множество ܦ ఴൌሼ0, 1ሽ. Так как не все признаки имеют одинаковый тип, ܦ భൌڮ ൌ ܦ ఴ, то очевидно, что исходные данные являются неоднородными. Отметим, что набор данных был сформирован за счет конкатенации новых признаковых описаний в качестве дополнительных к основным, поэтому данные «наращивались» репрезентативно и топологически связанно, то есть каждому параметру здоровья пациента поставлено в соответствие собственные значения новых, наращиваемых критериев. Такой подход к формированию выборки сохраняет обусловленность данных, поэтому сами величины являются случайными, а строки данных сформированы неслучайным образом. Определив характер случайности величин – признаковых описаний в наборе данных, перейдем к анализу статистического распределения данных. Для удобства воспользуемся таблицей, в которой напротив каждого признака будет находиться график его статистического распределения (таблица 1). 8
Т а б л и ц а 1 Распределение признаков в наборе данных Геометрическое распределение, кусочно-заданное Гипергеометрическое распределение, многомодальное ݆ Название признака ݂ Тип График распределения данных 1 Первый признак 2 Второй признак
П р о д о л ж е н и е т а б л и ц ы 1 10 Гипергеометрическое распределение, многомодальное Гипергеометрическое распределение, многомодальное ݆ Название признака ݂ Тип График распределения данных 3 Третий признак 4 Четвертый признак