Методы восстановления непараметрической регрессии в условиях несбалансированных данных

Ознакомиться

Методы восстановления непараметрической регрессии в условиях несбалансированных данных

Покупка

Основная коллекция

Тематика: Системы управления базами данных (СУБД)

Издательство: Инфра-Инженерия

Авторы: Пылов Петр Андреевич, Майтак Роман Вячеславович, Дягилева Анна Владимировна, Салычева Анжелика Дмитриевна

Год издания: 2024

Кол-во страниц: 192

Дополнительно

Вид издания: Монография

Уровень образования: Профессиональное образование

ISBN: 978-5-9729-1856-0

Артикул: 842396.01.99

Как получить доступ?

Студенту или преподавателю

Отправьте заявку на получение ключа доступа в библиотеку Вашего учебного заведения

Представителю организации

Отправьте заявку на подключение к Znanium по договору

Купить в составе основной коллекции от 899 ₽

Аннотация
Оглавление
Коллекции
Классификаторы
Аффилиация
Бибзапись
Фрагменты

Рассматривается регрессионный подход к решению предметно-прикладных задач на примере одной области данных. Читатели смогут повторить все операции над собственными датасетами, так как монография содержит в себе детальные расчеты и приложения, в которых представлен весь комплекс вычисленных промежуточных значений, требуемых для достижения поставленной цели. Для специалистов в области искусственного интеллекта. Может быть полезно студентам, обучающимся по направлению подготовки «Искусственный интеллект».

Тематика:

060202: Системы управления базами данных (СУБД)

ББК:

328: Кибернетика. Общая радиотехника. Электроника. Электроакустика. Элетросвязь. Радиосвязь

УДК:

004: Информационные технологии. Вычислительная техника...

ОКСО:

ВО - Бакалавриат
01.03.02: Прикладная математика и информатика
03.03.02: Прикладная математика и информатика
ВО - Магистратура
01.04.02: Прикладная математика и информатика

ГРНТИ:

20.23.17: Информационно-поисковые массивы. Базы данных. Манипулирование данными и

Пылов Петр Андреевич

Кузбасский государственный технический университет имени Т. Ф. Горбачева

Майтак Роман Вячеславович

Кузбасский государственный технический университет имени Т. Ф. Горбачева

Дягилева Анна Владимировна

Кузбасский государственный технический университет имени Т. Ф. Горбачева

Методы восстановления непараметрической регрессии в условиях несбалансированных данных : монография / П. А. Пылов, Р. В. Майтак, А. В. Дягилева [и др.]. - Москва ; Вологда : Инфра-Инженерия, 2024. - 192 с. - ISBN 978-5-9729-1856-0. - Текст : электронный. - URL: https://znanium.ru/catalog/product/2169707 (дата обращения: 19.05.2025). – Режим доступа: по подписке.

Скопировать запись

Экспорт списка

Excel

RUSMARC .iso

win-1251

UTF-8

RUSMARC .txt

win-1251

UTF-8

IRBIS .txt

win-1251

UTF-8

Фрагмент текстового слоя документа размещен для индексирующих роботов

 
 
 
 
 
 
 
 
МЕТОДЫ ВОССТАНОВЛЕНИЯ 
НЕПАРАМЕТРИЧЕСКОЙ РЕГРЕССИИ 
В УСЛОВИЯХ НЕСБАЛАНСИРОВАННЫХ ДАННЫХ 
 
Монография 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Москва    Вологда 
«Инфра-Инженерия» 
2024

стр. 1

УДК 004.8
ББК 32.813
М54

Авторы:
Пылов П. А., Майтак Р. В., Дягилева А. В., Салычева А. Д.

Рецензенты:
д. т. н., проф., академик РЭА, ведущий научный сотрудник АО «НЦ ВостНИИ»
Вадим Васильевич Иванов;
д. т. н., проф., академик РЭА, ведущий научный сотрудник АО «НЦ ВостНИИ»
Виктор Семенович Зыков;
д. т. н., профессор кафедры математики ФГБОУ ВО «Кузбасский государственный
университет имени Т. Ф. Горбачева» Инна Алексеевна Ермакова

М54
Методы восстановления непараметрической регрессии в условиях
несбалансированных данных : монография / [Пылов П. А. и др.]. –
Москва ; Вологда : Инфра-Инженерия, 2024. – 192 с. : ил., табл.
ISBN 978-5-9729-1856-0

Рассматривается регрессионный подход к решению предметно-прикладных задач
на примере одной области данных. Читатели смогут повторить все операции над
собственными датасетами, так как монография содержит в себе детальные расчеты и
приложения, в которых представлен весь комплекс вычисленных промежуточных
значений, требуемых для достижения поставленной цели.
Для специалистов в области искусственного интеллекта. Может быть полезно студентам, обучающимся по направлению подготовки «Искусственный интеллект».

УДК 004.8
ББК 32.813

ISBN 978-5-9729-1856-0
Издательство «Инфра-Инженерия», 2024

Оформление. Издательство «Инфра-Инженерия», 2024

стр. 2

ОГЛАВЛЕНИЕ

ПРЕДИСЛОВИЕ
.......................................................................................................... 4
ВВЕДЕНИЕ .................................................................................................................. 5
РАЗДЕЛ 1. Определение объектов и признаков
в прикладной области знаний .................................................................................... 6
РАЗДЕЛ 2. Оценка и восстановление плотности распределения
репрезентативной выборки ...................................................................................... 15
РАЗДЕЛ 3. Непараметрические методы классификации выборки данных ........ 18
РАЗДЕЛ 4 ................................................................................................................... 25
РАЗДЕЛ 5 ................................................................................................................... 28
ЗАКЛЮЧЕНИЕ ......................................................................................................... 30
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
...................................................................... 31
ПРИЛОЖЕНИЕ А. Таблица экспериментальных расчетов
для выполнения полного анализа влияния прецедентов
на целевую переменную ........................................................................................... 36
ПРИЛОЖЕНИЕ Б. Вывод вероятности аналитического дисперсионного
расчета ........................................................................................................................ 62
ПРИЛОЖЕНИЕ В. Оценка локальных плотностей распределения
классов и их влияния на целевой класс
................................................................... 80
ПРИЛОЖЕНИЕ Г. Расчет параметров распределения
выборки данных
......................................................................................................... 96
ПРИЛОЖЕНИЕ Д. Расчет коэффициентов для восстановления
непараметрической регрессии в многомерном случае
по формуле обобщения Надарая – Ватсона
.......................................................... 124

стр. 3

ПРЕДИСЛОВИЕ 
 
Машинное обучение покоится на краеугольном камне математического 
анализа. По этой причине логично начинать изучение прикладных методов искусственного интеллекта с его базовых методов. 
С другой стороны, сложные взаимосвязи в данных порой могут быть 
определены более простым методом, поэтому не всегда искусственные нейронные сети являются панацеей при решении задач предметных областей. 
В рамках данной книги рассматривается регрессионный подход к решению предметно-прикладных задач на примере одной области данных. Читатели 
смогут повторить все операции над собственными датасетами, так как монография содержит в себе детальные расчеты и приложения, в которых представлен весь комплекс вычисленных промежуточных значений, требуемых для достижения поставленной цели. 
 
 
4

стр. 4

ВВЕДЕНИЕ 
 
В современном мире быстро развивающихся информационных технологий (и искусственного интеллекта, в частности) с каждым днем возрастают объемы данных и информации, которую необходимо обрабатывать людям. 
Анализ и извлечение полезных знаний из информации стали ключевыми 
задачами для различных научных дисциплин и практических областей. Одной 
из фундаментальных проблем анализа данных является задача восстановления 
функциональных зависимостей между переменными. В данном контексте, методы восстановления непараметрической регрессии играют важную роль, 
предоставляя инструменты для поиска скрытых структур и трендов в данных 
без необходимости задания априорных параметрических моделей. 
Цель данной монографии заключается в исследовании, описании и анализе методов восстановления непараметрической регрессии, их применении на 
конкретной предметной области и контексте, а также в исследовании связанных 
с задачей теоретических аспектов. Авторами были рассмотрены разнообразные 
методологии, начиная с основных концепций и подходов к непараметрическому восстановлению регрессии, и продвигаясь к более сложным и современным 
методам, таким как локальная полиномиальная регрессия, ядерные методы, и 
использование семейства базисных функций. 
Путем углубленного рассмотрения теоретических основ, практических 
примеров и сравнительного анализа, данная монография представляет собой 
практическое руководство и основной источник исследовательской информации для всех, кто интересуется методами восстановления непараметрической 
регрессии и стремится к пониманию её принципов, ищет прикладное применение и потенциальную выгоду. 
Благодаря своей способности обнаруживать скрытые зависимости и модели в данных без предварительных предположений, методы восстановления 
непараметрической регрессии играют краеугольную роль в современной статистике, анализе данных и машинном обучении, поэтому данная монография 
стремится предоставить наиболее полное и глубокое понимание этой важной 
области математики, без которой было бы невозможно развитие современного 
прикладного искусственного интеллекта и машинного обучения в целом. 
 
Понимание основ базовых моделей машинного обучения позволит в 
дальнейшем начинающим исследователям данных расширять свои навыки на 
более сложных алгоритмах и архитектурах моделей прикладного искусственного интеллекта. 
 
 
5

стр. 5

РАЗДЕЛ 1. Определение объектов и признаков  
в прикладной области знаний 
 
Постановка задачи предметной области 
Одной из основных проблем, связанных с заболеванием диабетом, является его превентивное определение. Набор данных для прогнозирования диабета представляет собой конкатенацию медицинских и демографических сведений пациентов (обезличенных), а также их диабетический статус (положительный или отрицательный). Данные включают такие характеристики, как возраст, 
пол, индекс массы тела (ИМТ), гипертония, болезни сердца, история курения, 
уровень HbA1c и уровень глюкозы в крови. 
Соответственно, анализируя медицинские показатели пациента моделью 
машинного обучения, можно будет заранее определять склонность последнего 
к заболеванию и/или его наличие, что позволит значительно ускорить процесс 
определения курса лечения для заболевшего. 
Выборка данных прикладной области знаний  
Для того, чтобы решить поставленную задачу [спрогнозировать состояние заболевания диабетом у пациента], необходимо и достаточно получить 
набор следующих признаков (атрибутивную информацию): 
1. Пол (Гендер относится к биологическому полу человека, который может оказывать влияние на его восприимчивость к диабету); 
2. Возраст (Возраст является важным фактором, поскольку диабет чаще 
диагностируется у пожилых людей. Возраст в нашем наборе данных колеблется 
от 0 до 80 лет); 
3. Гипертония (Заболевание, при котором кровяное давление в артериях 
постоянно повышено. Показатель имеет значение бинарного типа); 
4. Болезни сердца (Заболевание, которое связано с повышенным риском 
развития диабета. Представлено в бинарном типе); 
5. Курение (Курение в анамнезе также считается фактором риска развития диабета и может усугубить связанные с ним осложнения); 
6. Индекс массы тела (Показатель жировых отложений, основанный на 
весе и росте. Более высокие значения ИМТ связаны с более высоким риском); 
7. Показатель сахара в крови (Показатель среднего уровня сахара в крови 
человека взят за последние 2-3 месяца); 
8. Уровень глюкозы в крови (Относится к количеству глюкозы в кровотоке в данный момент времени. Высокий уровень глюкозы в крови является ключевым); 
9. Диабет (Является прогнозируемой целевой переменной, при этом значения 1 указывают на наличие диабета, а 0 – на его отсутствие). 
Поскольку формирование датасета требует отнести выборку к определенной задаче машинного обучения, то предварительно исследуем скомпонованный набор данных (рисунок 1). 
6

стр. 6

Рисунок 1. Фрагмент собранного набора данных (разделитель – пробел)

стр. 7

На основе исследования набора данных (рисунка 1) и его атрибутивной 
информации, можно сделать вывод о том, что выборка данных относится к задаче бинарной классификации (по типу задач в машинном обучении), так как 
это обусловлено наличием двух значений отличающихся классов в столбце целевой переменной. 
Проанализируем природу множества признаков собранного набора данных. 
Первый признак «фиктивной» переменной пола пациента является бинарным, так как множество ܦ
௙
భൌሼ0, 1ሽ; 
Второй столбец является конечным неупорядоченным множеством ܦ
௙
మ 
классов, поэтому ݂
ଶ – номинальный признак; 
Третий признак является бинарным, так как множество ܦ
௙
యൌሼ0, 1ሽ; 
Четвертый признак является бинарным, так как множество ܦ
௙
రൌሼ0, 1ሽ; 
Пятый признак является конечным неупорядоченным множеством ܦ
௙
ఱ 
классов, поэтому ݂
ହ – номинальный признак; 
Шестой признак является конечным неупорядоченным множеством ܦ
௙
ల 
классов, поэтому ݂
଺ – номинальный признак; 
Седьмой столбец является конечным целочисленным неупорядоченным 
множеством ܦ
௙
ళ классов, поэтому  ݂
଻ – номинальный признак; 
Восьмой признак является целевым классом, который принадлежит к бинарному типу, так как множество ܦ
௙
ఴൌሼ0, 1ሽ. 
Так как не все признаки имеют одинаковый тип, ܦ
௙
భൌڮ ൌ ܦ
௙
ఴ, то очевидно, что исходные данные являются неоднородными. 
Отметим, что набор данных был сформирован за счет конкатенации новых признаковых описаний в качестве дополнительных к основным, поэтому 
данные «наращивались» репрезентативно и топологически связанно, то есть 
каждому параметру здоровья пациента поставлено в соответствие собственные 
значения новых, наращиваемых критериев. Такой подход к формированию выборки сохраняет обусловленность данных, поэтому сами величины являются 
случайными, а строки данных сформированы неслучайным образом. 
Определив характер случайности величин – признаковых описаний в 
наборе данных, перейдем к анализу статистического распределения данных. 
Для удобства воспользуемся таблицей, в которой напротив каждого признака 
будет находиться график его статистического распределения (таблица 1). 
 
 
8

стр. 8

Т а б л и ц а  1 
Распределение признаков в наборе данных 
Геометрическое  
распределение, 
кусочно-заданное 
Гипергеометрическое 
распределение,  
многомодальное 
݆ 
Название  
признака ݂
௝ 
Тип 
График распределения данных 
1 
Первый  
признак 
2 
Второй  
признак

стр. 9

 
 
П р о д о л ж е н и е  т а б л и ц ы  1 
10 
Гипергеометрическое распределение, 
многомодальное 
Гипергеометрическое распределение, 
многомодальное 
݆ 
Название  
признака ݂
௝ 
Тип 
График распределения данных 
3 
Третий  
признак 
4 
Четвертый  
признак

стр. 10

Методы восстановления непараметрической регрессии в условиях несбалансированных данных

Похожие