Основы машинного обучения
Покупка
Основная коллекция
Тематика:
Общая информатика
Издательство:
Издательство Уральского университета
Год издания: 2020
Кол-во страниц: 88
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-7996-3015-7
Артикул: 800627.01.99
Изложены основы машинного обучения, а также история его появления. Даны определения основным понятиям: выборка, объекты выборки, параметры, функционал ошибки и прочее. Описаны основы градиентного спуска и его модификаций, основные алгоритмы обучения с учителем и обучения без учителя.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 09.03.03: Прикладная информатика
- 09.03.04: Программная инженерия
- ВО - Магистратура
- 02.04.02: Фундаментальная информатика и информационные технологии
- 09.04.02: Информационные системы и технологии
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Министерство науки и высшего образования Российской Федерации Уральский федеральный университет имени первого Президента России Б. Н. Ельцина О. В. Лимановская, Т. И. Алферьева ОснОвы машиннОгО Обучения Учебное пособие Рекомендовано методическим советом Уральского федерального университета для студентов вуза, обучающихся по направлениям подготовки: 09.03.04 — Программная инженерия; 09.03.03 — Прикладная информатика; 02.04.02 — Фундаментальная информатика и информационные технологии; 09.04.02 — Информационные системы и технологии Екатеринбург Издательство Уральского университета 2020
УДК 004.94(075.8) ББК 32.973-018я73 Л58 Рецензенты: канд. физ.-мат. наук А. П. Сергеев (завлабораторией физики и экологии Института промышленной экологии УрО РАН); канд. техн. наук, доц. Т. Я. Ткаченко (заместитель завотделом цифровых образовательных технологий ФГБОУ ВО «Уральский государственный медицинский университет») Научный редактор — канд. техн. наук, доц. И. Н. Обабков Лимановская, О. В. Л58 Основы машинного обучения : учебное пособие / О. В. Лимановская, Т. И. Алферьева ; Мин-во науки и высш. образования РФ. — Екатеринбург : Изд-во Урал. ун-та, 2020. — 88 с. ISBN 978-5-7996-3015-7 Изложены основы машинного обучения, а также история его появления. Даны определения основным понятиям: выборка, объекты выборки, параметры, функционал ошибки и прочее. Описаны основы градиентного спуска и его модификаций, основные алгоритмы обучения с учителем и обучения без учителя. Рис. 30. Табл. 4. УДК 004.94(075.8) ББК 32.973-018я73 ISBN 978-5-7996-3015-7 © Уральский федеральный университет, 2020
Data Science — что это такое и зачем она нужна? что такое data science? История вопроса Ч еловечество всегда мечтало приподнять занавес с грядущего и желало знать что будет. И если для сбора данных использовались точные методы (таблицы, архивы, летописи), то для предсказания все шло в ход — шаманы впадали в транс и общались с потусторонним миром, сообщая новости оттуда; пифии, будучи опять же в трансе, делали малосвязные предсказания, которые потом трактовались жрецами в нужном смысле; астрологи пытались применить околонаучный подход и рассчитывали гороскопы для мероприятий и людей. Многое из этого набора до сих пор живо используется, но этим прогнозы не обоснованы и к ним нет доверия у научного сообщества. Сбор данных можно смело считать началом статистики. Первая статистическая информация — глиняные таблички шумерского царства (III–II тысячелетие до н. э.). В них содержалась экономическая информация — сделки, количество собранного урожая, налоги и пр. В Римской республике, а затем и в империи, была развитая финансовая и налоговая система, которая требовала ведения точного учета и сбора данных по сделкам, земельным владениям, товарам, услугам и т. д. Официальная отчетность наносилась на доски: мраморные, бронзовые, медные, свинцовые и побеленные деревянные. Текущие записи велись на деревянных та
Data Science — что это такое и зачем она нужна? бличках, скрепленных вместе с одного края по две, три и больше — кодексы (лат. code — дерево). После завоевания Римом Египта появился папирус. Около 180 г. до н. э. был изобретен пергамент (изготовлялся из телячьей кожи, был дорог, но прочен). На развитие учета влияли техника письма и система счета. Для вычислений использовался абак, заимствованный древними греками у египтян. Бухгалтерский учет велся в Памятных книгах, или Мемориалах, куда записывались ежедневные факты хозяйственной деятельности. Также велась кассовая книга — первый кодекс и книга системной записи — второй кодекс. Бюджетный учет велся в государственных масштабах. В отдельных провинциях велась книга Бревариум, в которой отражались как сметные ассигнования, так и их исполнение. Такой регистр получил название Книги имперских счетов, которую можно рассматривать как первый баланс государственного бюджета. Развивался и налоговый учет, который требовал классификации и оценки имущества для начисления налога. И хотя учет в Древнем Риме носил контрольный характер, уже тогда, по мнению древнеримского ученого Колумеллы, важнейшей функцией учета становилось умение предвидеть результат хозяйствования. В Средневековье функции сбора данных остались те же — контрольный учет для сбора налогов и ведения хозяйственной деятельности. С возникновением теории вероятностей в XVII веке были совершены первые попытки обработки накопленных данных и построения первых моделей для прогнозирования. Например, изучалась частота рождения мальчиков и девочек. Своим появлением теория вероятностей обязана азартным играм. Исследуя вероятность выигрыша, Пьер Ферми и Блез Паскаль открыли первые вероятностные закономерности. Независимо от них, но под влиянием их работ, Христиан Гюйгенс в 1657 г. опубликовал работу, в которой дал основные понятия теории
Что такое data science? вероятностей (понятие вероятности как величины шанса; математическое ожидание для дискретных случаев, в виде цены шанса) и теоремы сложения и умножения вероятностей. В 1794 г. (по другим данным — в 1795 г.) немецкий математик формализовал один из методов современной математической статистики. Данный метод стал основой для построения регрессионных моделей, цель которых — предсказание заданной величины. В XIX веке получил развитие анализ больших данных, который дал новый толчок к развитию статистических моделей. В XX веке пошло быстрое развитие статистики и математической статистики как науки. В начале XX века была развита параметрическая статистика, созданы методы сравнения групп данных, оценки параметров групп и т. д. Цель сбора данных кардинально изменилась к XX веку и перешла от контрольного учета к созданию математических предсказательных моделей. Теперь перейдем ближе к современности и к науке о данных. 1974 г. впервые введен термин data science датским ученым в области информатики и компьютерной науки Питером Науром. Он считал, что наука о данных — дисциплина, изучающая жизненный цикл цифровых данных от появления до преобразования для представления в других областях знаний. В начале 2000-х гг. data science выделяется как отдельная дисциплина. Определения Определение науки о данных вполне точно приведено в Wikipedia. Наука о данных (data science; иногда даталогия — datalogy) — раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме*. * С сайта http:www.ru.wikipedia.org.
Data Science — что это такое и зачем она нужна? В принципе такое определение достаточно полно описывает цели и суть науки о данных. Основной целью науки о данных является вывод новых знаний из имеющегося набора данных и получение новых зависимостей, часто неявных. Кроме того, одним из важных разделов науки о данных является визуализация больших данных. Суть и цели Остановимся подробнее на сути науки о данных. Исходной точкой в науке о данных являются собственно данные, и чем их больше — тем лучше. Далее нужно на основе этих данных найти взаимосвязи в них или убедиться, что их нет. Для чего все это нужно? А целей — множество. Во-первых, на основе полученных закономерностей можно построить прогноз для заданной величины. Например, на основе данных об урожае пшеницы за последние 10 лет в заданном регионе можно построить прогноз урожайности на следующий год. Во-вторых, можно провести классификацию объектов на основе данных о них. Например, можно на основе клинических данных классифицировать методику лечения как эффективную или неэффективную. В-третьих, можно визуализировать данные. Визуализация помогает выбрать стратегию анализа данных, а иногда она сама является целью анализа. Например, визуализация данных по движению городского транспорта в режиме on line ценно само по себе. В-четвертых, можно провести анализ текстовой информации и, например, понять тональность отзыва о компании. И наконец, в-пятых, можно найти новые зависимости в данных и на их основе прийти к новым знаниям о предмете анализа.
Data Science — зачем она нужна? Data Science — зачем она нужна? Спасаем Мир Эпидемия Эбола в 2014 г. унесла более 11 000 жизней, и каждый день приносил новые смерти. Для data scientist задача по анализу данных и построению модели стала вызовом. И в 2014 г. the Leiden Centre of Data Science (LCDS) принял этот вызов. В результате разработана комплексная модель симуляции лихорадки Эбола, включающая диагностику распространения и испытание лекарств. Врачи, используя эту модель, остановили эпидемию Эбола. Немного о модели Стандартную модель симуляции распространения эпидемии дополнили картой, составленной на основе SMS-сообщений, звонков и другой активности с мобильных телефонов и добавили в нее все источники масс-медиа. На основе данной карты построили модель по пересечению и вычленению реальных данных. Использование данных с мобильных телефонов позволило установить направление распространения эпидемии и уже на основе этих данных получить оптимальные места для развертывания медицинских центров. Комплексная сеть данных (мобильные, масс-медиа и правительственные данные) и социальная сеть контактов дали возможность спрогнозировать скорость и направление развития эпидемии. Модели, полученные из анализа данных пациентов, позволяют оценивать эффективность лекарств и проводить быстро множество тестов.
Data Science — что это такое и зачем она нужна? Познаем вселенную The Center for Computational Astrophysics разрабатывает новый фреймворк (каркас программной системы), который предназначен для анализа астрономических данных. Он используется для построения модели Вселенной и оценки космологических констант. В XXI веке на основе нейронных сетей разработана 3D-модель Вселенной, в которой учтено распространение темной материи и есть возможность предсказания космологических констант. Контрольные вопросы 1. Что является основной целью науки о данных? 2. Приведите примеры задач, которые можно решать с помощью науки о данных.
Основы обучения с учителем Основные понятия И так, во введении мы рассмотрели области применения машинного обучения и его возможности на примерах. Результаты применения поражают воображение. Теперь настала пора разобраться в деталях и понять, как же это становится возможным. В машинном обучении выделяют 2 основных подхода — обучение с учителем и обучение без учителя. В этой главе рассмотрим первый подход — с учителем. Начнем с жизненной ситуации. У девушки — день рождения, и Пете нужно подарить ей цветы. Известно, что она не любит экзотические цветы, но какие нравятся — не известно. Петя подошел к проблеме с точки зрения машинного обучения и собрал данные о том, какие цветы больше всего любят девушки, и выбрал девушек близкого к имениннице возраста и внешности. Оказалось, что в предпочтениях лидируют два самых популярных цветка — роза и гербера. Причем 80 % девушек отдают предпочтение розам, а 20 % — герберам. Теперь разберемся, что же сделал Петя. Все девушки, о которых Петя собрал информацию о предпочтениях в цветах, являются обучающей выборкой. Параметры, по которым Петя выбирал девушек, а именно возраст и цвет волос, являются признаками или факторами выборки. Информация о каждой отдельной девушке (цвет волос, возраст и любимый цветок) является объектом выборки. Причем цвет волос и возраст являются параметрами объекта, которые обычно обозначаются как x1 и x2,