Извлечение знаний методами машинного обучения
Учебное пособие по курсам «Модели и методы инженерии знаний», «Методы машинного обучения»
Покупка
Основная коллекция
Тематика:
Базы и банки данных. СУБД
Издательство:
Южный федеральный университет
Год издания: 2022
Кол-во страниц: 105
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-9275-4215-4
Артикул: 822017.01.99
Пособие посвящено рассмотрению теоретических подходов к извлечению информации из текстов, рассмотрению и систематизации прогностических методов и моделей в маркетинге и интернет-рекламе, на основе выборки
больших данных. В данном пособии рассмотрено применение машинного обучения при построении рекомендательных систем. Пособие предназначено для студентов высших учебных заведений, обучающихся по направлениям 10.03.01 "Информационная безопасность" (направленность программы: "Информационно-аналитичекие системы безопасности") по курсу "Модели и методы инженерии знаний" и 09.04.03 "Прикладная информатика" (направленность программы: "Машинное обучение и технологии больших данных") по курсу "Методы машинного обучения".
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 10.03.01: Информационная безопасность
- ВО - Магистратура
- 09.04.03: Прикладная информатика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Введение 1 МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное автономное образовательное учреждение высшего образования «ЮЖНЫЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ» Инженерно-технологическая академия А. Н. ЦЕЛЫХ Э. М. КОТОВ ИЗВЛЕЧЕНИЕ ЗНАНИЙ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ Учебное пособие по курсам МОДЕЛИ И МЕТОДЫ ИНЖЕНЕРИИ ЗНАНИЙ, МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ Ростов-на-Дону − Таганрог Издательство Южного федерального университета 2022
Содержание 2 УДК 004.056.5(075.8) ББК 32.97я73 Ц349 Печатается по решению кафедры информационно-аналитических систем безопасности Института компьютерных технологий и информационной безопасности Южного федерального университета (протокол № 9 от 13 мая 2022 г.) Рецензенты: доктор технических наук, профессор, заведующий кафедрой информатики Таганрогского института имени А. П. Чехова (филиал) РГЭУ (РИНХ) Я. Е. Ромм доктор технических наук, профессор, профессор кафедры информационно-аналитических систем безопасности Южного федерального университета А. В. Боженюк Целых, А. Н. Ц349 Извлечение знаний методами машинного обучения : учебное посо бие по курсам «Модели и методы инженерии знаний», «Методы машинного обучения» / А. Н. Целых, Э. М. Котов ; Южный федеральный университет. − Ростов-на-Дону ; Таганрог : Издательство Южного федерального университета, 2022. − 105 с. ISBN 978-5-9275-4215-4 Пособие посвящено рассмотрению теоретических подходов к извлече нию информации из текстов, рассмотрению и систематизации прогностических методов и моделей в маркетинге и интернет-рекламе, на основе выборки больших данных. В данном пособии рассмотрено применение машинного обучения при построении рекомендательных систем. Пособие предназначено для студентов высших учебных заведений, обучающихся по направлениям 10.03.01 "Информационная безопасность" (направленность программы: "Информационно-аналитичекие системы безопасности") по курсу "Модели и методы инженерии знаний" и 09.04.03 "Прикладная информатика" (направленность программы: "Машинное обучение и технологии больших данных") по курсу "Методы машинного обучения". УДК 004.056.5(075.8) ББК 32.97я73 ISBN 978-5-9275-4215-4 © Южный федеральный университет, 2022 © Целых А. Н., Котов Э. М., 2022 © Оформление. Макет. Издательство Южного федерального университета, 2022
Содержание 3 СОДЕРЖАНИЕ ВВЕДЕНИЕ …………………………………………………………… 5 1. ОБЗОР ПРАКТИКИ ПРИМЕНЕНИЯ БОЛЬШИХ ДАННЫХ ………………………………………………. 8 1.1. Анализ использования больших данных российскими компаниями …………………………………………………………………. 8 1.2. Анализ российских кейсов ……………………………………… 13 2. БОЛЬШИЕ ДАННЫЕ В РЕКЛАМЕ И МАРКЕТИНГЕ ………… 24 2.1. Большие данные и рекламные форматы ……………………….. 24 2.2. Большие данные в продажах рекламного инвентаря ………….. 40 2.3. Экосистема рынка больших данных в интернет-рекламе: основные участники и технологии ………………………………………… 43 2.4. Влияние Больших Данных на рекламный рынок ……………… 47 3. БОЛЬШИЕ ДАННЫЕ И РЕКОМЕНДАТЕЛЬНЫЕ СИСТЕМЫ …………………………... 57 3.1. Основные понятия в области рекомендательных систем ……… 57 3.2. Что такое рекомендательная система …………………………... 58 3.3. Выгоды от внедрения системы рекомендаций ………………… 61 3.4. Рекомендательная система основанная на контента ………….. 61 3.4.1. Высокоуровневая архитектура систем на основе контента 62 3.4.2. Преимущества и недостатки фильтрации на основе контента ……………………………………………………………………… 67 3.5. Коллабаративная фильтрация …………………………………... 68 3.5.1. Типы коллабаративной фильтрации ……………………………. 69 3.5.2. Фильтрация на основе памяти …………………………………... 69 3.5.3. Фильтрация на основе моделей ………………………………….. 71 3.5.4. Характеристики и проблемы совместной фильтрации ……. 74 3.6. Гибридная рекомендательная система …………………………. 79 3.6.1. Взвешенная модель …………………………………………………. 79
Содержание 4 3.6.2. Смешанный подход ………………………………………………… 80 3.6.3. Комбинаторный подход …………………………………………... 80 3.6.4. Гибридные переключения …………………………………………. 80 3.6.5. Способствующая модель …………………………………………. 82 3.6.6. Каскадная модель ………………………………………………….. 82 3.6.7. Гибрид метауровня ………………………………………………… 82 4. ПОСТРОЕНИЕ РЕКОМЕНДАТЕЛЬНОЙ СИСТЕМЫ ………... 85 4.1. Подготовка данных ……………………………………………… 85 4.2. Выбор модели построения рекомендательной систем ………… 86 4.3. Построение модели системы ……………………………………. 87 4.4. Выбор средства реализации …………………………………….. 88 4.5. Экспериментальные тесты ……………………………………… 91 4.6. Эффективность выбранного решения ………………………….. 93 4.7. Описание работы системы ……………………………………….. 94 4.8. Предварительная подготовка данных …………………………… 94 4.9. Построение модели ………………………………………………. 97 4.10. Оценка модели …………………………………………………... 97 ЗАКЛЮЧЕНИЕ ………………………………………………………… 99 СПИСОК ЛИТЕРАТУРЫ ……………………………………………… 102
Введение 5 ВВЕДЕНИЕ Извлечение информации представляет собой процесс сбора неструк турированных данных из различных источников и извлечение важных факторов из полученного многообразия данных. Данный процесс объединяет в себе консолидацию информации и ее обработку. Цифровые технологии присутствуют во всех областях жизни чело века. Объем получаемых данных ежесекундно растет, ежесекундно гигантские объемы контента генерируют такие источники, как социальные сети, информационные сайты, файлообменники. Параллельно с этим огромное количество данных собирают различные цифровые устройства − приборы для мониторинга, сенсоры, системы наблюдения, операционные системы персональных устройств, смартфоны, интеллектуальные системы, датчики и т.д. Для определения данных значительного объема и многообразия был введен термин Большие Данные [1]. Данные являются основой для успешной маркетинговой стратегии, поэтому неудивительно, что анализ Больших Данных довольно быстро стал одним из основных инструментов рекламного рынка. Первыми целенаправленно собирать Большие Данные стали поиско вые системы. Сегодня источниками Больших Данных, используемых в рекламе и маркетинге, кроме поисковиков, являются социальные сети, телеком-операторы, интернет-провайдеры, банки, страховые агентства. Все данные представлены в обезличенном виде и представляют собой набор социально-демографических, геолокационных и других характеристик. С продолжающимся движением рекламы в сторону максимальной персонализации растут требования к детализации данных и их разнообразию, поэтому маркетологи и рекламные агентства осваивают все новые и новые технологии для получения расширенных данных о потенциальных клиентах. Сами по себе Большие Данные, их аккумулирование и хранение не имеют ценности. Ценность Больших Данных формируется при их последующем анализе, сегментации и построение на их основе работающих
Введение 6 моделей, позволяющих получать новые знания о целевой аудитории, находить закономерности и тренды, делать прогнозы и предсказывать поведение потребителей. Исходя из полученных знаний, рекламодатели планируют свою маркетинговую активность, а возможность предсказания будущего поведения аудитории стала основой нового направления − предиктивного или предсказательного маркетинга. Своего рода революцией на рекламном рынке как в области закупки и продажи рекламы, так и в области работы с данными стало появление programmatic-технологий. Автоматизированные закупки рекламы стали основным инструментом рекламодателей и агентств. А детализированная отчетность и высокий уровень контроля над рекламными компаниями со стороны покупателей и качественное управление рекламными инструментами со стороны продавцов сегодня являются более значимыми, с точки зрения бизнеса, чем снижение затрат или эффективность продаж (по результатам опроса IAB Europe Attitudes to Programmatic Advertising 2017). Programmatic-технологий сделали возможным получение более де тализированных данных и интеграцию данных из различных источников. Вслед за этим появились платформы управления данными (DMP), которые предоставляют новый уровень доступа к данным и их аналитики. Таким образом, рост цифровизации привел к появлению огромного массива данных, доступных для аналитики. Однако существует и обратный процесс: генерирование все больших и больших объемов данных требует совершенствования способов их обработки и дальнейшего проникновения средств автоматизации на рынок рекламы и маркетинга. Сегодня Большие Данные, которые первоначально воспринимались рынком как один из инструментов для таргетинга аудитории, используются как полноценное технологическое решение для различного рода маркетинговых и рекламных задач. С помощью аналитики пользовательских данных рекламодатели внедряют новейшие методы оптимизации; получают детализированный, встроенный в контекст портрет пользователя; выявляют наиболее эффективные аспекты рекламной компании, что в свою очередь, приводит к увеличению CTR, большей конверсии и росту ROI [2]. По данным аналитиков McKinsey компании, которые смогли успешно внедрить использование Больших Данных в свой операционный цикл,
Введение 7 демонстрируют рост показателей прибыльности и производительность на 5−6 % выше, чем их конкуренты. Рекомендательная система − это комплекс алгоритмов, программ и сервисов, задача которого предсказать, что может заинтересовать того или иного пользователя. В основе работы лежит информация о профиле человека и иные данные. Такие системы решают важные задачи маркетинга. Они крайне вос требованы для любого коммерческого сайта, с их помощью можно дополнительно увеличить продажи, используя предпочтения пользователей и сравнения корзин и покупок различных пользователей. Но такие системы могут использоваться и в целях удобства и улучшения качества контента самого сайта. Именно такую цель преследует разработанная в этой работе система. Главной задачей системы будет фильтрация постов на основе клю чевых слов или тегов с учетом интересов пользователя и их популярности. В пособии преследуется цель создания рекомендательно системы, которая должна выполнять следующие функции. 1. Сбор информации о интересах пользователя. 2. Хранение информации. 3. Анализ постов. 4. Анализ интересов пользователя. 5. Создание на основе аналитических данных рекомендаций. 6. Отображение ленты постов уникальной для пользователя.
1. Обзор практики применения больших данных 8 ОБЗОР ПРАКТИКИ ПРИМЕНЕНИЯ БОЛЬШИХ ДАННЫХ 1.1. Анализ использования больших данных российскими компаниями По данным опроса IAB Russia большинство рекламодателей и ре кламных площадок уже сегодня работают с собственными или сторонними пользовательскими данными (79 % и 88 % соответственно). Для рекламодателей наиболее часто используемым сценарием использования сторонних данных является работа с бесплатными данными, встроенными в инструменты закупки, для площадок − использование встроенных данных на стороне систем управления рекламных кампаний. DMP входит в тройку лидеров среди инструментов по работе с дан ными как у площадок, так и у рекламодателей. Несмотря на высокие затраты на внедрение, DMP постепенно становится необходимым инструментом для работы на рынке интернет-рекламы. Большинство рекламодателей используют DMP в течение 1−2 лет, среди площадок большая часть респондентов внедрила DMP менее 1 г. назад. 19 % от площадок, не использующих DMP, планируют внедрять данную технологию в будущем [3]. Самой распространенной причиной использования DMP для рекла модателей и площадок является возможность построения аудиторных сегментов для таргетирования (78 % и 89 % соответственно). При этом рекламодатели больше ориентированы на оптимизацию затрат, увеличению ROI и поиск закономерностей и инсайтов, а площадки − на получение доступа к сторонним данным и более глубокий анализ собственной аудитории, а также на монетизацию собственных данных и использование данных при создании частных сделок. Есть различия и в критериях выбора DMP, а также в том, кто явля ется администратором платформы. Среди критериев выбора для рекламодателя на первом месте находятся функциональные возможности DMP, для площадки − стоимость технологий. При этом и те, и другие отмечают важность конфиденциальности и безопасности данных. Сопровождением
1.1. Анализ использования больших данных российскими компаниями 9 платформы для рекламодателей чаще всего занимаются сторонние медиаагентства, тогда как у площадки эту функцию выполняет внутренняя команда аналитиков (рис. 1) [4]. Доля закупки сторонних пользовательских данных составляет 43 % для рекламодателей и 46 % для площадок. При этом полностью удовлетворены качеством закупаемых данных только 4 % рекламодателей и 6 % площадок (рис. 2). На российском рынке заказчиками рекламы с использованием Больших Данных чаще всего выступают банки, представители сферы недвижимости, электронной коммерции, автомобильные концерны. Как правило, Большие Данные используются для анализа имеющихся пользователей (клиентов) и их сегментации, а также для автоматизированной закупки рекламы посредством RTB-аукциона (programmatic, платформы контекстной рекламы). Основными поставщиками 3rd party data для российских компаний являются Яндекс и Google. 2nd party data также используется для ретаргетинга и в качестве корректировок в других каналах, например. «Что касается приоритетных видов данных, то таковые выделить до статочно сложно: подобные технологии используются для получения максимально точного портрета аудитории, а для этого необходимо использовать все возможные виды данных, имеющиеся в доступе». Сергей Петраковский, коммерческий директор i-Media. «Основные заказчики рекламных размещений на основе Больших Данных в programmatic являются достаточно крупные компании с бюджетом на медийную рекламу, которым важно охватить значительное количество пользователей в федеральном масштабе. В топе рекламодателей − автопредприятия, электроника и бытовая техника, банки и финансы, недвижимость и фармакология. Большинство рекламодателей в России убеждены, что Большие Дан ные обладают существенным потенциалом, и стараются разобраться более детально, как это работает. Можно ожидать, что в перспективе 1−2 лет российские рекламодатели придут к пониманию не только того, как работа с Большими Данными влияет на бизнес-показатели, но и выделят Большие Данные в полноценное направление собственной бизнес-стратегии, более активно применяя технологию машинного обучения». Александр Куликов, заместитель генерального директора Segmento.
1. Обзор практики применения больших данных 10 Рис. 1. Использование DMP российскими компаниями