Интеллектуальный анализ данных на платформе Loginom
Интеллектуальный анализ данных на платформе Loginom: методическое руководство
Данное методическое указание, разработанное Л.В. Жуковой, представляет собой практическое руководство по интеллектуальному анализу данных с использованием отечественной low-code платформы Loginom. Издание адресовано магистрантам, изучающим дисциплину "Интеллектуальный анализ данных", и призвано познакомить их с основами работы с платформой, а также с применением методов линейной регрессии и кластерного анализа для решения практических задач.
Введение в платформу Loginom
Книга начинается с обзора возможностей платформы Loginom, подчеркивая ее роль в обеспечении быстрого доступа к данным, проведении анализа и поддержке принятия решений. Отмечается преимущество платформы как отечественного программного обеспечения с бесплатной версией, удобным интерфейсом и обширной библиотекой материалов. Описывается структура пакетов Loginom, являющихся основными единицами работы, включающих в себя сценарии, подключения и компоненты. Подробно рассматривается концепция сценариев, представляющих собой последовательности узлов обработки данных, настраиваемых пользователем для решения конкретных задач. Описываются различные типы узлов, включая стандартные и производные компоненты, а также подмодели, позволяющие создавать сложные структуры анализа.
Линейная регрессия в Loginom
Второй раздел посвящен методу линейной регрессии. Приводятся теоретические основы, включая математическое описание модели, основные предположения и методы оценки параметров. Рассматриваются критерии оценки качества модели, такие как коэффициент детерминации, скорректированный коэффициент детерминации, критерии Акаике и Шварца. Особое внимание уделяется анализу нарушений основных предположений регрессионного анализа, включая мультиколлинеарность, корреляцию случайных составляющих (критерий Дарбина-Уотсона) и гетероскедастичность (критерий Уайта).
Практическая часть раздела иллюстрируется кейсом по оценке стоимости жилой недвижимости в Москве. Описывается структура данных, используемые переменные и процесс построения модели линейной регрессии в Loginom. Подробно рассматриваются этапы настройки узлов, включая импорт данных, предобработку, выбор типов и видов данных, настройку входных полей, выбор методов проверки качества модели и параметров линейной регрессии. Приводятся примеры анализа выходных данных, включая коэффициенты регрессии, сводные показатели и интерпретацию результатов.
Кластерный анализ в Loginom
Третий раздел посвящен кластерному анализу. Рассматривается кейс по сегментации рынка на основе данных об использовании программного обеспечения IBM SPSS Statistics. Описывается структура данных, включающая информацию об используемых модулях и области работы респондентов. Подробно рассматривается процесс кластеризации с использованием алгоритма EM (Expectation-Maximization) в Loginom, включая настройку узлов, выбор переменных, нормализацию данных и настройку числа кластеров. Представлены примеры визуализации результатов, включая таблицы и графики, а также интерпретация профилей кластеров. Для сравнения результатов также рассматривается метод k-средних.
Заключение
В заключении подчеркивается цель курса – формирование у слушателей системного взгляда на методы анализа данных и их применение в информационно-аналитических системах.
Текст подготовлен языковой моделью и может содержать неточности.
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РФ № 4409 УНИВЕРСИТЕТ НАУКИ И ТЕХНОЛОГИЙ МИСИС ИНСТИТУТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ И КОМПЬЮТЕРНЫХ НАУК Магистерская школа информационных бизнес систем Л.В. Жукова ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ НА ПЛАТФОРМЕ LOGINOM Методическое указание Рекомендовано редакционно-издательским советом университета Москва 2023
УДК 004.6 Ж86 Р е ц е н з е н т : канд. техн. наук, доц., проф. А.В. Белов (МИЭМ НИУ ВШЭ) Жукова, Людмила Вячеславовна. Ж86 Интеллектуальный анализ данных на платформе Loginom : метод. указание / Л.В. Жукова. – Москва : Издательский Дом НИТУ МИСИС, 2023. – 45 с. Рассматриваются особенности реализации задач линейной регрессии и задач кластеризации с помощью отечественного ПО Loginom. Предназначено для магистрантов Университета науки и технологий МИСИС, обучающихся по направлению подготовки 09.04.02 «Информационные системы и технологии», изучающих в рамках дисциплины «Интеллектуальный анализ данных» подходы и методы обработки больших структурированных, слабоструктурированных и неструктурированных данных. УДК 004.6 Л.В. Жукова, 2023 НИТУ МИСИС, 2023
Cодержание Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4 1. Начало работы в ПО Loginom . . . . . . . . . . . . . . . . . . . . . . .5 2. Модель линейной регрессии . . . . . . . . . . . . . . . . . . . . . . . .9 2.1. Теоретические материалы . . . . . . . . . . . . . . . . . . . . . . 9 2.2. Кейс: оценка стоимости жилой недвижимости в г. Москве с помощью модели линейной регрессии в ПО Loginom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3. Кластеризация. Кейс: сегментация рынка по использованию программного обеспечения с привлечением кластерного анализа в ПО Loginom . . . . . .30 Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .43 Библиографический список . . . . . . . . . . . . . . . . . . . . . . . . .44 3
ВВЕДЕНИЕ Основной целью современных информационных аналитических систем является обеспечение быстрого доступа к данным, выполнение анализа данных и информационная поддержка процесса принятия решений. Предназначение бизнес-аналитики (Business Intelligence, BI) – извлечь знания о бизнесе из данных с использованием различных аппаратно-программных технологий. Такие технологии дают возможность организациям превращать данные в информацию, а затем информацию в знания. Отечественное ПО – low-code платформа Loginom позволяет использовать современные методы обработки данных с помощью интерфейса. Визуальный конструктор позволяет настроить все процессы анализа: интеграция, подготовка данных, моделирование, визуализация. Loginom сокращает время от тестирования гипотезы до создания работающей модели. В пособии раскрываются теоретические и практические основы использования свободно распространяемой аналитической Low-code платформы Loginom Academic и Loginom Community (https://loginom.ru/downloads). Аналитическая платформа Loginom является более продвинутой версией АП Deductor, сохранившей классические модули, но при этом отличается принципиально новой системой доступности продвинутой аналитики. Loginom – это аналитическая платформа, позволяющая в единой среде выполнить все этапы анализа данных от консолидации данных и построения моделей до визуализации и интеграции в бизнес-процесс. Преимуществом Low-code платформы Loginom является принадлежность к отечественному ПО, наличие бесплатной версии, не ограниченной по времени для использования, удобный интерфейс, наличие библиотеки с материалами. 4
1. НАЧАЛО РАБОТЫ В ПО LOGINOM Для решения задач анализа Loginom позволяет импортировать данные из различных источников и применять к ним необходимые алгоритмы обработки. Результаты можно просмотреть в самой системе или экспортировать в сторонние приемники данных. Назначение и структура пакета. Все действия с проектом в Loginom осуществляются в рамках пакета, который является минимальной единицей поставки и представляет собой контейнер для компонентов, сценариев, подключений и т.д. Пакеты сохраняются по-отдельности в виде файлов с расширением .lgp, и включают в себя ссылки и модули. При создании нового пакета программа автоматически требует задание его имени и места размещения пакета. Ссылки применяются для подключения других пакетов с целью использования созданных в них производных компонентов и подключений в текущем проекте. Соответствующие объекты доступны только в том случае, когда они опубликованы для общего доступа. Каждый пакет содержит хотя бы один модуль. Модуль включает в себя: – сценарий – это последовательность узлов обработки данных; – подключения – в них представлен список внешних источников и приемников данных, к которым можно подключиться; – компоненты – доступные для работы подмодели, как созданные в рамках текущего пакета, так и заимствованные из других пакетов через ссылки. Особенности работы платформы Loginom 1. При открытии любого пакета всегда создается файл с именем <Название_пакета>.lgp.lck. Он защищает открытый пакет от возможности редактировать или удалить его другими пользователями. После закрытия пакета этот файл удаляется. 5