Информационные технологии в профессиональной деятельности: интеллектуальный анализ данных и бизнес-аналитика
Покупка
Новинка
Основная коллекция
Тематика:
Прикладные информационные технологии
Издательство:
НИЦ ИНФРА-М
Год издания: 2025
Кол-во страниц: 326
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
Среднее профессиональное образование
ISBN: 978-5-16-019356-4
ISBN-онлайн: 978-5-16-112026-2
DOI:
10.12737/2110964
Артикул: 798042.01.01
Учебное пособие предназначено для студентов, преподавателей и молодых специалистов, заинтересованных в углубленном изучении инструментальных средств для решения реальных задач анализа данных. Оно будет особенно полезно всем читателям, желающим расширить свои знания и навыки в использовании языков программирования Python и R для анализа данных. Обширный теоретический и практический материал позволит глубоко понять и научиться эффективно применять методы машинного обучения и интеллектуального анализа данных в профессиональной деятельности.
Соответствует требованиям федеральных государственных образовательных стандартов среднего профессионального образования последнего поколения.
Для студентов учреждений среднего профессио нального образования, обучающихся по направлениям «Прикладная информатика (по отраслям)», «Информационные системы и программирование» и «Интеллектуальные интегрированные системы».
Тематика:
ББК:
УДК:
ОКСО:
- Среднее профессиональное образование
- 00.02.03: Информационные технологии в профессиональной деятельности
- 09.02.05: Прикладная информатика (по отраслям)
- 09.02.07: Информационные системы и программирование
- 09.02.08: Интеллектуальные интегрированные системы
ГРНТИ:
Только для владельцев печатной версии книги: чтобы получить доступ к дополнительным материалам, пожалуйста, введите последнее слово на странице №157 Вашего печатного экземпляра.
Ввести кодовое слово
ошибка
-
2110964_Облако.zip
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В ПРОФЕССИОНАЛЬНОЙ ДЕЯТЕЛЬНОСТИ: ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ И БИЗНЕС- АНАЛИТИКА Д.М. НАЗАРОВ А.А. КОПНИН Москва ИНФРА-М 2025 УЧЕБНОЕ ПОСОБИЕ
УДК 004.6(075.32) ББК 16.3я723 Н19 Р е ц е н з е н т ы: Замараев К.В., директор по консалтингу общества с ограниченной от ветственностью «Лаборатория систем автоматизации процессов»; Максимов В.П., доктор физико-математических наук, профессор, про фессор кафедры информационных систем и математических методов в экономике Пермского государственного национального исследовательсткого университета ISBN 978-5-16-019356-4 (print) ISBN 978-5-16-112026-2 (online) Материалы, отмеченные знаком , доступны в электронно-библиотечной системе Znanium.com © Назаров Д.М., Копнин А.А., 2024 Назаров Д.М. Н19 Информационные технологии в профессио нальной деятельности: интеллектуальный анализ данных и бизнес- аналитика : учебное пособие / Д.М. Назаров, А.А. Копнин. — Москва : ИНФРА-М, 2025. — 326 с. + Доп. материалы [Электронный ресурс]. — (Среднее профессиональное образование). — DOI 10.12737/2110964. ISBN 978-5-16-019356-4 (print) ISBN 978-5-16-112026-2 (online) Учебное пособие предназначено для студентов, преподавателей и мо лодых специалистов, заинтересованных в углубленном изучении инструментальных средств для решения реальных задач анализа данных. Оно будет особенно полезно всем читателям, желающим расширить свои знания и навыки в использовании языков программирования Python и R для анализа данных. Обширный теоретический и практический материал позволит глубоко понять и научиться эффективно применять методы машинного обучения и интеллектуального анализа данных в профессио нальной деятельности. Соответствует требованиям федеральных государственных образова тельных стандартов среднего профессио нального образования последнего поколения. Для студентов учреждений среднего профессио нального образования, обучающихся по направлениям «Прикладная информатика (по отраслям)», «Информационные системы и программирование» и «Интеллектуальные интегрированные системы». УДК 004.6(075.32) ББК 16.3я723 Данная книга доступна в цветном исполнении в электронно-библиотечной системе Znanium
Предисловие В современном мире наблюдается стремительный рост количества данных разной природы практически во всех сферах человеческой деятельности, по это му вопросы обработки данных становятся стратегически важными во многих профессио нальных сферах — от бизнеса и медицины до науки и образования. Процесс обработки и анализа данных требует знания соответствующих математических методов и информационных технологий. Ядром информационных технологий в контексте обработки данных и интерпретации информации является триада понятий: Data Science, Data Mining и Machine Learning. Data Science, или наука о данных, — междисциплинарная область, объединяющая методы статистики, математики и информатики. Ее основные задачи — сбор, предварительная обработка, анализ и интерпретация данных. Data Mining, или интеллектуальный анализ данных, фокусируется на разработке методов и технологий, предназначенных для выявления закономерностей, паттернов и инсайтов при обработке больших данных. Machine Learning, или машинное обучение, — подраздел искусственного интеллекта, целью которого является разработка моделей и алгоритмов, способных адаптироваться и совершенствоваться на основе обработки и анализа данных. Задача настоящего учебного пособия — сделать тему понятной для людей с разным уровнем подготовки, от начинающих до опытных специалистов, и предоставить практические инструмен ты для глубокого понимания и применения информационных технологий в различных областях профессио нальной деятельности. Учебное пособие призвано помочь читателям освоить ключевые компетенции в сфере информационных технологий (ИТ1), установленные федеральным образовательным стандартом по направлениям 09.02.05 «Прикладная информатика (по отраслям)», 09.02.07 «Информационные системы и программирование» и 09.02.08 «Интеллектуальные интегрированные системы», а также другим направлениям среднего профессио нального образования, предусматривающим изучение информационных технологий. 1 Также IT — Information Technology.
Отличительная особенность учебного пособия — глубокое изложение теории, а также системное представление практических работ по изучению технологий обработки данных. Основной акцент делается на решении ситуационных задач и кейсов, которые могут встретиться на пути начинающих бизнес- аналитиков и специалистов по обработке данных в их профессио нальной деятельности. Читатель найдет здесь решения как очень простых, так и довольно сложных задач и освоит основные принципы и методы работы с данными, используя базовые языки обработки данных Python и R, а также их основные библиотеки. В книге рассмотрены инструментальные средства, в которых имеются различные реализации кодов на языках Python и R, что позволит получить прочную базу для дальнейшего развития в этой области. Однако важно помнить, что профессио нальное развитие возможно только с применением полученных знаний на практике, при решении реальных задач и анализе ошибок. Учебное пособие состоит из семи глав, после каждой из них предложены контрольные вопросы и тесты для самопроверки. Глава 1 знакомит читателя с основами информационных технологий, их историей, развитием и текущим состоянием в контексте информационных революций. Цель данной главы — показать, как информационные технологии влияют на различные сферы профессио нальной деятельности и каким образом они трансформировали современный мир. Особое внимание уделено описанию профессий в сфере информационных и цифровых технологий. Глава 2 посвящена изучению основных аспектов трех ключевых понятий в сфере анализа данных: Data Science, Data Mining и Machine Learning. Раскрывается ключевая роль данных отраслей знаний в формировании современного информационного общества, а также оценивается их вклад в инновационное развитие многих отраслей науки. В главе 3 более глубоко изучается сущность науки о данных, рассматриваются математические основы ее основных методов и алгоритмов. Содержание главы позволит читателям понять, какие инструмен ты и подходы используют специалисты в области Data Science для анализа, обработки и интерпретации данных. Цель этой главы — дать читателю глубокое понимание основных подходов в науке о данных и подготовить почву для глубокого погружения в практическое применение этих методов в последующих главах. В главе 4 представлены способы проведения интеллектуального анализа данных и бизнес- аналитики с использованием различных
инструментальных средств. Содержится подробное описание методики обучения методам работы в Yandex DataLens. Авторы предлагают комплекс лабораторных работ в виде ситуационных задач и кейсов, которые позволяют сформировать профессио нальные компетенции и трудовые функции будущего специалиста в рамках использования интеллектуального анализа данных. В главе 5 описаны основные типы данных, возможности работы на языке R, рассмотрены и базовые понятия анализа данных с последующей реализацией в среде RStudio. В главе 6 рассмотрены общие вопросы, касающиеся двух фундаментальных понятий: алгоритмизации и программирования, описаны свой ства алгоритма, а также базовые алгоритмические структуры. Проанализированы основные возможности и особенности программирования на языке Python. С использованием языка Python реализованы различные условные, циклические конструкции. В главе 7 рассматриваются практические аспекты использования инструмен тов анализа данных для решения задач. Представлена реализация таких методов, как кластерный анализ, Random Forest и метод Dematel, а также рассмотрены шаги по подготовке данных, выбору подходящих визуальных элемен тов и созданию информативных дашбордов для анализа данных. Формат описания методик представлен в виде традиционной технологии «Key-by- Key» (клавиша за клавишей), широко применяемой при получении профессио нальных компетенций в сфере ИТ. В результате изучения материалов учебного пособия студент должен: знать • историю развития информационных технологий; • типы данных для проведения интеллектуального анализа; уметь • анализировать и обрабатывать данные на языках R и Python; • работать с инструмен том Yandex DataLens; владеть • навыками реализации методов Data Science, Data Mining и Machine Learning.
Глава 1. ВВЕДЕНИЕ В ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ. РОЛЬ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ В ПРОФЕССИОНАЛЬНОЙ ДЕЯТЕЛЬНОСТИ 1.1. ИНФОРМАЦИОННЫЕ РЕВОЛЮЦИИ: ЭВОЛЮЦИЯ ИНФОРМАЦИИ И ЕЕ РОЛЬ В ОБЩЕСТВЕ В эпоху цифровой трансформации общества информация и данные становятся ценными и полноправными ресурсами наряду с привычными и понятными ресурсами, например такими, как природные. Информация и данные становятся определяющими факторами во всех сферах человеческой деятельности: экономике, культуре, науке, образовании и производстве. Однако чтобы понять, как данные и информация стали настолько важными, необходимо обратиться к прошлому и рассмотреть развитие общества с точки зрения изменения роли информации в нем. Прежде всего, для этого следует определить ключевые понятия, которые помогут нам проследить эволюцию общественного развития в контексте изменения роли информации и данных. Согласно системе стандартов ISO/IEC по информационным технологиям, данные — это поддающееся многократной интерпретации представление информации в формализованном виде, пригодном для передачи, связи или обработки (ISO/IEC 2382:2015). Данные — формы представления информации, с которыми имеют дело информационные системы и их пользователи (ISO/IEC 10746-2:1996). Из этих определений следует, что данные являются формами представления информации в соответствии с правилами интерпретации, которые в свою очередь определяются алгоритмами обработки и анализа данных. Данные — это сырые, необработанные факты и статистика, которые сами по себе могут не нести определенного смысла. Поэтому рассматривать понятие «данные» в эволюционном аспекте в отрыве от понятия «информация» не имеет смысла. Информация — это данные, обработанные или интерпретированные таким образом, чтобы они приобрели некоторый смысл.
«Информационная революция» — термин, который описывает периоды значительных изменений в способах создания, обработки, хранения и распространения информации. В истории человечества было несколько таких революций, каждая из которых оказала глубокое влияние на развитие общества. Первая информационная революция связана с изобретением письменности в Древнем мире. Это был переход от устной передачи информации к записи, что позволило накапливать, сохранять и передавать знания на протяжении веков. Вторая информационная революция случилась в эпоху Возрождения с изобретением печатного станка. Это привело к массовому распространению информации, увеличению числа грамотных людей и в конечном счете — к научно- технической революции. Третья информационная революция, которую часто называют цифровой, стартовала в середине XX в. с появления компьютеров. Так началась эра обработки и хранения больших объемов данных, быстрого распространения информации и появления глобальной сети Интернет. Сегодня мы, возможно, находимся на пороге четвертой информационной революции, связанной с развитием искусственного интеллекта, больших данных и машинного обучения. С помощью этих технологий можно обрабатывать и анализировать огромные объемы данных, создавая и получая новые знания в различных форматах. В современном мире роль информации и данных становится все более важной, поскольку они стали ценным ресурсом, используемым для принятия решений в бизнесе, науке, политике и повседневной жизни. Тем не менее с ростом их значения повышается и ответственность за их защиту и этичное использование. Именно по это му важно понимать, как проходила эволюция общества в рамках описанных выше информационных революций. Это поможет осознать потенциал и риски, которые информация и данные представляют для нашего общества. Важнейшими характеристиками работы с информацией являются способы ее передачи, хранения и обработки. Этапы развития этих способов в процессе эволюции общества и их временные рамки в контексте информационных революций отражает табл. 1.1. Заметим, что указанные периоды и способы передачи, хранения и обработки информации являются обобщенными и могут варьироваться в зависимости от конкретных условий их использования в образовательных целях.
Таблица 1.1 Эволюция способов работы с информацией и данными Информационная революция Период Способы передачи информации Способы хранения информации Способы обработки информации Первая (изобретение письменности) Приблизительно 3200 г. до н.э. Рукописное копирование, устная речь Глиняные таблички, пергамент, бумага Ручной анализ, устное обсуждение Вторая (изобретение печати) Приблизительно 1440 г. Печатные книги, газеты, журналы Печатные материалы, книги Чтение, письменный анализ Третья (появление компьютеров и интернета) Середина XX в. Электронная почта, интернет Электронные базы данных, серверы, облачные хранилища Программное обеспечение, компьютерные алгоритмы Четвертая (развитие искусственного интеллекта (ИИ), больших данных и машинного обучения) Начало XXI в. Интернет, сети передачи данных Облачные хранилища, распределенные сети Искусственный интеллект, машинное обучение, анализ больших данных На протяжении веков изменялась и роль информации в жизни людей. В табл. 1.2 представлен авторский взгляд на изменение этой роли в рамках каждой информационной революции. Таблица 1.2 Роль информации и данных в эволюционном развитии общества Информационная революция Период Роль информации в жизни людей Первая (изобретение письменности) Приблизительно 3200 г. до н.э. Важная (появилась возможность накапливать и передавать данные, информацию и знания, что стало основой для создания письменной культуры)
Информационная революция Период Роль информации в жизни людей Вторая (изобретение печати) Приблизительно 1440 г. Важная (данные, информация и знания стали доступными широким слоям населения, что способствовало развитию образования, науки и культуры) Третья (появление компьютеров и сети интернет) Середина XX в. Очень важная (привела к мгновенной передаче информации, созданию глобальных сетей общения и беспрецедентному росту объема доступных данных) Четвертая (развитие ИИ, больших данных и машинного обучения) Начало XXI в. Исключительно важная (данные и информация стали основой для принятия решений в бизнесе, науке, политике и повседневной жизни) Из данных таблицы очевидно, что с момента появления письменности и до сегодняшнего дня информация остается одним из ключевых ресурсов для человека. Однако в рамках информационных революций, которые произошли за последние несколько тысячелетий, мир сталкивался с радикальными изменениями в отношении стоимости, ценности, объема и скорости распространения информации. Поэтому необходимо сначала дать определения этим понятиям, а затем рассмотреть их в контексте эволюционного развития общества. Стоимость информации — это экономическая категория, определяющая затраты на получение, обработку, хранение и (или) передачу информации (обыч но выраженные в денежном эквиваленте). В стоимость информации можно включать затраты на сбор данных, их аналитику, использование оборудования для обработки и хранения данных, а также расходы на передачу данных. Ценность информации — качественная категория, описывающая полезность или важность информации для конкретной задачи. Ценность информации может зависеть от ее релевантности, точности, своевременности, уникальности и т.д. Например, точные и актуальные данные о погоде могут быть очень ценными для пилота самолета, но менее ценными для машиниста поезда в метро. Окончание табл. 1.2
Объем информации — количественная мера информации. В информатике объем информации обыч но измеряется в битах и байтах и их производных (килобайтах, мегабайтах, гигабайтах, терабайтах и т.д.). Объем информации может описывать, сколько данных хранится в файле, передается по сети или сколько памяти требуется для хранения данных. Однако это не единственный способ измерения информации. Ценность и стоимость информации с течением времени претерпели значительные изменения. Этот процесс отражает табл. 1.3. Таблица 1.3 Ценность информации в контексте информационных революций Информационная революция Период Ценность информации Первая (изобретение письма) Приблизительно 3200 г. до н.э. Относительно низкая (только дефицит информации и сложность ее передачи определяли ее ценность; информация не применялась во всех сферах деятельности) Вторая (изобретение печати) Приблизительно 1440 г. Средняя (появление печати снизило стоимость передачи информации, но информация оставалась весьма ценной для образования и науки) Третья (появление компьютеров и интернета) Середина XX в. Высокая (появление компьютеров и глобальной сети Интернет увеличило доступ к информации, но ее обработка и анализ стали ключевыми навыками и определяли ценность информации во всех сферах деятельности человека) Четвертая (развитие ИИ, больших данных и машинного обучения) Начало XXI в. Очень высокая (информация и данные стали важнейшим активом для принятия решений в бизнесе, науке, политике и повседневной жизни) Стоимость информации по отношению к другим ресурсам также значительно изменилась в процессе эволюционного развития общества. Эти изменения отражает табл. 1.4. Ниже представлена аналогичная таблица по объему данных и информации (табл. 1.5).