Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Большие данные

Покупка
Новинка
Основная коллекция
Артикул: 842389.01.99
Рассмотрены ключевые характеристики и технические особенности группировки данных, наглядно проиллюстрированы процессы систематизации, изложены виды анализа, методы и способы практического применения в разных сферах деятельности. Для обучающихся по направлениям подготовки 09.03.01 «Информатика и вычислительная техника», 09.03.02 «Информационные системы и технологии», 09.03.03 «Прикладная информатика», 09.02.03 «Программирование в компьютерных системах», 09.03.04 «Программная инженерия», 38.03.05 «Бизнес-информатика».
Параскевов, А. В. Большие данные : учебное пособие / А. В. Параскевов, А. Э. Сергеев. - Москва ; Вологда : Инфра-Инженерия, 2024. - 148 с. - ISBN 978-5-9729-2120-1. - Текст : электронный. - URL: https://znanium.ru/catalog/product/2169699 (дата обращения: 21.11.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
 
 
 
 
 
 
А. В. Параскевов, А. Э. Сергеев 
 
 
 
 
 
 
 
БОЛЬШИЕ ДАННЫЕ 
 
 
 
Учебник 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Москва    Вологда 
«Инфра-Инженерия» 
2024 
1 


УДК 004.62 
ББК 32.972.1 
П18 
 
Рецензенты: 
зав. кафедрой информационных систем, 
д-р экон. наук, канд. физ.-мат. наук, профессор 
Кубанского государственного аграрного университета Е. В. Попова; 
доц. кафедры информационных технологий Кубанского государственного университета,  
канд. пед. наук Н. Ю. Добровольская; 
доц. кафедры математики  
и вычислительной техники Академии маркетинга  
и социально-информационных технологий (ИМСИТ),  
канд. пед. наук Е. А. Кириченко  
 
 
 
 
 
 
 
 
 
Параскевов, А. В. 
П18  
Большие данные : учебник / А. В. Параскевов, А. Э. Сергеев. – Москва ; 
Вологда : Инфра-Инженерия, 2024. – 148 с. : ил., табл. 
ISBN 978-5-9729-2120-1 
 
Рассмотрены ключевые характеристики и технические особенности группировки 
данных, наглядно проиллюстрированы процессы систематизации, изложены виды 
анализа, методы и способы практического применения в разных сферах деятельности. 
Для обучающихся по направлениям подготовки 09.03.01 «Информатика и вычислительная техника», 09.03.02 «Информационные системы и технологии», 09.03.03 
«Прикладная информатика», 09.02.03 «Программирование в компьютерных системах», 09.03.04 «Программная инженерия», 38.03.05 «Бизнес-информатика». 
 
УДК 004.62 
ББК 32.972.1 
 
 
 
 
 
 
ISBN 978-5-9729-2120-1 
© Параскевов А. В., Сергеев А. Э., 2024 
 
© Издательство «Инфра-Инженерия», 2024 
 
© Оформление. Издательство «Инфра-Инженерия», 2024 
2 


ВВЕДЕНИЕ 
 
В процессе изучения курса «Большие данные» студенты будут ознакомлены с математическими методами и моделями, которые применяются в системах обработки и анализа больших данных для поддержки принятия решений. 
Материалы учебника направлены на формирование теоретических и методологических основ в области анализа неструктурированной информации, а также на 
приобретение практических навыков использования алгоритмов интеллектуального анализа данных и проведения сравнительного анализа основных моделей.  
Проблема геометрического роста объемов хранимых данных вызывает 
интерес уже на протяжении полутора столетий. Аналитические источники сообщают о постоянном увеличении объемов данных, но только за последние годдва концепция «больших данных» стала широко обсуждаться на IT-рынке. Появление этой концепции связано с осознанием необходимости качественных изменений в подходах к хранению и использованию растущих объемов информации. Традиционный метод простого увеличения ресурсов и мощностей уже неэффективен. Несмотря на постоянное снижение стоимости хранения данных, 
заказчики отмечают, что затраты на хранение продолжают расти. Взрывной 
рост объема информации не обусловлен увеличением числа деловых операций, 
а обусловлен неконтролируемыми процессами репликации данных. Поставщики устройств хранения отмечают, что сейчас основное внимание уделяется 
не физическому хранению данных, а их использованию. Хранение данных 
должно предоставлять возможность их использования в нужный момент.  
Тема «Большие данные» тесно связана с глобальным IT-трендом – широким внедрением облачных вычислений.  
Изучение данной дисциплины позволяет будущим специалистам развивать следующие навыки: способность определить задачи в рамках цели и выбрать оптимальные способы их решения с учетом правовых норм, доступных 
ресурсов и ограничений; умение эффективно управлять временем, строить путь 
саморазвития на основе принципов непрерывного образования и использовать 
современные информационные технологии и программное обеспечение, включая российское производство, при выполнении профессиональных задач.  
Учебник структурирован таким образом, что ключевые проблемы рассматриваются в историческом и современном контекстах, изложены принципы 
работы с большими данными и различные методы и способы их обработки. 
3 


ГЛАВА 1 
 
ГРУППИРОВКА ДАННЫХ 
 
Большие данные (big data) представляют собой данные огромных объемов и разнообразия, включая как структурированные, так и неструктурированные данные. Они также включают в себя методы их обработки, которые позволяют производить анализ информации в распределенных системах. Термин «big 
data» был введен в 2008 году редактором журнала Nature по имени Клиффорд 
Линч. Он отметил взрывной рост объемов мировой информации и осознание 
необходимости использования новых инструментов и технологий для ее освоения. Когда говорят о больших данных, имеется в виду не только значительное 
количество данных, но и методы их обработки. 
В конце 2000-х годов появились масштабируемые программные инструменты, которые стали альтернативой традиционным базам данных. Они позволили проводить анализ больших данных с целью получения новой, ранее неизвестной информации (см. таблица 1). Подобные открытия часто называют «инсайтами», что означает «озарение, догадку, внезапное понимание». 
 
Таблица 1 
Разница подходов 
Традиционная аналитика 
Big Data аналитика 
Постепенный анализ небольших  
пакетов данных 
Обработка сразу всего массива  
доступных данных 
Редакция и сортировка данных  
перед обработкой 
Данные обрабатываются  
в их исходном виде 
Старт с гипотезы и ее тестирования 
относительно данных 
Поиск корреляций по всем данным  
до получения искомой информации 
Данные собираются,  
обрабатываются, хранятся  
и лишь затем анализируются 
Анализ и обработка больших данных  
в реальном времени, по мере  
поступления 
 
Термин «большие данные» относится к управлению и анализу больших 
объемов данных. Согласно отчету McKinsey Institute, большие данные – новый 
рубеж для инноваций, конкуренции и производительности («Big Data: The next 
frontier for innovation, competition and productivity»). Этот термин принадлежит к 
наборам данных, чей размер превосходит возможности типичных баз данных 
(БД) по занесению, хранению, управлению и анализу информации. И мировые 
репозитарии данных, безусловно, продолжают расти. В представленном в середине 2011 г. отчете аналитической компании IDC «Исследование цифровой вселенной» (Digital Universe Study), подготовку которого спонсировала компания 
4 


EMC, предсказывалось, что общий мировой объем созданных и реплицированных данных в 2011 г. может составить около 1,8 зеттабайта (1,8 трлн гигабайт) – 
примерно в 9 раз больше того, что было создано в 2006 г. 
Анализ больших данных предполагает обработку обширных объемов 
информации. Большая их часть представлена в формате, не соответствующем 
традиционному структурированному формату БД, – это веб-журналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные. Все это хранится во множестве разнообразных хранилищ, иногда 
даже за пределами организации. Корпорации могут иметь доступ к огромному 
объему своих данных и не иметь необходимых инструментов, чтобы установить 
взаимосвязи между ними и сделать на их основе значимые выводы. Данные в 
настоящее время обновляются все чаще и чаще, и складывается ситуация, в которой традиционные методы анализа информации не могут угнаться за огромными объемами постоянно обновляемых данных, что в итоге и открывает дорогу технологиям больших данных. 
Понятие «большие данные» подразумевает работу с информацией колоссального объема и разнообразного состава, весьма часто обновляемой и 
находящейся в различных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности. Консалтинговая компания «Forrester» считает, что «большие данные объединяют 
техники и технологии, которые извлекают смысл из данных на экстремальном 
пределе практичности». Вследствие чего источниками больших данных могут 
быть: 
− интернет: соцсети, блоги, СМИ, форумы, сайты, интернет вещей 
(Internet of Things, IoT); 
− корпоративная информация: транзакции, архивы, базы данных и файловые хранилища; 
− показания приборов: датчиков, сенсоров, регистраторов. 
Для получения рабочей гипотезы о причинах возникновения конкретных 
ситуаций (связь отказа оборудования с условиями подачи напряжения) или прогнозирования будущего (вероятность своевременного возврата кредита частным заемщиком), анализ больших объемов структурированной и неструктурированной информации выполняется в несколько этапов: 
− чистка данных (data cleaning) – поиск и исправление ошибок в первичном наборе информации, например, ошибки ручного ввода (опечатки), некорректные значения с измерительных приборов из-за кратковременных сбоев 
и т. д.; 
− генерация предикторов (feature engineering) – переменных для построения аналитических моделей, например, образование, стаж работы, пол и возраст потенциального заемщика; 
− построение и обучение аналитической модели (model selection) для 
предсказания целевой (таргетной) переменной. Так проверяются гипотезы о за5 


висимости таргетной переменной от предикторов. Например, сколько дней составляет просрочка по кредиту для заемщика со средним образованием и стажем работы менее 3 мес. 
Методы и способы обработки Big Data. 
Какие основные методы сбора и анализа больших данных входят в этот 
список? 
Одно из направлений деятельности DataMining – это обучение ассоциативным правилам, классификация, кластерный и регрессионный анализ. 
Ключевые слова:  
– краудсорсинг – процесс категоризации и обогащения данных, осуществляемый за счет добровольного участия сторонних лиц; 
− объединение и соединение различных данных, таких как цифровая обработка сигналов и использование естественного языка; 
Механизмы машинного обучения включают в себя искусственные 
нейронные сети, сетевые методы оптимизации и генетические алгоритмы. 
− распознавание образцов; 
− предсказательная аналитика; 
− имитация моделирования; 
− статистический анализ и пространственный анализ. 
Вы можете увидеть различные виды визуализации аналитических данных: это могут быть рисунки, графики, диаграммы, таблицы. 
При внедрении технологий промышленного интернета вещей, на промышленных предприятиях создаются большие данные. Этот процесс включает 
в себя снабжение основных узлов и деталей станков и машин датчиками, исполнительными устройствами, контроллерами и иногда сравнительно дешевыми процессорами, которые могут производить граничные (туманные) вычисления. Также осуществляется постоянный сбор данных и их предварительная 
обработка (например, фильтрация). Наиболее эффективные аналитические 
платформы обрабатывают эти массивы данных в режиме реального времени, 
предоставляют результаты в наиболее понятном и удобном для восприятия 
виде и сохраняют их для дальнейшего использования. Из анализа полученных 
данных делаются выводы о состоянии оборудования, его работоспособности и 
качестве выпускаемой продукции. В случае необходимости внесения изменений в технологические процессы, делается вывод о возможности проведения 
соответствующих исследований и т. д. 
С помощью мониторинга информации, проводимого в режиме реального 
времени, сотрудники предприятия могут: уменьшать количество простоев и повышать производительность оборудования; снижать затраты на обслуживание 
оборудования; предотвращать несчастные случаи. 
Это является наиболее важным. Для примера: в среднем, операторы, работающие на предприятиях нефтехимической промышленности, получают в 
среднем около 1500 аварийных сообщений ежедневно, что составляет более одного сообщения в минуту. Данное обстоятельство способствует повышенной 
усталости специалистов, которым приходится принимать быстрые решения, 
6 


позволяющие быстро реагировать на поступающие сигналы. Однако, аналитическая платформа имеет возможность отсеивать ненужную информацию, и тогда операторы получают возможность сконцентрироваться в первую очередь на 
наиболее важных ситуациях. Данное свойство дает им возможность выявлять и 
предотвращать аварии и, вероятно, несчастные случаи. По итогу, будут повышены значения надежности производства, промышленной безопасности и готовности технологического оборудования, отвечающего нормативным требованиям. 
Существуют различные функции и задачи, которые требуют больших 
данных. 
Данные Big Data имеют ряд определяющих признаков или свойств, которые можно назвать правилом VVV. 
− Данные измеряются по размеру физического объема документов. 
− Данные постоянно обновляются, что требует их постоянной обработки, поэтому они имеют высокую скорость. 
− Вариации (variety) – это разнообразие данных, которые могут иметь 
различные форматы, быть неструктурированными или же структурированными 
частично. 
В России Big Data понимается как совокупность технологий обработки, 
а в мире это только сам объект исследования (таблица 2). 
 
Таблица 2 
Соотнесение задач и функций Big Data 
Функция 
Задача 
Big Data – собственно массивы  
необработанных данных 
Хранение и управление большими  
объемами постоянно обновляющейся 
информации 
Data mining – процесс обработки  
и структуризации данных,  
этап аналитики для выявления  
закономерностей 
Структурирование разнообразных  
сведений, поиск скрытых  
и неочевидных связей для приведения 
к единому знаменателю 
Аналитика и прогнозирование  
на основе обработанной  
и структурированной информации 
Machine learning – процесс  
машинного обучения на основе  
обнаруженных связей в процессе  
анализа 
 
Новый тип машинного обучения, получивший название Deep Learning 
(«Глубокое обучение»), стал широко распространен в 2007 году. В нем содержится возможность дальнейшего совершенствования нейронных сетей, вплоть 
до уровня ограниченного искусственного интеллекта. 
7 


Компьютер, используя методы обычного машинного обучения, извлекал 
опыт из опыта программиста. В случае использования метода Deep Learning система самостоятельно производит многоуровневые вычисления и делает выводы. 
Основные принципы и парадигма Map Reduce для работы с большими 
данными. 
Внимание привлекают три аспекта, относящиеся к большим данным: основные подходы к работе с данными, инструменты и примеры решения конкретных задач. 
Относительно недавно появился термин Big Data. Гугл Тренды показывают рост популярности словосочетания с 2011 года (рисунок 1). 
Большие данные – серия подходов, инструментов и методов обработки 
структурированных и неструктурированных данных огромных объемов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х, 
альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence. 
Business Intelligence (BI) – термин, обозначающий совокупность методов 
и инструментов, которые используются в организациях для обработки транзакционных данных в человеко-читаемую форму, а также средства для распространения информации с таким результатом. 
В основе целей BI лежит способность интерпретировать большое количество информации, обращая внимание только на ключевые факторы эффективности. Это позволяет моделировать различные варианты развития событий, 
а также отслеживать эффективность принимаемых решений. 
При рассмотрении Big Data, под этим термином подразумевается не 
только объем данных, но и способы их обработки, позволяющие эффективно 
обрабатывать информацию. Такие подходы подходят для больших и маленьких 
массивов данных. 
Принципы, позволяющие работать с большими данными. 
Благодаря определению Big Data, можно сделать вывод о том, что основные принципы работы с такими данными заключаются в следующем: 
1. Показатель горизонтальной масштабируемости имеет ряд особенностей. Данная система должна расширяться, если она предполагает обработку 
больших массивов данных. Данные были увеличены в 2 раза, а количество железа в кластере увеличилось в 2 раза. В результате этого все работало. 
2. В качестве второго параметра можно отметить отказоустойчивость. 
На практике, в кластере может быть много машин. Это обусловлено принципом 
горизонтальной масштабируемости. Я хочу отметить, что в кластере машин 
Hadoop Yahoo насчитывается более 42000 единиц. 
 
8 


Рисунок 1 – Динамика популярности запросов во всемирной сети 
 


Hadoop является свободно распространяемой библиотекой, включающей в себя множество утилит и фреймворков, необходимых для создания и выполнения распределенных программ, которые могут быть использованы на 
больших кластерах, состоящих из сотен и тысяч узлов. Для того, чтобы реализовать поисковые и контекстные механизмы для некоторых высоконагруженных веб-сайтов, используется данный инструмент. В рамках вычислительной 
системы Map Reduce разработан на Java. 
Представленная компанией Google, модель распределенных вычислений 
Map Reduce применяется для проведения параллельных вычислений над очень 
большими, иногда превышающими несколько петабайт, объемами данных в 
компьютерных кластерах. 
Это означает то, что некоторые из этих машин будут иметь возможность 
сломаться в любой момент. Методы обработки больших данных должны принимать во внимание возможность возникновения сбоев и уметь с ними справиться без негативных последствий. 
3. Место нахождения данных. Данные в больших распределенных системах находятся в больших количествах машин, что позволяет распределить их 
по большему количеству компьютеров. В том случае, если данные физически 
находятся на одном сервере с обработкой данных в другом месте, затраты на 
передачу данных могут превысить затраты на саму обработку. В связи с этим 
важным принципом проектирования Big Data-решений, является правило локализации данных – мы стараемся максимально обрабатывать информацию на той 
же машине, где она была создана. 
В настоящее время практически все современные средства обработки 
больших данных руководствуются этими тремя принципами. Для того, чтобы 
это осуществить, необходимо разрабатывать какие-то методы, способы и подходы к созданию средств разработки данных. 
По мнению Map Reduce, эти данные представляют собой совокупность 
отдельных записей. Проведение обработки данных делится на три этапа (рисунок 2). 
1. Стартовая позиция Map. Данные, которые находятся на данной стадии, обрабатываются с помощью функции map(), которую определяет пользователь. В этой стадии осуществляется обработка и фильтрация информации, которая относится к каждой входящей записи. Пользовательская функция применяется ко всем записям, которые имеют отношение к данной стадии. 
С помощью функции map(), которая применяется к одной входящей записи, можно получить множество пар ключей-значений. Она может выдавать 
только одну запись или же несколько пар, или же ни одной записи. О том, что 
будет находится в ключевом значении и ключе, следует решать пользователю. 
Ключевой элемент является очень важным для того, чтобы данные, связанные 
с одним ключом, были объединены в единый экземпляр функции reduce. 
2. В отличие от предыдущих случаев, стадия Shuffle не видна для пользователя. Эта стадия является начальной для вывода функции map. Она состоит 
из нескольких корзин, в каждой из которых содержится один ключ вывода.  
В дальнейшем эти корзины будут служить входом для reduce. 
10