Постреляционные хранилища данных
Покупка
Тематика:
Проектирование баз и банков данных
Издательство:
Издательство Уральского университета
Автор:
Парфенов Юрий Павлович
Год издания: 2016
Кол-во страниц: 120
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-7996-1827-8
Артикул: 799085.01.99
Учебное пособие предназначено для подготовки магистрантов по направлению «Информатика и вычислительная техника» по профилям «Информационно-управляющие системы» и «Компьютерный анализ и интерпретация данных». В пособии рассматриваются требования к хранилищам данных в условиях информационной глобализации. Приводятся классификация новых типов хранилищ, характеристика используемых моделей данных и методов их обработки. Дается описание приемов работы с объектно-реляционными и NoSQL базами данных. Рассматриваются методы и средства хранения и обработки больших данных.
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Министерство образования и науки Российской Федерации Уральский федеральный университет имени первого Президента России Б. Н. Ельцина Ю. П. Парфёнов Постреляционные хранилища данных Учебное пособие Рекомендовано методическим советом УрФУ для студентов, обучающихся по программе магистратуры по направлению подготовки «Информатика и вычислительная техника» Екатеринбург Издательство Уральского университета 2016
УДК 004.65(075.8) ББК 32.973я73 П18 Рецензенты: кафедра математики и естественно-научных дисциплин Уральского института экономики, управления и права (завкафедрой канд. физ.-мат. наук, доц. С. П. Трофимов); руководитель проекта в УБРиР канд. экон. наук Н. А. Бегунов Научный редактор — канд. пед. наук, доц. Н. В. Папуловская Парфенов, Ю. П. П18 Постреляционные хранилища данных : учеб. пособие / Ю. П. Парфенов. — Екатеринбург : Изд-во Урал. ун-та, 2016. — 120 с. ISBN 978-5-7996-1827-8 Учебное пособие предназначено для подготовки магистрантов по направлению «Информатика и вычислительная техника» по профилям «Информационно-управляющие системы» и «Компьютерный анализ и интерпретация данных». В пособии рассматриваются требования к хранилищам данных в условиях информационной глобализации. Приводятся классификация новых типов хранилищ, характеристика используемых моделей данных и методов их обработки. Дается описание приемов работы с объектно-реляционными и NoSQL базами данных. Рассматриваются методы и средства хранения и обработки больших данных. Библиогр.: 21 назв. Табл. 4. Рис. 31. УДК 004.65(075.8) ББК 32.973я73 Учебное издание Парфёнов Юрий Павлович ПОСТРЕЛЯЦИОННЫЕ ХРАНИЛИЩА ДАННЫХ Подписано в печать 04.10.2016. Формат 60×84/16. Бумага писчая. Печать цифровая. Гарнитура Newton. Уч.-изд. л. 5,4. Усл. печ. л. 7,0. Тираж 50 экз. Заказ 334 Издательство Уральского университета Редакционно-издательский отдел ИПЦ УрФУ 620049, Екатеринбург, ул. С. Ковалевской, 5. Тел.: 8(343)375-48-25, 375-46-85, 374-19-41. E-mail: rio@urfu.ru Отпечатано в Издательско-полиграфическом центре УрФУ 620075, Екатеринбург, ул. Тургенева, 4. Тел.: 8(343) 350-56-64, 350-90-13. Факс: 8(343) 358-93-06 ISBN 978-5-7996-1827-8 © Уральский федеральный университет, 2016
Оглавление Основные сокращения .........................................................................4 1. Условия появления новых типов хранилищ данных ...........................5 1.1. Рост объема информации — реалии цифровой вселенной ..........5 1.2. Недостатки традиционных хранилищ данных .............................7 1.3. Новые источники и области применения хранилищ данных .... 10 2. Классификация постреляционных хранилищ .................................. 12 3. Объектно-ориентированные СУБД ................................................. 16 4. Объектно-реляционные БД ............................................................. 25 4.1. Коллекции в базе Oracle .............................................................. 25 4.2. Объекты в БД Oracle .................................................................... 33 5. Документная база данных MongoDB ............................................... 49 5.1. Модель данных в MongoDB ........................................................ 50 5.2. Конфигурирование и запуск MongoDB в среде Windows .......... 54 5.3. Средства для работы с базой данных под управлением MongoDB ..................................................................................... 56 5.4. Работа с базой в консоли Mongo ................................................. 58 5.5. Селекторы в MongoDB ................................................................ 65 5.6. Удаление документов................................................................... 70 5.7. Изменение документов ................................................................ 71 5.8. Добавление или замена документа в коллекции — метод save .... 74 5.9. Использование переменных в скриптах обработки коллекций .... 74 5.10. Группировка документов коллекции ........................................ 76 5.11. Конвейерная обработка документов коллекции ...................... 78 5.12. Хранимые функции базы MongoDB ......................................... 87 5.13. Создание и использование ссылок в базе MongoDB ................ 89 6. Большие данные .............................................................................. 96 7. Распределенные файловые системы .............................................. 100 7.1. Hadoop Distributed File System (HDFS) ..................................... 101 8. Технология MapReduce ................................................................. 105 8.1. Архитектура Hadoop MapReduce ............................................... 109 8.2. Преимущества и недостатки Hadoop MapReduce .................... 110 8.3. Реализация Map/Reduce в MongoDB ........................................ 111 Список библиографических ссылок ................................................... 119
Основные сокращения HDFS – Hadoop Distributed File System HDMR – Hadoop MapReduce JSON – JavaScript Object Notation NoSQL – Not Only SQL ODMG – Object Data Management Group БД – база данных ИС – информационная система ИТ – информационные технологии КИС – корпоративная информационная система ООБД – объектно-ориентированная база данных РБД – реляционная база данных РФС – распределенная файловая система СУБД – система управления базой данных ХД – хранилище данных
1. Условия появления новых типов хранилищ данных 1.1. Рост объема информации — реалии цифровой вселенной Н еобычайное влияние ИТ на все сферы жизни общества начиная с последней четверти ХХ века породило метафору «информационная революция». Современная (с 2000 г.) пятая, следующая за письменностью, книгопечатанием, телефонией и радиосвязью, ЭВМ и персональными компьютерами, революция объединяет и синергически усиливает эффекты предшествующих изобретений и технических решений в области хранения, передачи и обработки информации. Современные информационные технологии и Интернет обеспечивают автоматическое накопление и обмен информацией как в масштабах отдельного человека, компании, так и всего человечества. Доступ ко всей массе накапливаемых данных и возможность ее автоматизированной обработки меняет стиль жизни в информационном обществе, умножает его интеллектуальные способности. Стремительное увеличение числа источников, создающих цифровые данные, приводит к взрывному росту объема накапливаемой в мире информации и создает новые проблемы ее хранения и обработки. По оценкам компании Linxdatacenter, с одной стороны, наблюдается стремительный рост объема корпоративных данных и их ценности для принятия решений. С другой стороны, этот рост вызывает усложнение задач построения эффектив
1. Условия появления новых типов хранилищ данных ной и безопасной ИТ-среды для хранения, передачи и обработки данных. Процент информации, нуждающейся в защите, неуклонно растет, в то же время уровень защиты данных остается недостаточным. Согласно прогнозу аналитической компании Gartner [1], в период с 2011 по 2016 гг. финансовый ущерб от киберпреступлений ежегодно будет увеличиваться. Корпоративная информация составляет только часть накапливаемых в мире данных. Повсеместное распространение Интернета привело к удвоению объема информации за период 2012–2013 гг. Объем сгенерированных данных в 2012 г. оценивается в 2,8 зеттабайта и прогнозируется до 40 зеттабайт к 2020 г. На сегодняшний день только в России [2] накоплено 155 экзабайт или 2,4 % мировых данных. И в ближайшие семь лет эта доля сохранится. При этом эксперты IDC (International Data Corporation) считают, что сегодняшних хранилищ хватит лишь для 15 % данных [3]. Однако это приемлемо, так как большая часть данных используется краткосрочно и не требует длительного хранения. Прогнозные исследования в 2012 г. показывают, что объемы информации будут удваиваться каждые два года в течение следующих восьми лет и к 2020 г. их объем должен увеличиться в 15 раз. Одним из основных факторов этого роста является увеличение доли автоматически генерируемых данных: с 11 % от общего объема в 2005 г. до более 40 % в 2020 г. Большие объемы полезных данных создаются с систем видеонаблюдения, встроенных в оборудование, медицинских систем, информации с компьютеров, смартфонов, бытовой электроники. По оценкам IDC, количество устройств в мире, которые можно подключить к Интернету, приближается к 200 млрд, из которых 14 млрд, или 7 %, уже подключены и активно передают данные. На сегодняшний день данные от таких устройств составляют 2 % от мирового объема информации. Согласно прогнозам IDC, к 2020 г. уже 32 млрд подключенных устройств будут генерировать 10 % общего объема данных во всем мире. Объем информации об отдельно взятом пользователе, хранящейся
1.2. Недостатки традиционных хранилищ данных в цифровой вселенной, станет существенно больше, чем объем данных, создаваемых этим пользователем. Причем большая часть накапливаемой информации плохо защищена. В 2010 г. в защите нуждалось менее трети информации, а к 2020 г. доля такой информации может превысить 40 %. По прогнозам [4], инвестиции в IT-инфраструктуру цифровой вселенной (оборудование, телекоммуникации, хранение и управление информацией и персонал) в период с 2012 по 2020 г. вырастут на 40 %. Причем инвестиции в хранение и защиту информации, обработку «больших данных» (Big Data) и облачные технологии будут расти значительно быстрее. Большие данные диктуют новые взаимосвязанные принципы обработки информации [5]. Первый — это способность анализировать все данные, а не довольствоваться их частью или статистическими выборками. Второй — готовность иметь дело с неупорядоченными данными в ущерб точности. Третий — изменение образа мыслей: доверять корреляциям, а не гнаться за труднодостижимым поиском причинно-следственных зависимостей. Существенно и то, что на сегодняшний день используется менее 3 % из 23 % потенциально полезных данных, которые могли бы найти применение с технологиями Big Data. Беспрецедентный рост информации в мире, необходимость хранения и обработки всей массы накопленных данных требует создания хранилищ, построенных на новых технических средствах, использующих новые модели и методы эффективной обработки данных. 1.2. Недостатки традиционных хранилищ данных Традиционные системы управления базами данных (СУБД) предназначались для создания и использования информационных моделей — корпоративных баз данных (БД) в конкретных сферах деятельности.
1. Условия появления новых типов хранилищ данных Корпоративные (закрытые) информационные и автоматизированные системы определили условия эксплуатации и требования к их БД: · предопределенный и ограниченный круг пользователей с фиксированными функциями и правами, а следовательно, относительно определенная и устойчивая структура (схема) данных; · равномерный рост общего объема данных с малоизменяющимся объемом оперативных данных; · необходимость независимого совместного доступа (изменения) к данным, обусловившая создание моделей транзакционной обработки БД; · эффективная работа в реальном времени. Средства реализации корпоративных информационных систем (КИС), использующие современные серверы баз данных, обеспечивают сформулированные в теореме CAP (теореме Брюера) фундаментальные требования к хранению данных: · Consistency — согласованность, понимаемая как целостность по ограничениям; · Avaliability — доступность данных; · Partition Tollerance — распределение БД по физическим узлам (стабильная работа при линейно растущем объеме). Наилучшим решением для корпоративной информационной системы оказались многопользовательские централизованные и распределенные базы на основе строго типизированной реляционной модели с транзакционной обработкой данных. Однако общие тенденции в глобализации производства, электронной коммерции и информатизации общества формулируют новые требования и стимулируют развитие информационных систем: · создание новых моделей данных, не требующих строго фиксированной структуры; · использование парадигмы объектно-ориентированного программирования в СУБД;
1.2. Недостатки традиционных хранилищ данных · расширение круга пользователей с выходом КИС в глобальное информационное пространство с допуском в систему внешних пользователей (поставщиков, потребителей, операторов управления логистикой продукции), работающих с базами данных через WEB-приложения; · использование содержания запросов и постов в социальных сетях в задачах анализа и прогнозирования деятельности компании. Новые требования к информационным системам выявили недостатки используемых в них реляционных СУБД: 1. Строгая типизация, приводящая к несоответствию структуры БД структуре данных реального объекта. Для хранения в реляционной базе данные одного информационного объекта должны быть декомпозированы и распределены по множеству равноценных нормализованных таблиц. 2. Атомарность (единственность и неделимость) данных не адекватно представляет множественные свойства и групповые данные. 3. Статичность данных. Серверы реляционных баз данных (РБД) не имеют специальных средств для представления истории изменения данных. 4. Отдельное от информационного объекта хранение и выполнение его собственных действий. Поведение объекта в РБД описывается в виде хранимых в базе функций, процедур и триггеров, не принадлежащих информационному объекту. 5. Плохая масштабируемость, вызывающая стремительное падение производительности при росте объема данных и количества используемых в запросах соединений (JOIN) таблиц. 6. Неустойчивость к отказам оборудования. При наличии существенных недостатков необходимо помнить и учитывать достоинства реляционной модели данных, обусловливающие ее продолжающееся использование в КИС: · наглядность исходного табличного представления данных и результатов запросов;
1. Условия появления новых типов хранилищ данных · реляционная полнота языка SQL-запросов, расширенная мощными средствами обработки данных; · независимость запросов от физической структуры данных (наличия указателей и связей) — возможность построить любой новый запрос без изменений и дополнений в структуре БД. 1.3. Новые источники и области применения хранилищ данных Развитие функционала в Интернете открыло новые области, требующие хранения и анализа данных: · массовое размещение и распространение данных и знаний (научно-технических, новостных, экономических, транспортных); · электронная коммерция — компьютеризированная технология продаж: оповещение, привлечение покупателя, анализ приобретений, программы лояльности к клиенту, направленные на удовлетворение спроса, развитие производства и удержание клиента; · информационное взаимодействие общества и государства (предоставление госуслуг); · социальные сети — средство информационного взаимодействия индивидуумов и групп; · системы связи — БД биллинговых систем операторов связи. Массивы информации, генерируемой или размещаемой в сети Интернет, предполагают новые задачи и технологии обработки данных: · новые типы запросов, использующие смысловые отношения, привели к появлению семантического WEBа, основанного на знаниях, размещаемых в сети Интернет;