Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Постреляционные хранилища данных

Покупка
Артикул: 799085.01.99
Доступ онлайн
350 ₽
В корзину
Учебное пособие предназначено для подготовки магистрантов по направлению «Информатика и вычислительная техника» по профилям «Информационно-управляющие системы» и «Компьютерный анализ и интерпретация данных». В пособии рассматриваются требования к хранилищам данных в условиях информационной глобализации. Приводятся классификация новых типов хранилищ, характеристика используемых моделей данных и методов их обработки. Дается описание приемов работы с объектно-реляционными и NoSQL базами данных. Рассматриваются методы и средства хранения и обработки больших данных.
Парфенов, Ю. П. Постреляционные хранилища данных : учебное пособие / Ю. П. Парфенов. - Екатеринбург : Изд-во Уральского ун-та, 2016. - 120 с. - ISBN 978-5-7996-1827-8. - Текст : электронный. - URL: https://znanium.com/catalog/product/1936340 (дата обращения: 27.07.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Министерство образования и науки Российской Федерации
Уральский федеральный университет
имени первого Президента России Б. Н. Ельцина

Ю. П. Парфёнов

Постреляционные
хранилища данных

Учебное пособие

Рекомендовано 
методическим советом УрФУ для студентов, 
обучающихся по программе магистратуры 
по направлению подготовки «Информатика 
и вычислительная техника»

Екатеринбург
Издательство Уральского университета
2016

УДК 004.65(075.8)
ББК 32.973я73
          П18
Рецензенты:
кафедра математики и естественно-научных дисциплин Уральского института экономики, управления и права (завкафедрой канд. 
физ.-мат. наук, доц. С. П. Трофимов);
руководитель проекта в УБРиР канд. экон. наук Н. А. Бегунов
Научный редактор — канд. пед. наук, доц. Н. В. Папуловская

 
Парфенов, Ю. П.
П18    Постреляционные хранилища данных : учеб. пособие / Ю. П. Парфенов. — Екатеринбург : Изд-во Урал. ун-та, 2016. — 120 с.

ISBN 978-5-7996-1827-8

Учебное пособие предназначено для подготовки магистрантов по направлению «Информатика и вычислительная техника» по профилям «Информационно-управляющие системы» и «Компьютерный анализ и интерпретация данных». В пособии рассматриваются требования к хранилищам 
данных в условиях информационной глобализации. Приводятся классификация новых типов хранилищ, характеристика используемых моделей 
данных и методов их обработки. Дается описание приемов работы с объектно-реляционными и NoSQL базами данных. Рассматриваются методы 
и средства хранения и обработки больших данных.
Библиогр.: 21 назв. Табл. 4. Рис. 31.

УДК 004.65(075.8)
ББК 32.973я73

Учебное издание

Парфёнов Юрий Павлович

ПОСТРЕЛЯЦИОННЫЕ ХРАНИЛИЩА ДАННЫХ

Подписано в печать 04.10.2016. Формат 60×84/16. Бумага писчая. Печать цифровая. 
Гарнитура Newton. Уч.-изд. л. 5,4. Усл. печ. л. 7,0. Тираж 50 экз. Заказ 334

Издательство Уральского университета 
Редакционно-издательский отдел ИПЦ УрФУ
620049, Екатеринбург, ул. С. Ковалевской, 5. Тел.: 8(343)375-48-25, 375-46-85, 374-19-41. 
E-mail: rio@urfu.ru

Отпечатано в Издательско-полиграфическом центре УрФУ
620075, Екатеринбург, ул. Тургенева, 4. Тел.: 8(343) 350-56-64, 350-90-13. Факс: 8(343) 358-93-06

ISBN 978-5-7996-1827-8 
© Уральский федеральный
 
     университет, 2016

Оглавление

Основные сокращения .........................................................................4

1. Условия появления новых типов хранилищ данных ...........................5
1.1. Рост объема информации — реалии цифровой вселенной ..........5
1.2. Недостатки традиционных хранилищ данных .............................7
1.3. Новые источники и области применения хранилищ данных .... 10

2. Классификация постреляционных хранилищ .................................. 12

3. Объектно-ориентированные СУБД ................................................. 16

4. Объектно-реляционные БД ............................................................. 25
4.1. Коллекции в базе Oracle .............................................................. 25
4.2. Объекты в БД Oracle .................................................................... 33

5. Документная база данных MongoDB ............................................... 49
5.1. Модель данных в MongoDB ........................................................ 50
5.2. Конфигурирование и запуск MongoDB в среде Windows .......... 54
5.3. Средства для работы с базой данных под управлением 
        MongoDB ..................................................................................... 56
5.4. Работа с базой в консоли Mongo ................................................. 58
5.5. Селекторы в MongoDB ................................................................ 65
5.6. Удаление документов................................................................... 70
5.7. Изменение документов ................................................................ 71
5.8. Добавление или замена документа в коллекции — метод save .... 74
5.9. Использование переменных в скриптах обработки коллекций .... 74
5.10. Группировка документов коллекции ........................................ 76
5.11. Конвейерная обработка документов коллекции ...................... 78
5.12. Хранимые функции базы MongoDB ......................................... 87
5.13. Создание и использование ссылок в базе MongoDB ................ 89

6. Большие данные .............................................................................. 96

7. Распределенные файловые системы .............................................. 100
7.1. Hadoop Distributed File System (HDFS) ..................................... 101

8. Технология MapReduce ................................................................. 105
8.1. Архитектура Hadoop MapReduce ............................................... 109
8.2. Преимущества и недостатки Hadoop MapReduce .................... 110
8.3. Реализация Map/Reduce в MongoDB ........................................ 111

Список библиографических ссылок ................................................... 119

Основные сокращения

HDFS 
– Hadoop Distributed File System
HDMR  
– Hadoop MapReduce
JSON  
– JavaScript Object Notation
NoSQL 
– Not Only SQL
ODMG 
– Object Data Management Group
БД  
– база данных
ИС  
– информационная система
ИТ  
– информационные технологии
КИС 
– корпоративная информационная система
ООБД 
– объектно-ориентированная база данных
РБД 
– реляционная база данных
РФС 
– распределенная файловая система
СУБД 
– система управления базой данных
ХД   
– хранилище данных

1. Условия появления  
новых типов хранилищ данных

1.1. Рост объема информации — реалии цифровой вселенной
Н

еобычайное влияние ИТ на все сферы жизни общества начиная с последней четверти ХХ века породило 
метафору «информационная революция». Современная (с 2000 г.) пятая, следующая за письменностью, книгопечатанием, телефонией и радиосвязью, ЭВМ и персональными 
компьютерами, революция объединяет и синергически усиливает эффекты предшествующих изобретений и технических решений в области хранения, передачи и обработки информации. 
Современные информационные технологии и Интернет обеспечивают автоматическое накопление и обмен информацией как в масштабах отдельного человека, компании, так и всего человечества. Доступ ко всей массе накапливаемых данных 
и возможность ее автоматизированной обработки меняет стиль 
жизни в информационном обществе, умножает его интеллектуальные способности. Стремительное увеличение числа источников, создающих цифровые данные, приводит к взрывному росту объема накапливаемой в мире информации и создает 
новые проблемы ее хранения и обработки.
По оценкам компании Linxdatacenter, с одной стороны, наблюдается стремительный рост объема корпоративных данных и их ценности для принятия решений. С другой стороны, 
этот рост вызывает усложнение задач построения эффектив
1. Условия появления новых типов хранилищ данных 

ной и безопасной ИТ-среды для хранения, передачи и обработки данных. Процент информации, нуждающейся в защите, 
неуклонно растет, в то же время уровень защиты данных остается недостаточным. Согласно прогнозу аналитической компании Gartner [1], в период с 2011 по 2016 гг. финансовый ущерб 
от киберпреступлений ежегодно будет увеличиваться. Корпоративная информация составляет только часть накапливаемых 
в мире данных. Повсеместное распространение Интернета привело к удвоению объема информации за период 2012–2013 гг. 
Объем сгенерированных данных в 2012 г. оценивается в 2,8 зеттабайта и прогнозируется до 40 зеттабайт к 2020 г. На сегодняшний день только в России [2] накоплено 155 экзабайт или 2,4 % 
мировых данных. И в ближайшие семь лет эта доля сохранится. 
При этом эксперты IDC (International Data Corporation) считают, что сегодняшних хранилищ хватит лишь для 15 % данных 
[3]. Однако это приемлемо, так как большая часть данных используется краткосрочно и не требует длительного хранения.
Прогнозные исследования в 2012 г. показывают, что объемы информации будут удваиваться каждые два года в течение 
следующих восьми лет и к 2020 г. их объем должен увеличиться в 15 раз. Одним из основных факторов этого роста является 
увеличение доли автоматически генерируемых данных: с 11 % 
от общего объема в 2005 г. до более 40 % в 2020 г. Большие объемы полезных данных создаются с систем видеонаблюдения, 
встроенных в оборудование, медицинских систем, информации 
с компьютеров, смартфонов, бытовой электроники. По оценкам IDC, количество устройств в мире, которые можно подключить к Интернету, приближается к 200 млрд, из которых 
14 млрд, или 7 %, уже подключены и активно передают данные. На сегодняшний день данные от таких устройств составляют 2 % от мирового объема информации. Согласно прогнозам IDC, к 2020 г. уже 32 млрд подключенных устройств будут 
генерировать 10 % общего объема данных во всем мире. Объем информации об отдельно взятом пользователе, хранящейся 

1.2. Недостатки традиционных хранилищ данных

в цифровой вселенной, станет существенно больше, чем объем данных, создаваемых этим пользователем. Причем большая 
часть накапливаемой информации плохо защищена. В 2010 г. 
в защите нуждалось менее трети информации, а к 2020 г. доля 
такой информации может превысить 40 %.
По прогнозам [4], инвестиции в IT-инфраструктуру цифровой 
вселенной (оборудование, телекоммуникации, хранение и управление информацией и персонал) в период с 2012 по 2020 г. вырастут на 40 %. Причем инвестиции в хранение и защиту информации, обработку «больших данных» (Big Data) и облачные 
технологии будут расти значительно быстрее. Большие данные 
диктуют новые взаимосвязанные принципы обработки информации [5]. Первый — это способность анализировать все данные, а не довольствоваться их частью или статистическими выборками. Второй — готовность иметь дело с неупорядоченными 
данными в ущерб точности. Третий — изменение образа мыслей: 
доверять корреляциям, а не гнаться за труднодостижимым поиском причинно-следственных зависимостей.
Существенно и то, что на сегодняшний день используется 
менее 3 % из 23 % потенциально полезных данных, которые могли бы найти применение с технологиями Big Data.
Беспрецедентный рост информации в мире, необходимость 
хранения и обработки всей массы накопленных данных требует создания хранилищ, построенных на новых технических 
средствах, использующих новые модели и методы эффективной обработки данных.

1.2. Недостатки традиционных хранилищ данных

Традиционные системы управления базами данных (СУБД) 
предназначались для создания и использования информационных моделей — корпоративных баз данных (БД) в конкретных 
сферах деятельности.

1. Условия появления новых типов хранилищ данных 

Корпоративные (закрытые) информационные и автоматизированные системы определили условия эксплуатации и требования к их БД:
· предопределенный и ограниченный круг пользователей 
с фиксированными функциями и правами, а следовательно, относительно определенная и устойчивая структура 
(схема) данных;
· равномерный рост общего объема данных с малоизменяющимся объемом оперативных данных;
· необходимость независимого совместного доступа (изменения) к данным, обусловившая создание моделей транзакционной обработки БД;
· эффективная работа в реальном времени.
Средства реализации корпоративных информационных систем (КИС), использующие современные серверы баз данных, 
обеспечивают сформулированные в теореме CAP (теореме Брюера) фундаментальные требования к хранению данных:
· Consistency — согласованность, понимаемая как целостность по ограничениям;
· Avaliability — доступность данных;
· Partition Tollerance — распределение БД по физическим 
узлам (стабильная работа при линейно растущем объеме).
Наилучшим решением для корпоративной информационной системы оказались многопользовательские централизованные и распределенные базы на основе строго типизированной 
реляционной модели с транзакционной обработкой данных.
Однако общие тенденции в глобализации производства, 
электронной коммерции и информатизации общества формулируют новые требования и стимулируют развитие информационных систем:
· создание новых моделей данных, не требующих строго 
фиксированной структуры;
· использование парадигмы объектно-ориентированного 
программирования в СУБД;

1.2. Недостатки традиционных хранилищ данных

· расширение круга пользователей с выходом КИС в глобальное информационное пространство с допуском в систему внешних пользователей (поставщиков, потребителей, операторов управления логистикой продукции), 
работающих с базами данных через WEB-приложения;
· использование содержания запросов и постов в социальных сетях в задачах анализа и прогнозирования деятельности компании.
Новые требования к информационным системам выявили 
недостатки используемых в них реляционных СУБД:

1. Строгая типизация, приводящая к несоответствию структуры БД структуре данных реального объекта. Для хранения 
в реляционной базе данные одного информационного объекта должны быть декомпозированы и распределены по множеству равноценных нормализованных таблиц.

2. Атомарность (единственность и неделимость) данных 
не адекватно представляет множественные свойства и групповые данные.

3. Статичность данных. Серверы реляционных баз данных 
(РБД) не имеют специальных средств для представления истории изменения данных.

4. Отдельное от информационного объекта хранение и выполнение его собственных действий. Поведение объекта в РБД 
описывается в виде хранимых в базе функций, процедур и триггеров, не принадлежащих информационному объекту.

5. Плохая масштабируемость, вызывающая стремительное 
падение производительности при росте объема данных и количества используемых в запросах соединений (JOIN) таблиц.

6. Неустойчивость к отказам оборудования.
При наличии существенных недостатков необходимо помнить и учитывать достоинства реляционной модели данных, 
обусловливающие ее продолжающееся использование в КИС:
· наглядность исходного табличного представления данных и результатов запросов;

1. Условия появления новых типов хранилищ данных 

· реляционная полнота языка SQL-запросов, расширенная 
мощными средствами обработки данных;
· независимость запросов от физической структуры данных (наличия указателей и связей) — возможность построить любой новый запрос без изменений и дополнений в структуре БД.

1.3. Новые источники и области применения хранилищ данных

Развитие функционала в Интернете открыло новые области, 
требующие хранения и анализа данных:
· массовое размещение и распространение данных и знаний (научно-технических, новостных, экономических, 
транспортных);
· электронная коммерция — компьютеризированная технология продаж: оповещение, привлечение покупателя, 
анализ приобретений, программы лояльности к клиенту, 
направленные на удовлетворение спроса, развитие производства и удержание клиента;
· информационное взаимодействие общества и государства 
(предоставление госуслуг);
· социальные сети — средство информационного взаимодействия индивидуумов и групп;
· системы связи — БД биллинговых систем операторов  
связи.
Массивы информации, генерируемой или размещаемой 
в сети Интернет, предполагают новые задачи и технологии обработки данных:
· новые типы запросов, использующие смысловые отношения, привели к появлению семантического WEBа, основанного на знаниях, размещаемых в сети Интернет;

1.3. Новые источники и области применения хранилищ данных

· исследования интересов общества (анализ содержания 
и частоты запросов к поисковым системам Интернета);
· анализ содержания сайтов.
Таким образом, новые (постреляционные) хранилища должны сочетать возможности хранения и данных, и знаний в быстро растущих объемах с новыми задачами обработки информации. В целом корпоративные информационные системы, 
Интернет и системы связи являются движущей силой в области создания новых систем хранения данных.
Новые области применения выдвигают и новые требования 
к хранилищам данных:
· не атомарность (множественность) и разнородность отдельных атрибутов хранимых объектов;
· разнообразие (не типизируемость) наборов и структур 
данных хранимых объектов;
· необходимость целостного представления разнородной, 
как декларативной, так и процедурной информации требует хранения в объекте базы не только данных, но и способов их обработки;
· нелинейный (взрывной) рост объемов хранимых данных.
Появление новых требований к объемам, составу и структуре данных в сочетании с требованиями отказоустойчивости, 
масштабируемости и эффективности стимулировало развитие 
хранилищ данных в направлении совершенствования моделей 
данных, создания средств распределенного хранения и массово 
параллельных структур для их обработки. В зависимости от значимости того или иного требования в информационной системе создавались хранилища, наилучшим образом соответствующие поставленной задаче. Современное состояние систем для 
хранения, доступа и обработки данных характеризуется разнообразием используемых моделей данных, средств для распределенного хранения и обработки во множестве узлов вычислительной сети.

Доступ онлайн
350 ₽
В корзину