Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Постреляционные хранилища данных

Покупка
Артикул: 799085.01.99
Доступ онлайн
350 ₽
В корзину
Учебное пособие предназначено для подготовки магистрантов по направлению «Информатика и вычислительная техника» по профилям «Информационно-управляющие системы» и «Компьютерный анализ и интерпретация данных». В пособии рассматриваются требования к хранилищам данных в условиях информационной глобализации. Приводятся классификация новых типов хранилищ, характеристика используемых моделей данных и методов их обработки. Дается описание приемов работы с объектно-реляционными и NoSQL базами данных. Рассматриваются методы и средства хранения и обработки больших данных.
Парфенов, Ю. П. Постреляционные хранилища данных : учебное пособие / Ю. П. Парфенов. - Екатеринбург : Изд-во Уральского ун-та, 2016. - 120 с. - ISBN 978-5-7996-1827-8. - Текст : электронный. - URL: https://znanium.com/catalog/product/1936340 (дата обращения: 12.04.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Министерство образования и науки Российской Федерации
Уральский федеральный университет
имени первого Президента России Б. Н. Ельцина

Ю. П. Парфёнов

Постреляционные
хранилища данных

Учебное пособие

Рекомендовано 
методическим советом УрФУ для студентов, 
обучающихся по программе магистратуры 
по направлению подготовки «Информатика 
и вычислительная техника»

Екатеринбург
Издательство Уральского университета
2016

УДК 004.65(075.8)
ББК 32.973я73
          П18
Рецензенты:
кафедра математики и естественно-научных дисциплин Уральско-
го института экономики, управления и права (завкафедрой канд. 
физ.-мат. наук, доц. С. П. Трофимов);
руководитель проекта в УБРиР канд. экон. наук Н. А. Бегунов
Научный редактор — канд. пед. наук, доц. Н. В. Папуловская

 
Парфенов, Ю. П.
П18    Постреляционные хранилища данных : учеб. пособие / Ю. П. Пар-
фенов. — Екатеринбург : Изд-во Урал. ун-та, 2016. — 120 с.

ISBN 978-5-7996-1827-8

Учебное пособие предназначено для подготовки магистрантов по на-
правлению «Информатика и вычислительная техника» по профилям «Ин-
формационно-управляющие системы» и «Компьютерный анализ и интер-
претация данных». В пособии рассматриваются требования к хранилищам 
данных в условиях информационной глобализации. Приводятся класси-
фикация новых типов хранилищ, характеристика используемых моделей 
данных и методов их обработки. Дается описание приемов работы с объ-
ектно-реляционными и NoSQL базами данных. Рассматриваются методы 
и средства хранения и обработки больших данных.
Библиогр.: 21 назв. Табл. 4. Рис. 31.

УДК 004.65(075.8)
ББК 32.973я73

Учебное издание

Парфёнов Юрий Павлович

ПОСТРЕЛЯЦИОННЫЕ ХРАНИЛИЩА ДАННЫХ

Подписано в печать 04.10.2016. Формат 60×84/16. Бумага писчая. Печать цифровая. 
Гарнитура Newton. Уч.-изд. л. 5,4. Усл. печ. л. 7,0. Тираж 50 экз. Заказ 334

Издательство Уральского университета 
Редакционно-издательский отдел ИПЦ УрФУ
620049, Екатеринбург, ул. С. Ковалевской, 5. Тел.: 8(343)375-48-25, 375-46-85, 374-19-41. 
E-mail: rio@urfu.ru

Отпечатано в Издательско-полиграфическом центре УрФУ
620075, Екатеринбург, ул. Тургенева, 4. Тел.: 8(343) 350-56-64, 350-90-13. Факс: 8(343) 358-93-06

ISBN 978-5-7996-1827-8 
© Уральский федеральный
 
     университет, 2016

Оглавление

Основные сокращения .........................................................................4

1. Условия появления новых типов хранилищ данных ...........................5
1.1. Рост объема информации — реалии цифровой вселенной ..........5
1.2. Недостатки традиционных хранилищ данных .............................7
1.3. Новые источники и области применения хранилищ данных .... 10

2. Классификация постреляционных хранилищ .................................. 12

3. Объектно-ориентированные СУБД ................................................. 16

4. Объектно-реляционные БД ............................................................. 25
4.1. Коллекции в базе Oracle .............................................................. 25
4.2. Объекты в БД Oracle .................................................................... 33

5. Документная база данных MongoDB ............................................... 49
5.1. Модель данных в MongoDB ........................................................ 50
5.2. Конфигурирование и запуск MongoDB в среде Windows .......... 54
5.3. Средства для работы с базой данных под управлением 
        MongoDB ..................................................................................... 56
5.4. Работа с базой в консоли Mongo ................................................. 58
5.5. Селекторы в MongoDB ................................................................ 65
5.6. Удаление документов................................................................... 70
5.7. Изменение документов ................................................................ 71
5.8. Добавление или замена документа в коллекции — метод save .... 74
5.9. Использование переменных в скриптах обработки коллекций .... 74
5.10. Группировка документов коллекции ........................................ 76
5.11. Конвейерная обработка документов коллекции ...................... 78
5.12. Хранимые функции базы MongoDB ......................................... 87
5.13. Создание и использование ссылок в базе MongoDB ................ 89

6. Большие данные .............................................................................. 96

7. Распределенные файловые системы .............................................. 100
7.1. Hadoop Distributed File System (HDFS) ..................................... 101

8. Технология MapReduce ................................................................. 105
8.1. Архитектура Hadoop MapReduce ............................................... 109
8.2. Преимущества и недостатки Hadoop MapReduce .................... 110
8.3. Реализация Map/Reduce в MongoDB ........................................ 111

Список библиографических ссылок ................................................... 119

Основные сокращения

HDFS 
– Hadoop Distributed File System
HDMR  
– Hadoop MapReduce
JSON  
– JavaScript Object Notation
NoSQL 
– Not Only SQL
ODMG 
– Object Data Management Group
БД  
– база данных
ИС  
– информационная система
ИТ  
– информационные технологии
КИС 
– корпоративная информационная система
ООБД 
– объектно-ориентированная база данных
РБД 
– реляционная база данных
РФС 
– распределенная файловая система
СУБД 
– система управления базой данных
ХД   
– хранилище данных

1. Условия появления  
новых типов хранилищ данных

1.1. Рост объема информации — реалии цифровой вселенной
Н

еобычайное влияние ИТ на все сферы жизни обще-
ства начиная с последней четверти ХХ века породило 
метафору «информационная революция». Современ-
ная (с 2000 г.) пятая, следующая за письменностью, книгопе-
чатанием, телефонией и радиосвязью, ЭВМ и персональными 
компьютерами, революция объединяет и синергически усили-
вает эффекты предшествующих изобретений и технических ре-
шений в области хранения, передачи и обработки информации. 
Современные информационные технологии и Интернет обе-
спечивают автоматическое накопление и обмен информаци-
ей как в масштабах отдельного человека, компании, так и все-
го человечества. Доступ ко всей массе накапливаемых данных 
и возможность ее автоматизированной обработки меняет стиль 
жизни в информационном обществе, умножает его интеллек-
туальные способности. Стремительное увеличение числа ис-
точников, создающих цифровые данные, приводит к взрывно-
му росту объема накапливаемой в мире информации и создает 
новые проблемы ее хранения и обработки.
По оценкам компании Linxdatacenter, с одной стороны, на-
блюдается стремительный рост объема корпоративных дан-
ных и их ценности для принятия решений. С другой стороны, 
этот рост вызывает усложнение задач построения эффектив-

1. Условия появления новых типов хранилищ данных 

ной и безопасной ИТ-среды для хранения, передачи и обра-
ботки данных. Процент информации, нуждающейся в защите, 
неуклонно растет, в то же время уровень защиты данных оста-
ется недостаточным. Согласно прогнозу аналитической компа-
нии Gartner [1], в период с 2011 по 2016 гг. финансовый ущерб 
от киберпреступлений ежегодно будет увеличиваться. Корпо-
ративная информация составляет только часть накапливаемых 
в мире данных. Повсеместное распространение Интернета при-
вело к удвоению объема информации за период 2012–2013 гг. 
Объем сгенерированных данных в 2012 г. оценивается в 2,8 зет-
табайта и прогнозируется до 40 зеттабайт к 2020 г. На сегодняш-
ний день только в России [2] накоплено 155 экзабайт или 2,4 % 
мировых данных. И в ближайшие семь лет эта доля сохранится. 
При этом эксперты IDC (International Data Corporation) счита-
ют, что сегодняшних хранилищ хватит лишь для 15 % данных 
[3]. Однако это приемлемо, так как большая часть данных ис-
пользуется краткосрочно и не требует длительного хранения.
Прогнозные исследования в 2012 г. показывают, что объе-
мы информации будут удваиваться каждые два года в течение 
следующих восьми лет и к 2020 г. их объем должен увеличить-
ся в 15 раз. Одним из основных факторов этого роста является 
увеличение доли автоматически генерируемых данных: с 11 % 
от общего объема в 2005 г. до более 40 % в 2020 г. Большие объ-
емы полезных данных создаются с систем видеонаблюдения, 
встроенных в оборудование, медицинских систем, информации 
с компьютеров, смартфонов, бытовой электроники. По оцен-
кам IDC, количество устройств в мире, которые можно под-
ключить к Интернету, приближается к 200 млрд, из которых 
14 млрд, или 7 %, уже подключены и активно передают дан-
ные. На сегодняшний день данные от таких устройств состав-
ляют 2 % от мирового объема информации. Согласно прогно-
зам IDC, к 2020 г. уже 32 млрд подключенных устройств будут 
генерировать 10 % общего объема данных во всем мире. Объ-
ем информации об отдельно взятом пользователе, хранящейся 

1.2. Недостатки традиционных хранилищ данных

в цифровой вселенной, станет существенно больше, чем объ-
ем данных, создаваемых этим пользователем. Причем большая 
часть накапливаемой информации плохо защищена. В 2010 г. 
в защите нуждалось менее трети информации, а к 2020 г. доля 
такой информации может превысить 40 %.
По прогнозам [4], инвестиции в IT-инфраструктуру цифровой 
вселенной (оборудование, телекоммуникации, хранение и управ-
ление информацией и персонал) в период с 2012 по 2020 г. вы-
растут на 40 %. Причем инвестиции в хранение и защиту ин-
формации, обработку «больших данных» (Big Data) и облачные 
технологии будут расти значительно быстрее. Большие данные 
диктуют новые взаимосвязанные принципы обработки инфор-
мации [5]. Первый — это способность анализировать все дан-
ные, а не довольствоваться их частью или статистическими вы-
борками. Второй — готовность иметь дело с неупорядоченными 
данными в ущерб точности. Третий — изменение образа мыслей: 
доверять корреляциям, а не гнаться за труднодостижимым по-
иском причинно-следственных зависимостей.
Существенно и то, что на сегодняшний день используется 
менее 3 % из 23 % потенциально полезных данных, которые мог-
ли бы найти применение с технологиями Big Data.
Беспрецедентный рост информации в мире, необходимость 
хранения и обработки всей массы накопленных данных тре-
бует создания хранилищ, построенных на новых технических 
средствах, использующих новые модели и методы эффектив-
ной обработки данных.

1.2. Недостатки традиционных хранилищ данных

Традиционные системы управления базами данных (СУБД) 
предназначались для создания и использования информацион-
ных моделей — корпоративных баз данных (БД) в конкретных 
сферах деятельности.

1. Условия появления новых типов хранилищ данных 

Корпоративные (закрытые) информационные и автомати-
зированные системы определили условия эксплуатации и тре-
бования к их БД:
· предопределенный и ограниченный круг пользователей 
с фиксированными функциями и правами, а следователь-
но, относительно определенная и устойчивая структура 
(схема) данных;
· равномерный рост общего объема данных с малоизменя-
ющимся объемом оперативных данных;
· необходимость независимого совместного доступа (изме-
нения) к данным, обусловившая создание моделей тран-
закционной обработки БД;
· эффективная работа в реальном времени.
Средства реализации корпоративных информационных си-
стем (КИС), использующие современные серверы баз данных, 
обеспечивают сформулированные в теореме CAP (теореме Брю-
ера) фундаментальные требования к хранению данных:
· Consistency — согласованность, понимаемая как целост-
ность по ограничениям;
· Avaliability — доступность данных;
· Partition Tollerance — распределение БД по физическим 
узлам (стабильная работа при линейно растущем объеме).
Наилучшим решением для корпоративной информацион-
ной системы оказались многопользовательские централизован-
ные и распределенные базы на основе строго типизированной 
реляционной модели с транзакционной обработкой данных.
Однако общие тенденции в глобализации производства, 
электронной коммерции и информатизации общества форму-
лируют новые требования и стимулируют развитие информа-
ционных систем:
· создание новых моделей данных, не требующих строго 
фиксированной структуры;
· использование парадигмы объектно-ориентированного 
программирования в СУБД;

1.2. Недостатки традиционных хранилищ данных

· расширение круга пользователей с выходом КИС в глобальное 
информационное пространство с допуском в систему 
внешних пользователей (поставщиков, потребителей, 
операторов управления логистикой продукции), 
работающих с базами данных через WEB-приложения;
· использование содержания запросов и постов в социальных 
сетях в задачах анализа и прогнозирования деятельности 
компании.
Новые требования к информационным системам выявили 
недостатки используемых в них реляционных СУБД:

1. Строгая типизация, приводящая к несоответствию структуры 
БД структуре данных реального объекта. Для хранения 
в реляционной базе данные одного информационного объекта 
должны быть декомпозированы и распределены по множеству 
равноценных нормализованных таблиц.

2. Атомарность (единственность и неделимость) данных 
не адекватно представляет множественные свойства и групповые 
данные.

3. Статичность данных. Серверы реляционных баз данных 
(РБД) не имеют специальных средств для представления истории 
изменения данных.

4. Отдельное от информационного объекта хранение и выполнение 
его собственных действий. Поведение объекта в РБД 
описывается в виде хранимых в базе функций, процедур и триггеров, 
не принадлежащих информационному объекту.

5. Плохая масштабируемость, вызывающая стремительное 
падение производительности при росте объема данных и количества 
используемых в запросах соединений (JOIN) таблиц.

6. Неустойчивость к отказам оборудования.
При наличии существенных недостатков необходимо помнить 
и учитывать достоинства реляционной модели данных, 
обусловливающие ее продолжающееся использование в КИС:
· наглядность исходного табличного представления данных 
и результатов запросов;

1. Условия появления новых типов хранилищ данных 

· реляционная полнота языка SQL-запросов, расширенная 
мощными средствами обработки данных;
· независимость запросов от физической структуры данных (
наличия указателей и связей) — возможность построить 
любой новый запрос без изменений и дополнений 
в структуре БД.

1.3. Новые источники и области применения хранилищ данных

Развитие функционала в Интернете открыло новые области, 
требующие хранения и анализа данных:
· массовое размещение и распространение данных и знаний (
научно-технических, новостных, экономических, 
транспортных);
· электронная коммерция — компьютеризированная технология 
продаж: оповещение, привлечение покупателя, 
анализ приобретений, программы лояльности к клиенту, 
направленные на удовлетворение спроса, развитие производства 
и удержание клиента;
· информационное взаимодействие общества и государства 
(предоставление госуслуг);
· социальные сети — средство информационного взаимодействия 
индивидуумов и групп;
· системы связи — БД биллинговых систем операторов  
связи.
Массивы информации, генерируемой или размещаемой 
в сети Интернет, предполагают новые задачи и технологии обработки 
данных:
· новые типы запросов, использующие смысловые отношения, 
привели к появлению семантического WEBа, основанного 
на знаниях, размещаемых в сети Интернет;

1.3. Новые источники и области применения хранилищ данных

· исследования интересов общества (анализ содержания 
и частоты запросов к поисковым системам Интернета);
· анализ содержания сайтов.
Таким образом, новые (постреляционные) хранилища должны 
сочетать возможности хранения и данных, и знаний в быстро 
растущих объемах с новыми задачами обработки информации. 
В целом корпоративные информационные системы, 
Интернет и системы связи являются движущей силой в области 
создания новых систем хранения данных.
Новые области применения выдвигают и новые требования 
к хранилищам данных:
· не атомарность (множественность) и разнородность отдельных 
атрибутов хранимых объектов;
· разнообразие (не типизируемость) наборов и структур 
данных хранимых объектов;
· необходимость целостного представления разнородной, 
как декларативной, так и процедурной информации требует 
хранения в объекте базы не только данных, но и способов 
их обработки;
· нелинейный (взрывной) рост объемов хранимых данных.
Появление новых требований к объемам, составу и структуре 
данных в сочетании с требованиями отказоустойчивости, 
масштабируемости и эффективности стимулировало развитие 
хранилищ данных в направлении совершенствования моделей 
данных, создания средств распределенного хранения и массово 
параллельных структур для их обработки. В зависимости от значимости 
того или иного требования в информационной системе 
создавались хранилища, наилучшим образом соответствующие 
поставленной задаче. Современное состояние систем для 
хранения, доступа и обработки данных характеризуется разнообразием 
используемых моделей данных, средств для распределенного 
хранения и обработки во множестве узлов вычислительной 
сети.

Доступ онлайн
350 ₽
В корзину