Данные: хранение и обработка
Покупка
Основная коллекция
Тематика:
Системы управления базами данных (СУБД)
Издательство:
НИЦ ИНФРА-М
Автор:
Дадян Эдуард Григорьевич
Год издания: 2021
Кол-во страниц: 205
Дополнительно
Вид издания:
Учебник
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-16-016447-2
ISBN-онлайн: 978-5-16-107936-2
Артикул: 680652.02.01
В учебнике рассмотрены и проанализированы базы данных и СУБД, данные и ЭВМ, концепция баз данных, архитектура СУБД, инфологическая, даталогическая и физическая модели данных, типы даталогических моделей данных, представление данных с помощью модели «сущность — связь», диаграмма «сущность — связь», целостность данных. Представлен обзор нотаций, используемых при построении диаграмм «сущность — связь». Подробно описаны реляционные базы данных, операции с таблицами реляционных баз данных, правила порождения реляционных отношений из модели «сущность — связь». Представлены средства ускоренного доступа к данным, язык SQL, физическая организация СУБД, клиент-серверная архитектура, обработка распределенных данных и структура сервера базы данных. Сформулированы концептуальные основы понятия «знание», изложены понятия и определения знаний, баз знаний, модели представления знаний, приведены принципы построения систем, ориентированных на анализ данных — хранилища данных, модели данных, используемые при построении хранилищ данных. Рассмотрены вопросы по защите данных.
Соответствует требованиям федеральных государственных образовательных стандартов высшего образования последнего поколения.
Предназначен для студентов бакалавриата и магистратуры всех специальностей, а также для аспирантов и слушателей институтов повышения квалификации.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 01.03.02: Прикладная математика и информатика
- 01.03.04: Прикладная математика
- 02.03.02: Фундаментальная информатика и информационные технологии
- 09.03.01: Информатика и вычислительная техника
- 09.03.03: Прикладная информатика
- 09.03.04: Программная инженерия
- 22.03.01: Материаловедение и технологии материалов
- 38.03.05: Бизнес-информатика
- ВО - Магистратура
- 38.04.05: Бизнес-информатика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
ДАННЫЕ хранение и обработка Э.Г. ДАДЯН Москва ИНФРА-М 2021 УЧЕБНИК Рекомендовано Межрегиональным учебно-методическим советом профессионального образования в качестве учебника для реализации образовательных программ высшего образования по направлениям подготовки бакалавриата (протокол № 9 от 13.05.2019)
Р е ц е н з е н т ы: Л.Б. Соколинский, доктор физико-математических наук, профессор; А.И. Арустамов, директор ООО «Аналитические технологии» ISBN 978-5-16-016447-2 (print) ISBN 978-5-16-107936-2 (online) © Дадян Э.Г., 2019 УДК 004.6(075.8) ББК 32.97я73 Д14 Дадян Э.Г. Д14 Данные: хранение и обработка : учебник / Э.Г. Дадян. — Москва : ИНФРА-М, 2021. — 205 с. — (Высшее образование: Бакалавриат). — DOI 10.12737/textbook_5cf8c7f2b8cdb8.06963680. ISBN 978-5-16-016447-2 (print) ISBN 978-5-16-107936-2 (online) В учебнике рассмотрены и проанализированы базы данных и СУБД, данные и ЭВМ, концепция баз данных, архитектура СУБД, инфологическая, даталогическая и физическая модели данных, типы даталогических моделей данных, представление данных с помощью модели «сущность — связь», диаграмма «сущность — связь», целостность данных. Представлен обзор нотаций, используемых при построении диаграмм «сущность — связь». Подробно описаны реляционные базы данных, операции с таблицами реляционных баз данных, правила порождения реляционных отношений из модели «сущность — связь». Представлены средства ускоренного доступа к данным, язык SQL, физическая организация СУБД, клиент-серверная архитектура, обработка распределенных данных и структура сервера базы данных. Сформулированы концептуальные основы понятия «знание», изложены понятия и определения знаний, баз знаний, модели представления знаний, приведены принципы построения систем, ориентированных на анализ данных — хранилища данных, модели данных, используемые при построении хранилищ данных. Рассмотрены вопросы по защите данных. Соответствует требованиям федеральных государственных образовательных стандартов высшего образования последнего поколения. Предназначен для студентов бакалавриата и магистратуры всех специальностей, а также для аспирантов и слушателей институтов повышения квалификации. УДК 004.6(075.8) ББК 32.97я73
Введение Задача данного учебника — систематизировать и представить методически в доступной для первоначального изучения и усвоения форме материал, в объеме и по содержанию отвечающий требованиям программ курсов дисциплин, названия которых коррелируют с названием этого учебника. Учебник содержит одиннадцать глав. В первых десяти разделах последовательно, в доступной для усвоения форме, с многочисленными примерами рассматриваются следующие вопросы. 1. Концепция баз данных (БД), архитектура систем управления базами данных (СУБД): инфологическая модель данных, даталогическая модель данных, физическая модель данных, типы даталогических моделей данных, иерархическая даталогическая модель, сетевая даталогическая модель, даталогическая модель на основе инвертированных списков, реляционная даталогическая модель, объектно-реляционная даталогическая модель. 2. Модели представления данных, представление данных с помощью модели «сущность — связь», назначение модели, элементы модели, диаграмма «сущность — связь», целостность данных, обзор нотаций, используемых при построении диаграмм «сущность — связь», нотация Чена, нотация Мартина, нотация IDEFIX (Integration DEFinition for Information Modeling), нотация Баркера. 3. Реляционные базы данных (основные понятия реляционных баз данных, тип данных, домен, схема отношения, схема базы данных, кортеж, отношение, целостность реляционных баз данных, основные свойства отношений реляционных баз данных). 4. Операции с таблицами реляционных баз данных, некоторые операции теории множеств, ограничение отношения, проекция отношения, объединение отношений, пересечение отношений, разность отношений, произведение отношений, деление отношений, соединение отношений, нормализация отношений реляционных баз данных, пример декомпозиции исходной «универсальной» таблицы на простые отношения, проблемы, возникающие при использовании универсального отношения, первая нормальная форма (1НФ), вторая нормальная форма (2НФ), третья нормальная форма (3НФ), нормальная форма Бойса — Кодда (БКНФ), четвертая нормальная форма (4НФ),
пятая нормальная форма, или нормальная форма проекции-соединения (5НФ, или ПС/НФ). Бинарные связи, ограничение целостности, целостность сущностей, целостность ссылок. 5. Организация быстрого доступа к данным, средства ускоренного доступа к данным, язык запросов, язык SQL, состав SQL-оператора, SQL-оператор SELECT, SQL-оператор DELETE, SQLоператор INSERT, SQL-оператор UPDATE, обработка транзакций, средства восстановления после сбоев, организация доступа к данным (средства ускоренного доступа к данным, язык запросов, обработка транзакций, средства восстановления после сбоев). 6. Методология проектирования информационных систем (ИС) и БД, жизненный цикл ИС, модели жизненного цикла, каскадная модель, спиральная модель. Разработка программного обеспечения (ПО) ИС, структурный подход к проектированию ИС. Моделирование функций — методология SADT, структурный подход к проектированию, моделирование функций — методология SADT; моделирование потоков данных — методология DFD; моделирование данных — методология ERD; моделирование данных — методология IDEF1X. Объектноориентированный подход к проектированию. Составные части объектно-ориентированной методологии, объектно-ориентированный анализ, система обозначений объектно-ориентированной методологии. Язык UML. Общие сведения и классификация CASE-средств, разработка инфологической модели данных, анализ выходных форм, выделение сущностей. 7. Физическая организация СУБД, архитектура «клиент — сервер», основные понятия, модели взаимодействия «клиент — сервер», мониторы транзакций, обработка распределенных данных, структура сервера базы данных. 8. Знания, базы знаний, основные понятия и определения, интеллект, интеллектуальные задачи, знания, свойства знаний, граница между данными и знаниями, концептуальная основа понятия «знание», модели представления знаний: логическая модель, продукционная модель (или модель, основанная на правилах), фреймовая модель, модель семантической сети. 9. Принципы построения систем, ориентированных на анализ данных, хранилища данных, модели данных, используемые при построении хранилищ данных, многомерная модель, реляционная модель, комбинированная модель. 10. Защита данных, общие вопросы защиты данных, основные методы и приемы зашиты данных, идентификация пользователя,
управление доступом, защита данных при статической обработке, физическая защита, практика защиты данных. Одиннадцатая глава посвящена рассмотрению практического приложения учебника. Здесь приведены вопросы для самоподготовки, индивидуальные задания (кейсы), ситуационные задачи и тесты.
Глава 1 БАЗЫ ДАННЫХ И СИСТЕМА УПРАВЛЕНИЯ БАЗОЙ ДАННЫХ 1.1. РАБОТА С ДАННЫМИ Изначально компьютеры были созданы для решения вычислительных задач, однако со временем они все чаще стали использоваться для построения систем обработки документов, а точнее, содержащейся в них информации. Такие системы обычно и называют информационными. В качестве примера можно привести систему учета времени, отработанного работниками предприятия, и расчета заработной платы, систему учета продукции на складе, систему учета книг в библиотеке и т.д. Все вышеперечисленные системы имеют следующие особенности: • для обеспечения их работы нужны сравнительно низкие вычислительные мощности; • данные, которые они используют, имеют сложную структуру; • необходимы средства сохранения данных между последовательными запусками системы. При изложении материала учебника используются такие термины, как «информационная система», «информация», «данные», «знания» и др. Определения этих терминов приводятся преимущественно в начале изложения соответствующего учебного материала. Информационная система — ИС (Information System, IS) — это совокупность экономико-математических методов и моделей, технических, программных, технологических средств и специалистов, предназначенная для хранения и обработки информации, для реализации и ведения информационной модели какой-либо области человеческой деятельности. Здесь следует раскрыть два понятия: «система» и «система управления». Системой называется любой объект, который рассматривается, с одной стороны, как единое целое, а с другой — как множество взаимосвязанных и взаимодействующих между собой составных частей. Система — это четко упорядоченная, структурированная совокупность двух или более элементов (число их может быть бесконечным). Элементы системы находятся во взаимосвязи и подчиняются законам, установленным в данной системе. Система может
быть составляющей другой, более объемной и мощной, системы, т.е. представлять собой отдельный элемент другой системы. Система управления — это система с заданной целевой функцией управления. Все компоненты системы управления обеспечивают реализацию заданной целевой функции. Информационная система должна обеспечивать следующие средства для протекания информационных процессов: • сбор информации; • преобразование и обработка; • анализ; • хранение и защита; • передача для использования. Цель применения информационных систем — снижение трудоемкости использования информационных ресурсов. Под информационными ресурсами понимается совокупность информационных массивов, представляющих ценность для организации (предприятия). К ним относятся файлы и базы данных, документы, тексты, графики, знания, аудио- и видеоинформация и др. Процесс обработки данных невозможен без использования технических средств, которые включают компьютер, устройства ввода-вывода, оргтехнику, линии связи, оборудование сетей и др. Информацией (от лат. informatio — научение, сведение, оповещение) называются сведения об окружающем мире (предмете, процессе, явлении, событии), которые являются объектом преобразования (включая хранение, передачу и т.д.) и используются для выработки поведения, принятия решения, управления или обучения. Под информацией понимают также сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые воспринимают информационные системы (живые организмы, управляющие машины и др.) в процессе жизнедеятельности и работы. Информация первична и содержательна — это категория, поэтому в категориальный аппарат науки она вводится портретно — описанием, через близкие категории: материя, система, структура, отражение. В материальном мире информация материализуется через свой носитель и благодаря ему существует. Материальный носитель придает информации форму. В процессе формообразования происходит смена носителя информации. Однозначного определения термин «информация» не имеет, так как не является понятием. Не следует путать категорию «информация» с понятием «знание». Знание определяется через категорию «информация».
Данные (лат. data) — это представление фактов и идей (потенциальной информации) в формализованном виде, пригодном для передачи и обработки в некотором информационном процессе. Знания определяются как хорошо структурированные, рассмотренные в многообразии взаимосвязей данные о свойствах сущностей предметной области и об отношениях между ними. Часто знания трактуются как «данные о данных (метаданные)», которые могут порождать новые понятия, абстракции и даже приводить к открытию новых сущностей. Знания также трактуются как совокупность понятий, теоретических построений и представлений, отражающих объективные закономерности реального мира как закономерности предметной области (принципы, связи, законы), полученные в результате практической деятельности и профессионального опыта, позволяющие специалистам ставить и решать задачи в этой области. Информационная система требует создания в памяти ЭВМ динамически обновляемой модели внешнего мира с использованием единого хранилища — базы данных. Для дальнейшего обсуждения нам необходимо ввести понятие предметной области. Предметная область — часть реального мира, подлежащая изучению с целью организации управления и в конечном счете автоматизации. Предметная область представляется множеством фрагментов, например, предприятие — цехами, дирекцией, бухгалтерией и т.д. Каждый фрагмент предметной области характеризуется множеством объектов и процессов, использующих объекты, а также множеством пользователей, характеризуемых различными взглядами на предметную область. Словосочетание «динамически обновляемая» означает, что соответствие базы данных текущему состоянию предметной области обеспечивается не периодически, а в режиме реального времени. При этом одни и те же данные могут быть по-разному представлены в соответствии с потребностями различных групп пользователей. Отличительной чертой баз данных следует считать то, что данные хранятся совместно с их описанием, а в прикладных программах описания данных не содержатся. Независимые от программ пользователя данные обычно называются метаданными. В ряде современных систем метаданные, содержащие также информацию о пользователях, форматы отображения, статистику обращения к данным и другие сведения, хранятся в словаре базы данных. Таким образом, система управления базой данных (СУБД) — важнейший компонент информационной системы. Для создания
и управления информационной системой СУБД необходима в той же степени, как для разработки программы на алгоритмическом языке необходим транслятор. Основные функции СУБД: • управление данными во внешней памяти (на дисках); • управление данными в оперативной памяти; • журнализация изменений и восстановление базы данных после сбоев; • поддержание языков БД (язык определения данных, язык манипулирования данными). Обычно современная СУБД содержит следующие компоненты (рис. 1.1): • ядро, которое отвечает за управление данными во внешней и оперативной памяти и журнализацию; • процессор языка базы данных, обеспечивающий оптимизацию запросов на извлечение и изменение данных и создание, как правило, машинно-независимого исполняемого внутреннего кода; • подсистему поддержки времени исполнения, которая интерпретирует программы манипуляции данными, создающие пользовательский интерфейс с СУБД; • сервисные программы (внешние утилиты), обеспечивающие ряд дополнительных возможностей по обслуживанию информацион ной системы. Рис. 1.1. Компоненты СУБД Программа во внутреннем коде СУБД Подсистема времени исполнения Операторы языка общего пользования Операторы языка управления данными Программа в машинном коде Процессор языка запросов Ядро СУБД Физическая база данных
Восприятие реального мира можно соотнести с последовательностью разных, хотя иногда и взаимосвязанных, явлений. С давних времен люди пытались описать эти явления. Как это уже отмечалось ранее, представление указанных описаний в формализованном виде, пригодном для передачи и обработки в некотором информационном процессе, и называют данными. Традиционно фиксация данных осуществляется с помощью конкретного средства общения (например, с помощью естественного языка или изображений) на конкретном носителе (например, камне или бумаге). Обычно данные (факты, явления, события, идеи или предметы) и их интерпретация (семантика) фиксируются совместно, так как естественный язык достаточно гибок для представления того и другого. Примером в этом случае может служить утверждение «стоимость авиабилета — 128 рублей». Здесь «128 рублей» — данное, а «стоимость авиабилета» — его семантика. Нередко данные и интерпретация разделены. Например, расписание движения самолетов может быть представлено в виде таблицы (табл. 1.1), в верхней части которой, отдельно от данных, приведена их интерпретация. Такое разделение затрудняет работу с данными (попробуйте быстро получить сведения из нижней части табл. 1.1). Таблица 1.1 Расписание движения самолетов Интерпретация Номер рейса Дни недели Пункт отправления Время вылета Пункт назначения Время прибытия Тип самолета Стоимость билета Данные 138 2_4_7 Баку 21.12 Москва 0.52 ИЛ-86 115.00 57 3_6 Ереван 7.20 Киев 9.25 ТУ-154 92.00 1234 2_6 Казань 22.40 Баку 23.50 ТУ-134 73.50 … … … … … … … … Данные и их интерпретация, оформленные в виде таблицы. Применение ЭВМ для ведения (сопровождения, поддержки) и обработки данных обычно приводит к еще большему разделению данных и интерпретации. ЭВМ имеет дело главным образом с данными как таковыми. Большая часть интерпретирующей информации вообще не