Базы данных
Покупка
Тематика:
Системы управления базами данных (СУБД)
Издательство:
СКФУ
Год издания: 2021
Кол-во страниц: 170
Дополнительно
Учебник составлен с учетом требований Федерального государственного образовательного стандарта высшего образования. Представленный материал содержит необходимые сведения для освоения соответствующих компетенций, подробное рассмотрение принципов, проблем и перспектив управления распределенной информацией. Предназначен для студентов, аспирантов, преподавателей и специалистов, интересующихся базами данных.
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «СЕВЕРО-КАВКАЗСКИЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ» Г. И. Линец, Н. Ю. Братченко БАЗЫ ДАННЫХ УЧЕБНИК Направление подготовки 09.03.01 Информатика и вычислительная техника Направленность (профиль) «Автоматизированные системы обработки информации и управления» Бакалавриат Ставрополь 2021
УДК 004.6 (075.8) ББК 32.97.018.2 я73 Б 87 Печатается по решению редакционно-издательского совета Северо-Кавказского федерального университета Рецензенты: д-р техн. наук, профессор В. П. Мочалов, д-р техн. наук, профессор Н. В. Кандаурова (Филиал ФГБОУ ВО «МИРЭА – Российский технологический университет» в г. Ставрополе) Б 87 Базы данных: учебник / авт.-сост.: Г. И. Линец, Н. Ю. Братченко. – Ставрополь: Изд-во СКФУ, 2021. – 170 с. Учебник составлен с учетом требований Федерального государственного образовательного стандарта высшего образования. Представленный материал содержит необходимые сведения для освоения соответствующих компетенций, подробное рассмотрение принципов, проблем и перспектив управления распределенной информацией. Предназначен для студентов, аспирантов, преподавателей и специалистов, интересующихся базами данных. УДК 004.6 (075.8) ББК 32.97.018.2 я73 Авторы-составители: д-р техн. наук, доцент Г. И. Линец, канд. физ.-мат. наук, доцент Н. Ю. Братченко ФГАОУ ВО «Северо-Кавказский федеральный университет», 2021
ПРЕДИСЛОВИЕ На сегодняшний день дисциплина базы данных не является ав тономной в мире современных компьютерных систем и технологий. Наиболее мощные и развитые системы баз данных и системы управления информацией имеют мало смысла без таких результирующих возможностей, как предоставление информации для пользователей или обеспечение коммуникаций в среде распределенных систем. Распределенные базы данных и управление распределенной информацией занимают важное место в области инфокоммуникационных технологий и развития современных информационных систем, становятся неотъемлемой частью жизни современного человека. Базы данных на сегодняшний день стали основой современных информационных систем и существенно повлияли на методы работы корпораций. Данный учебник позволит студентам сформировать теоретиче ские знания и представления о концепциях разработки распределенных баз данных, о современных тенденциях в управлении распределенной информацией, особенностях приложений баз данных. Представленный материал является одним из основных ком понентов учебно-методического комплекса дисциплины «Базы данных» и способствует активному формированию таких компетенций, как: - способность осваивать методики использования программ ных средств для решения практических задач (ОПК-2); - умение разрабатывать модели компонентов информацион ных систем, включая модели баз данных и модели интерфейсов «человек – электронно-вычислительная машина» (ПК-1); - умение разрабатывать компоненты аппаратно-программных комплексов и баз данных, используя современные инструментальные средства и технологии программирования (ПК-2). Безусловно, информация данного учебника позволит закрепить знания и навыки в области разработки и реализации баз данных.
Учебник разработан с целью объединения теории управле ния и организации баз данных, а также основ создания и управления данными распределенной системы баз данных. Представленный материал содержит необходимые сведения для освоения соответствующих компетенций, подробное рассмотрение принципов, проблем и перспектив управления распределенной информацией. Он позволит без особых сложностей разобраться в исследовании особенностей управления распределенной базой данных. В нем достаточно полно изложено содержание некоторых разделов дисциплины «Базы данных».
1. ПРИНЦИПЫ УПРАВЛЕНИЯ РАСПРЕДЕЛЕННОЙ ИНФОРМАЦИЕЙ Вопросы 1.1. Определение и характеристики распределенных систем баз данных. 1.2. Управление распределенной информацией: желаемый сценарий. 1.1. Определение и характеристики распределенных си стем баз данных Технология распределенных систем баз данных представляет собой объединение двух подходов к обработке данных: систем баз данных и компьютерных сетевых технологий. Одним из основных мотивов использования систем баз дан ных является стремление интегрировать оперативные данные предприятия и обеспечить централизованный и таким образом контролируемый доступ к этим данным. Технология компьютерных сетей, с другой стороны, способ ствует такому способу работы, который идет вразрез со всеми усилиями централизации. На первый взгляд может быть трудно понять, как эти два противоположных подхода могут быть синтезированы для создания технологии, которая является более мощной и более перспективной, чем любой из них в отдельности. Основной целью технологии баз данных является интеграция, а не централизация. Важно понимать, что ни один из этих терминов не должен подразумевать другой. Интеграция возможна без централизации, и именно этого пытается достичь технология распределенных баз данных. Распределенные системы баз данных также следует рассмат ривать в рамках этой структуры и рассматривать как инструменты, которые могут сделать распределенную обработку проще и эффективнее. Разумно провести аналогию между тем, что распределен
ные базы данных могут предложить миру обработки данных, и тем, что уже обеспечила технология баз данных. Нет никаких сомнений в том, что разработка универсальных, адаптируемых и эффективных систем распределенных баз данных в значительной степени способствовала решению задачи разработки распределенного программного обеспечения. Будем рассматривать распределенную базу данных как сово купность множества логически взаимосвязанных баз данных, распределенных средствами компьютерной сети. Под распределенной системой управления базами данных (распределенной СУБД) будем понимать программную систему, которая позволяет управлять распределенной базой данных и делает распределение прозрачным для пользователей. Необходимо понять, что иногда термин «распределенная си стема баз данных (DDBS)» используется для обозначения совместно распределенной базы данных и распределенной СУБД. Два важных понятия в этих определениях – это «логически взаимосвязанные» и «распределенные по компьютерной сети». Они помогают устранить некоторые случаи, которые иногда были приняты за представление DDBS. Распределенная система баз данных – это не «набор файлов», которые могут быть индивидуально сохранены на каждом узле компьютерной сети. Чтобы сформировать распределенную систему баз данных, данные должны быть не только логически связаны, но и структурированы между файлами, а доступ должен осуществляться через общий интерфейс. Следует отметить, что в последнее время наблюдается большая активность в обеспечении функциональности СУБД над полуструктурированными данными, хранящимися в файлах сети Интернет (например, веб-страницах). Таким образом, в сфере этой деятельности вышеуказанное требование может показаться излишне строгим. Тем не менее важно провести различие между распределенной системой баз данных, где это требование удовлетворяется, и более общими распре
деленными системами управления данными, которые обеспечивают СУБД-подобный доступ к данным. Кроме того, необходимо учитывать, что физическое распреде ление данных не является самой важной проблемой. Поэтому сторонники этой точки зрения будут чувствовать себя комфортно, называя распределенной базой данных ряд (взаимосвязанных) баз данных, которые находятся в одной и той же компьютерной системе. Однако физическое распределение данных имеет также немаловажное значение. При этом физическое распределение не обязательно подразу мевает, что компьютерные системы должны быть географически удалены друг от друга. Они в действительности могут располагаться в одном кабинете. Это просто означает, что связь между ними осуществляется по сети, а не через общую память или общий диск (как в случае с многопроцессорными системами), причем сеть является единственным общим ресурсом. Такое понимание можно дополнить, если учесть правила по Дейту [6]. 1. Локальные данные должны принадлежать базе данных и управляться локально, включая функции безопасности, целостности и представления данных в памяти. Исключением может быть ситуация, когда ограничения целостности охватывают данные с нескольких узлов или когда распределенная транзакция управляется внешним узлом. 2. Для исключения ситуаций со сбоями и проблемами в рабо те системы никакая конкретная услуга не должна назначаться выделенному центральному узлу. 3. Система не должна прекращать свою работу, если есть необходимость добавить новый узел или удалить какие-то данные в распределенной среде, изменить определение метаданных и даже перейти на новую версию СУБД. Характеристики распределенной базы данных определяются рядом основополагающих принципов, однако в коммерческих СУБД большинство этих принципов до сих пор не реализовано.
Необходимо, по меньшей мере, найти компромисс между этими принципами, поскольку в рамках существующих технологий многие из них находятся в противоречии друг с другом. Некоторые среды РаБД / РаСУБД однородны: локальные ме неджеры данных в них представлены одним и тем же продуктом СУБД. Другие по своей природе разнородны – в них используются разные продукты СУБД (иногда даже основанные на разных моделях данных, вплоть до плоских файлов). Некоторые среды создаются «сверху вниз», как говорится, «с чистого листа». Однако более типична ситуация, когда для включения унаследованных систем приходится прибегать к конструированию «снизу вверх». Конструирование «снизу вверх» оказывается значительно более сложным, поскольку при объединении поддерживающих сред обычно возникают характерные проблемы избыточности данных, обеспечения непротиворечивости, структурного несоответствия. В некоторых системах используются различные модели разбиения (называемого также фрагментацией), которые позволяют распределять данные между различными системами, обеспечивая тем не менее, возможность трактовать их глобальным образом, как если бы они были централизованы. Другие модели распределения предусматривают тиражирование части или всех данных по множеству систем с целью увеличения общей пропускной способности среды и повышения доступности данных. 4. Не требуется необходимости в том, чтобы пользователи знали о месторасположении базы данных. 5. Фрагменты данных должны поддерживаться и обрабаты ваться средствами РаСУБД таким образом, чтобы пользователи или приложения могли бы вообще ничего не знать об этом. 6. Соблюдение независимости от тиражирования. 7. Обработка запросов должна производиться распределен ным образом. 8. Должны быть обеспечены механизмы управления распре деленными транзакциями. 9. Должна быть обеспечена независимость от оборудования.
10. Независимость от операционных систем. Учитывая, что распределенность и неоднородность быстро становятся реальностью для информационных систем (ИС) практически любой организации, для предотвращения всеобщего хаоса настоятельно необходимо внедрение методов кооперативного управления рассеянной информацией. 11. Независимость от сети. 12. Независимость от СУБД. Локальные СУБД должны иметь возможность участвовать в функционировании РаСУБД. Очевидно, что, хотя крайне желательно было бы иметь удовле творяющие всем 12 правилам системы, нереально ожидать реализации этих требований в рамках хотя бы одного продукта даже в ближайшие годы. И действительно, за время, прошедшее с момента опубликования правил Дейта [6], эта цель так и не была достигнута. Отчасти по этой причине поставщики, ориентирующиеся на рынок распределенных баз данных, придерживаются многоэтапного подхода к внедрению средств распределения в свои продукты. Одним из наиболее известных предложений в этой области является выдвинутая в 1989 г. компанией IBM программа, где определены четыре шага, необходимых для перехода к управлению распределенными базами данных и призванных обеспечить следующие возможности: 1) удаленный запрос. Эта парадигма эквивалентна базовой модели удаленного доступа. Выполняется подключение к удаленному узлу и производится чтение или изменение данных на этом узле. Результат поступает на исходный узел, после чего транзакция завершается. Практически любая коммерческая СУБД в настоящее время поддерживает удаленные запросы, и такая возможность предоставляется уже в течение некоторого времени; 2) удаленная единица работы. Это означает, что на удален ном узле можно выполнить группу запросов как атомарную единицу (транзакцию). Приложение, вообще говоря, может получать и модифицировать данные многих узлов, но каждая транзакция затрагивает данные только одного узла;
3) распределенная единица работы. При этом каждый запрос относится только к одному узлу, но запросы, составляющие распределенную единицу работы (транзакцию), могут выполняться совместно на нескольких узлах. Вся группа запросов при этом фиксируется или откатывается как одно целое; 4) распределенный запрос. Этот шаг предусматривает воз можность выполнения запросов, охватывающих множество баз данных на разных узлах. Несколько таких распределенных запросов может быть далее сгруппировано в качестве транзакции. Как будет показано в следующем разделе, возможности по следнего из четырех шагов – распределенных запросов – могут быть существенно расширены в отношении распределенности и неоднородности. 1.2. Управление распределенной информацией: желаемый сценарий В результате серии бесконечных объединений и последующей реструктуризации организация, которая когда-то имела дюжину мэйнфреймов (от одного поставщика), сконцентрированных в трех отделениях в разных географических точках, откуда осуществлялось управление всей деятельностью фирмы в мировом масштабе, теперь располагает десятками тысяч компьютеров – от ПК и рабочих станций практически на каждом рабочем месте до машин среднего класса (от восьми разных поставщиков) в подразделениях и всё тех же мэйнфреймов. Вычислительные машины установлены в сотнях офисов, рассредоточенных по всему миру и связанных локальными сетями (LAN), объединенными посредством территориальной сети (WAN) [1]. Система глобальной электронной почты считается одной из самых развитых в мире: любой сотрудник может взаимодействовать практически с любым подразделением компании. К сожалению, средства доступа к информационным ресурсам не всегда универсальны для соответствующих коммуникационных средств. Рабочие станции, системы среднего класса и мини-компьютеры,