Методы и средства интеграции независимых баз данных в распределенных телекоммуникационных сетях
Покупка
Основная коллекция
Тематика:
Цифровая связь. Телекоммуникации
Издательство:
Южный федеральный университет
Год издания: 2013
Кол-во страниц: 160
Дополнительно
Вид издания:
Монография
Уровень образования:
ВО - Магистратура
ISBN: 978-5-9275-1189-1
Артикул: 633376.01.99
Рассматривается задача интеграции изначально разрозненных баз данных (БД), в которых хранятся данные о некоторой общей для этих БД предметной области, а также методы и средства решения этой задачи. На базе анализа степени и качества решения указанной задачи, как известными авторам специализированными системами интеграции (СИД) данных, так и средствами интеграции данных СУБД Oracle, выявлены основные недостатки указанных решений. В монографии предложены методы построения систем интеграции данных, в значительной степени снижающие отрицательный эффект указанных недостатков, а также привносящие в такие системы дополнительные полезные качества. Рассматривается реализация предложенных методов в разработанной авторами СИД DISGO и проводятся демонстрирующие преимущества DISGO результаты экспериментального сравнения этой системы с решениями, основанными на применении других СИД. Предложенная система может применяться для интеграции данных независимых территориально удаленных БД в распределенных телекоммуникационных сетях крупных корпораций и в сетях межкорпоративного взаимодействия. Монография адресована специалистам в области построения баз данных корпоративных и межкорпоративных информационных систем, а также студентам и аспирантам соответствующих специальностей. Ключевые слова: базы данных (БД), интеграция данных независимых распределенных БД, локальная и глобальная схемы данных, язык Catalog, оптимизация запросов к БД, неполный ответ на запрос, недоступность части БД.
Публикуется в авторской редакции.
Тематика:
ББК:
- 32: Радиоэлектроника
- 328: Кибернетика. Общая радиотехника. Электроника. Электроакустика. Элетросвязь. Радиосвязь
УДК:
ОКСО:
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Министерство образования и науки Российской Федерации Федеральное агентство по образованию Федеральное государственное автономное образовательное учреждение высшего профессионального образования «ЮЖНЫЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ» Южно-Российский региональный центр информатизации А.А. БУКАТОВ, А.В. ПЫХАЛОВ МЕТОДЫ И СРЕДСТВА ИНТЕГРАЦИИ НЕЗАВИСИМЫХ БАЗ ДАННЫХ В РАСПРЕДЕЛЕННЫХ ТЕЛЕКОММУНИКАЦИОННЫХ СЕТЯХ Монография Ростов-на-Дону 2013
УДК 681.326 ББК 32.973 Б 92 Печатается по решению редакционно-издательского совета Южного федерального университета Рецензенты: Заместитель директора по инновациям МИЭМ НИУ ВШЭ доктор технических наук, профессор, академик Академии информатизации образования Кулагин В.П. Заведующий кафедрой информационно-технических систем безопасности ЮФУ, доктор технических наук, профессор Целых А. Н. Букатов А.А., Пыхалов А.В. Методы и средства интеграции независимых баз данных в распределенных телекоммуникационных сетях: монография / А.А. Букатов, А.В Пыхалов; Южный федеральный университет. – Ростовна-Дону: Издательство Южного федерального университета, 2013. – 160 с. ISBN 978-5-9275-1189-1 Рассматривается задача интеграции изначально разрозненных баз данных (БД), в которых хранятся данные о некоторой общей для этих БД предметной области, а также методы и средства решения этой задачи. На базе анализа степени и качества решения указанной задачи, как известными авторам специализированными системами интеграции (СИД) данных, так и средствами интеграции данных СУБД Oracle, выявлены основные недостатки указанных решений. В монографии предложены методы построения систем интеграции данных, в значительной степени снижающие отрицательный эффект указанных недостатков, а также привносящие в такие системы дополнительные полезные качества. Рассматривается реализация предложенных методов в разработанной авторами СИД DISGO и проводятся демонстрирующие преимущества DISGO результаты экспериментального сравнения этой системы с решениями, основанными на применении других СИД. Предложенная система может применяться для интеграции данных независимых территориально удаленных БД в распределенных телекоммуникационных сетях крупных корпораций и в сетях межкорпоративного взаимодействия. Монография адресована специалистам в области построения баз данных корпоративных и межкорпоративных информационных систем, а также студентам и аспирантам соответствующих специальностей. Ключевые слова: базы данных (БД), интеграция данных независимых распределенных БД, локальная и глобальная схемы данных, язык Datalog, оптимизация запросов к БД, неполный ответ на запрос, недоступность части БД. Публикуется в авторской редакции. ISBN 978-5-9275-1189-1 УДК 681.326 ББК 32.973 © Букатов А.А., Пыхалов В.П., 2013 © Южный федеральный университет, 2013 Б 92
СОДЕРЖАНИЕ ВВЕДЕНИЕ 6 1. ЗАДАЧА ИНТЕГРАЦИИ ДАННЫХ И ОБЗОР ИЗВЕСТНЫХ МЕТОДОВ ИНТЕГРАЦИИ ДАННЫХ 10 1.1. Различные подходы к интеграции данных: GAV, LAV, GLAV 12 1.2. Модели данных и языки запросов, используемые в области интеграции данных 14 1.3. Методы обработки и оптимизации запросов в СИД 18 1.3.1. Методы оптимизации запросов в реляционных СУБД 18 1.3.2. Методы обработки и оптимизации запросов в распределенных СУБД 21 1.3.3. Методы борьбы с устаревшей статистикой в СИД 27 1.3.4. Методы обработки запросов в Oracle Heterogeneous Services 29 1.3.5. Методы обработки и оптимизации запросов в СИД SIMS 31 1.3.6. Методы обработки запросов в СИД TSIMMIS 33 1.3.7. Методы обработки и оптимизации запросов в СИД Information Manifold 34 1.3.8. Методы обработки запросов в P2P СИД 36 1.4. Методы работы с неполными и противоречивыми данными 40 1.4.1. Формальная модель для интеграции данных Multiplex 41 1.4.2. Методы разрешения противоречий в СИД Fusionplex 48 1.5. Выводы по результатам анализа существующих СИД и постановка задачи на разработку усовершенствованной СИД 50 2. МЕТОДЫ ОБРАБОТКИ И ОПТИМИЗАЦИИ ЗАПРОСОВ В РАСПРЕДЕЛЕННОЙ СЕТИ 54 2.1. Краткое описание предлагаемых методов и реализующих их средств 54
2.2 Метод определения источников данных, используемых в запросе к распределенной совокупности источников данных 57 2.2.1. Используемая модель данных 57 2.2.2. Подход к построению отображений между глобальной схемой и локальными схемами 62 2.2.3. Пример описания отображения между схемами данных источников данных при использовании различных подходов к описанию отображений 66 2.3. Методы обработки и оптимизации запросов 68 2.3.1. Общий алгоритм выполнения запросов 69 2.3.2. Метод непосредственного выполнения запросов 70 2.3.3. Оптимизированный метод выполнения запросов 73 2.4. Резюме по разработанным методам обработки и оптимизации запросов в распределенной сети 82 3. АЛГОРИТМЫ ОБРАБОТКИ ЗАПРОСОВ В СИСТЕМЕ ИНТЕГРАЦИИ ДАННЫХ, ПРЕДНАЗНАЧЕННОЙ ДЛЯ РАБОТЫ В РАСПРЕДЕЛЕННОЙ СЕТИ 84 3.1. Построение графа взаимосвязанности выражений 84 3.1.1. Алгоритм унификации предикатов в СИД DISGO 89 3.2. Алгоритмы генерации выражений РА 91 3.2.1. Алгоритм генерации выражений РА для не рекурсивных программ 91 3.2.2. Алгоритм генерации выражений РА для рекурсивных программ 95 3.3. Алгоритм генерации SQL по выражениям РА 103 3.4. Алгоритмы оптимизации запросов 106 3.4.1. Алгоритм оптимизации запросов на основе правил 107 3.4.2. Алгоритмы сбора и обработки статистики 110 3.5. Корректность предложенных алгоритмов 116 3.6. Резюме по разработанным методам выполнения запросов к СИД 117 4. РЕАЛИЗАЦИЯ МЕТОДОВ И СРЕДСТВ ИНТЕГРАЦИИ ДАННЫХ В РАСПРЕДЕЛЕННОЙ 119
СЕТИ 4.1. Общее описание СИД DISGO 119 4.1.1. Архитектура СИД DISGO 119 4.1.2. Схема взаимодействия прикладных программ с СИД DISGO 123 4.2. Экспериментальный анализ производительности работы СИД DISGO, реализующей предложенные алгоритмы и методы 125 4.2.1. Анализ производительности СИД DISGO в локальной сети 125 4.2.2. Анализ производительности СИД DISGO в распределенной сети 137 4.2.3. Результаты анализа работы средств интеграции данных DISGO и Oracle 146 ЗАКЛЮЧЕНИЕ 147 ЛИТЕРАТУРА 150 ПРИЛОЖЕНИЕ 156
ВВЕДЕНИЕ В настоящей работе рассматриваются методы и средства решения задачи интеграции изначально разрозненных распределенных баз данных (БД), используемых для хранения данных в некоторой общей предметной области. Основными ситуациями, в которых возникает потребность в решении указанной задачи, являются следующие две. В частности, такая потребность возникает при слиянии нескольких объединяемых организаций (учреждений, предприятий, компаний и пр.) в одну укрупненную организацию. В этом случае для управления объединенной организацией сразу же возникает потребность в организации интегрированного доступа ко всей совокупности идентичных по своему функциональному назначению данных объединяемых организаций. Обеспечить такой интегрированный доступ можно применив один из двух существенно отличающихся подходов. Первый, естественный и, по сути, наиболее правильный подход состоит в разработке новой интегрированной БД (путем переработки, возможно весьма существенной, структуры интегрируемых БД) объединенной организации и в переносе в эту БД данных из всех БД объединяемых организаций. Однако реализация этого подхода требует немалых времени и средств. Особенно критичным фактором здесь является время, необходимое для создания интегрированной БД: ведь интегрированная совокупность данных всех БД требуется сразу же после объединения организаций, а не через несколько месяцев или даже лет. Поэтому на время создания единой интегрированной БД объединенной организации предлагается воспользоваться вторым подходом, состоящим в создании «интегрирующей надстройки» над совокупностью подлежащих объединению БД. Сроки создания
такой надстройки могут быть существенно сокращены путем применения специальных систем интеграции данных, являющихся основным предметом рассмотрения настоящей монографии. Отметим, что в настоящее время тенденция к слиянию организаций прослеживается в ряде отраслей, включающих, в частности, отрасли связи, торговли, гостиничного бизнеса и, конечно, образования. Так в сфере образования эта тенденция нашла свое отражение в программе создания и развития Федеральных университетов, выполняемой в рамках национального проекта «Образование». Отметим также, что для некоторых организаций процесс их укрупнения путем последовательного присоединения к ним все новых и новых поглощаемых организаций может носить «перманентный» характер. Поэтому учитывая имеющую место тенденцию к укрупнению (порою перманентного) организаций, а также потребность объединенной организации в быстром получении доступа к интегрированной совокупности БД всех организаций, вошедших в ее состав, подход к быстрому объединению этих БД путем применения системы интеграции данных представляется весьма актуальным. При этом в случае более или менее регулярного поглощения постоянно расширяющей организацией других организаций, важным требованием к средствам интеграции БД является максимальная простота масштабирования объединенной БД растущей организации при интеграции в структуру этой БД новых БД поглощаемых организаций. Поскольку объединяемые организации зачастую оказываются территориально распределенными, что влечет возможность эпизодических отказов в работе тех или иных каналов соединяющей эти организации распределенной
коммуникационной сети, весьма актуальным является также следующее требование к системе интеграции данных. Эта система должна обеспечивать возможность получения неполных ответов на запросы к интегрированной совокупности БД при временной недоступности части этих БД. Отметим, что при объединении организаций естественно возникает и задача надежного объединения их корпоративных сетей. Однако решение этой задачи требует значительного времени. Предмет же этой задачи выходит за рамки настоящей монографии и рассматривается, например, в работе [1]. Вторым типичным случаем потребности в интеграции независимых БД является потребность в доступе к разделяемым данным совокупности БД в пределах межкорпоративной сети нескольких независимых организаций. При этом ввиду независимости взаимодействующих организаций, реальное объединение их корпоративных БД в единую интегрированную БД исключено. Здесь единственным возможным подходом к обеспечению интегрированного доступа к совокупности разделяемых данных является создание «виртуальной интегрированной БД» путем применения для этого системы интеграции данных. При этом требование максимальной простоты масштабирования интегрированной средствами такой системы совокупности БД по отношению к БД, вновь добавляемым в эту совокупность, в этом случае является еще более актуальным. И вновь очень актуально требование обеспечения возможности получения неполного ответа на запрос к интегрированной совокупности БД. Настоящая работа посвящена рассмотрению предложенной авторами системы интеграции данных (СИД) DISGO [2-4]. В ходе этого рассмотрения вначале обсуждаются задачи СИД, выполняется анализ существующих СИД, в ходе которого
показываются их основные достоинства и недостатки. Затем предлагаются методы построения систем интеграции данных, в значительной степени снижающие отрицательный эффект указанных недостатков, а также привносящие в такие системы дополнительные полезные качества. Рассматривается реализация предложенных методов в разработанной авторами СИД DISGO и проводятся демонстрирующие преимущества DISGO результаты экспериментального сравнения этой системы с решениями, основанными на применении других СИД и средствами интеграции данных, предоставляемыми СУБД Oracle. В заключение формулируются основные результаты работы. Авторы надеются, что материал монографии будет полезен специалистам в области построения баз данных корпоративных и межкорпоративных информационных систем, а также студентам и аспирантам соответствующих специальностей.
1. ЗАДАЧА ИНТЕГРАЦИИ ДАННЫХ И ОБЗОР ИЗВЕСТНЫХ МЕТОДОВ ИНТЕГРАЦИИ ДАННЫХ Как отмечалось во введении, задача интеграции данных, извлекаемых из различных исходно независимых БД, выступающих в роли источников данных (ИД), возникает при создании межкорпоративных сводных БД, объединяющих данные некой общей предметной области в глобальной сети, а также при слиянии предприятий, требующем объединения нескольких ранее независимых БД предприятий, вошедших в объединенное предприятие. Исследования в области интеграции данных ведутся уже более двадцати лет, и за это время было поставлено и частично решено множество задач в области интеграции данных. Однако стоит отметить, что до сих пор не существует эффективных средств и методов объединения множества источников данных (ИД) в распределенных корпоративных и межкорпоративных сетях. Существующие же системы интеграции данных (СИД) обычно используют недостаточно гибкие методы построения отображений между различными схемами баз данных (далее для краткости - просто схемами), не имеют развитых средств обработки исключительных ситуаций и параллельного выполнения запросов. Отсутствие эффективных средств связано с тем, что в области интеграции данных приходится решать множество задач, часть из которых является общей для смежных с ней областей исследований, часть - уникальной именно для этой области [5]. Области, наиболее близкие области интеграции данных - это ETL (Extract, transform, load) и область создания распределенных СУБД. Термин ETL пришел из области хранилищ данных и под ним обычно понимают процессы извлечения информации из