Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Методы и средства интеграции независимых баз данных в распределенных телекоммуникационных сетях

Покупка
Основная коллекция
Артикул: 633376.01.99
Доступ онлайн
225 ₽
В корзину
Рассматривается задача интеграции изначально разрозненных баз данных (БД), в которых хранятся данные о некоторой общей для этих БД предметной области, а также методы и средства решения этой задачи. На базе анализа степени и качества решения указанной задачи, как известными авторам специализированными системами интеграции (СИД) данных, так и средствами интеграции данных СУБД Oracle, выявлены основные недостатки указанных решений. В монографии предложены методы построения систем интеграции данных, в значительной степени снижающие отрицательный эффект указанных недостатков, а также привносящие в такие системы дополнительные полезные качества. Рассматривается реализация предложенных методов в разработанной авторами СИД DISGO и проводятся демонстрирующие преимущества DISGO результаты экспериментального сравнения этой системы с решениями, основанными на применении других СИД. Предложенная система может применяться для интеграции данных независимых территориально удаленных БД в распределенных телекоммуникационных сетях крупных корпораций и в сетях межкорпоративного взаимодействия. Монография адресована специалистам в области построения баз данных корпоративных и межкорпоративных информационных систем, а также студентам и аспирантам соответствующих специальностей. Ключевые слова: базы данных (БД), интеграция данных независимых распределенных БД, локальная и глобальная схемы данных, язык Catalog, оптимизация запросов к БД, неполный ответ на запрос, недоступность части БД. Публикуется в авторской редакции.
Букатов, А. А. Методы и средства интеграции независимых баз данных в распределенных телекоммуникационных сетях: монография / А. А. Букатов, А.В. Пыхалов; Южный федеральный университет. - Ростов-на-Дону: Издательство Южного федерального университета, 2013. - 160 с. - ISBN 978-5-9275-1189-1. - Текст : электронный. - URL: https://znanium.com/catalog/product/551415 (дата обращения: 01.05.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
Министерство образования и науки Российской Федерации 
Федеральное агентство по образованию 
 
Федеральное государственное автономное образовательное 
учреждение высшего профессионального образования 
«ЮЖНЫЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ» 
Южно-Российский региональный центр информатизации 
 

 

 

А.А. БУКАТОВ, А.В. ПЫХАЛОВ  

 

МЕТОДЫ И СРЕДСТВА ИНТЕГРАЦИИ 

НЕЗАВИСИМЫХ БАЗ ДАННЫХ 

В РАСПРЕДЕЛЕННЫХ 

ТЕЛЕКОММУНИКАЦИОННЫХ СЕТЯХ 

 

Монография 

 

 

 

 

 

 

 

 

 
Ростов-на-Дону  
2013 

УДК 681.326 
ББК 32.973 
    Б 92 
 
Печатается по решению редакционно-издательского совета  
Южного федерального университета 
 
Рецензенты: 
Заместитель директора по инновациям МИЭМ НИУ ВШЭ доктор 
технических наук, профессор, академик Академии информатизации 
образования Кулагин В.П.  
Заведующий кафедрой информационно-технических систем 
безопасности ЮФУ, доктор технических наук, профессор Целых А. Н. 
 
 Букатов А.А., Пыхалов А.В. 
Методы 
и 
средства 
интеграции 
независимых 
баз 
данных 
в 
распределенных телекоммуникационных сетях: монография  / А.А. 
Букатов, А.В Пыхалов; Южный федеральный университет. – Ростовна-Дону: Издательство Южного федерального университета, 2013.      
– 160 с. 
ISBN 978-5-9275-1189-1 

 
Рассматривается задача интеграции изначально разрозненных баз данных 
(БД), в которых хранятся данные о некоторой общей для этих БД предметной 
области, а также методы и средства решения этой задачи. На базе анализа степени и 
качества 
решения 
указанной 
задачи, 
как 
известными 
авторам 
специализированными системами интеграции (СИД) данных, так и средствами 
интеграции данных СУБД Oracle, выявлены основные недостатки указанных 
решений. В монографии предложены методы построения систем интеграции данных, 
в значительной степени снижающие отрицательный эффект указанных недостатков, 
а также привносящие в такие системы дополнительные полезные качества. 
Рассматривается реализация предложенных методов в разработанной авторами СИД 
DISGO 
и 
проводятся 
демонстрирующие 
преимущества 
DISGO 
результаты 
экспериментального сравнения этой системы с решениями, основанными на 
применении других СИД. Предложенная система может применяться для 
интеграции данных независимых территориально удаленных БД в распределенных 
телекоммуникационных сетях крупных корпораций и в сетях межкорпоративного 
взаимодействия. 
Монография адресована специалистам в области построения баз данных 
корпоративных и межкорпоративных информационных систем, а также студентам и 
аспирантам соответствующих специальностей. 
Ключевые слова: базы данных (БД), интеграция данных независимых 
распределенных БД, локальная и глобальная схемы данных, язык Datalog, 
оптимизация запросов к БД, неполный ответ на запрос, недоступность части БД. 
Публикуется в авторской редакции. 
 
ISBN 978-5-9275-1189-1                                                                                УДК 681.326 
ББК 32.973 
  
 
 
 
 
 
 
 
  
 
 
© Букатов А.А., Пыхалов В.П., 2013 
  
 
 
 
 
 
© Южный федеральный университет, 2013 

Б 92    

СОДЕРЖАНИЕ 
 

 
ВВЕДЕНИЕ 
6

1. 
ЗАДАЧА ИНТЕГРАЦИИ ДАННЫХ И ОБЗОР 
ИЗВЕСТНЫХ МЕТОДОВ ИНТЕГРАЦИИ ДАННЫХ
10

1.1. 
Различные подходы к интеграции данных: GAV, 
LAV, GLAV 
12

1.2. 
Модели данных и языки запросов, используемые в 
области интеграции данных 
14

1.3. 
Методы обработки и оптимизации запросов в СИД 
18

1.3.1.
Методы оптимизации запросов в реляционных 
СУБД 
18

1.3.2.
Методы обработки и оптимизации запросов в 
распределенных СУБД 
21

1.3.3.
Методы борьбы с устаревшей статистикой в СИД 
27

1.3.4.
Методы обработки запросов в Oracle Heterogeneous 
Services 
29

1.3.5.
Методы обработки и оптимизации запросов в СИД 
SIMS 
31

1.3.6.
Методы обработки запросов в СИД TSIMMIS 
33

1.3.7.
Методы обработки и оптимизации запросов в СИД 
Information Manifold 
34

1.3.8.
Методы обработки запросов в P2P СИД 
36

1.4. 
Методы работы с неполными и противоречивыми 
данными 
40

1.4.1.
Формальная модель для интеграции данных 
Multiplex 
41

1.4.2.
Методы разрешения противоречий в СИД Fusionplex
48

1.5. 
Выводы по результатам анализа существующих 
СИД и постановка задачи на разработку 
усовершенствованной СИД 
50

2. 
МЕТОДЫ ОБРАБОТКИ И ОПТИМИЗАЦИИ 
ЗАПРОСОВ В РАСПРЕДЕЛЕННОЙ СЕТИ 
54

2.1. 
Краткое описание предлагаемых методов и 
реализующих их средств 
54

2.2 
Метод определения источников данных, 
используемых в запросе к распределенной 
совокупности источников данных 
57

2.2.1.
Используемая модель данных 
57

2.2.2.
Подход к построению отображений между 
глобальной схемой и локальными схемами 
62

2.2.3.
Пример описания отображения между схемами 
данных источников данных при использовании 
различных подходов к описанию отображений 
66

2.3. 
Методы обработки и оптимизации запросов 
68

2.3.1.
Общий алгоритм выполнения запросов 
69

2.3.2.
Метод непосредственного выполнения запросов 
70

2.3.3.
Оптимизированный метод выполнения запросов 
73

2.4. 
Резюме по разработанным методам обработки и 
оптимизации запросов в распределенной сети 
82

3. 
АЛГОРИТМЫ ОБРАБОТКИ ЗАПРОСОВ В 
СИСТЕМЕ ИНТЕГРАЦИИ ДАННЫХ, 
ПРЕДНАЗНАЧЕННОЙ ДЛЯ РАБОТЫ В 
РАСПРЕДЕЛЕННОЙ СЕТИ 
84

3.1. 
Построение графа взаимосвязанности выражений 
84

3.1.1.
Алгоритм унификации предикатов в СИД DISGO 
89

3.2. 
Алгоритмы генерации выражений РА 
91

3.2.1.
Алгоритм генерации выражений РА для не 
рекурсивных программ 
91

3.2.2.
Алгоритм генерации выражений РА для 
рекурсивных программ 
95

3.3. 
Алгоритм генерации SQL по выражениям РА 
103

3.4. 
Алгоритмы оптимизации запросов 
106

3.4.1.
Алгоритм оптимизации запросов на основе правил 
107

3.4.2.
Алгоритмы сбора и обработки статистики 
110

3.5. 
Корректность предложенных алгоритмов
116

3.6. 
Резюме по разработанным методам выполнения 
запросов к СИД 
117

4. 
РЕАЛИЗАЦИЯ МЕТОДОВ И СРЕДСТВ 
ИНТЕГРАЦИИ ДАННЫХ В РАСПРЕДЕЛЕННОЙ 
119

СЕТИ 
4.1. 
Общее описание СИД DISGO 
119

4.1.1.
Архитектура СИД DISGO 
119

4.1.2.
Схема взаимодействия прикладных программ с СИД 
DISGO 
123

4.2. 
Экспериментальный анализ производительности 
работы СИД DISGO, реализующей предложенные 
алгоритмы и методы 
125

4.2.1.
Анализ производительности СИД DISGO в 
локальной сети 
125

4.2.2.
Анализ производительности СИД DISGO в 
распределенной сети 
137

4.2.3.
Результаты анализа работы средств интеграции 
данных DISGO и Oracle 
146

 
ЗАКЛЮЧЕНИЕ  
147

 
ЛИТЕРАТУРА 
150

 
ПРИЛОЖЕНИЕ 
156

ВВЕДЕНИЕ 

В настоящей работе рассматриваются методы и средства 

решения 
задачи 
интеграции 
изначально 
разрозненных 

распределенных баз данных (БД), используемых для хранения 

данных в некоторой общей предметной области. Основными 

ситуациями, 
в 
которых 
возникает 
потребность 
в 
решении 

указанной задачи, являются следующие две.  

В частности, такая потребность возникает при слиянии 

нескольких 
объединяемых 
организаций 
(учреждений, 

предприятий, компаний и пр.) в одну укрупненную организацию. 

В этом случае для управления объединенной организацией сразу 

же возникает потребность в организации интегрированного 

доступа 
ко 
всей 
совокупности 
идентичных 
по 
своему 

функциональному 
назначению 
данных 
объединяемых 

организаций. Обеспечить такой интегрированный доступ можно 

применив один из двух существенно отличающихся подходов. 

Первый, естественный и, по сути, наиболее правильный подход 

состоит 
в 
разработке 
новой 
интегрированной 
БД 
(путем 

переработки, 
возможно 
весьма 
существенной, 
структуры 

интегрируемых БД) объединенной организации и в переносе в эту 

БД данных из всех БД объединяемых организаций. Однако 

реализация этого подхода требует немалых времени и средств. 

Особенно критичным фактором здесь является время, необходимое 

для 
создания 
интегрированной 
БД: 
ведь 
интегрированная 

совокупность 
данных 
всех 
БД 
требуется 
сразу 
же 
после 

объединения организаций, а не через несколько месяцев или даже 

лет. Поэтому на время создания единой интегрированной БД 

объединенной организации предлагается воспользоваться вторым 

подходом, состоящим в создании «интегрирующей надстройки» над 

совокупностью подлежащих объединению БД. Сроки создания 

такой надстройки могут быть существенно сокращены путем 

применения 
специальных 
систем 
интеграции 
данных, 

являющихся 
основным 
предметом 
рассмотрения 
настоящей 

монографии.  

Отметим, что в настоящее время тенденция к слиянию 

организаций прослеживается в ряде отраслей, включающих, в 

частности, отрасли связи, торговли, гостиничного бизнеса и, 

конечно, образования. Так в сфере образования эта тенденция 

нашла свое отражение в программе создания и развития 

Федеральных 
университетов, 
выполняемой 
в 
рамках 

национального проекта «Образование». Отметим также, что для 

некоторых 
организаций 
процесс 
их 
укрупнения 
путем 

последовательного присоединения к ним все новых и новых  

поглощаемых 
организаций 
может 
носить 
«перманентный» 

характер. Поэтому учитывая имеющую место тенденцию к 

укрупнению 
(порою 
перманентного) 
организаций, 
а 
также 

потребность объединенной организации в быстром получении 

доступа к интегрированной совокупности БД всех организаций, 

вошедших в ее состав, подход к быстрому объединению этих БД 

путем применения системы интеграции данных представляется 

весьма актуальным. При этом в случае более или менее  

регулярного поглощения постоянно расширяющей организацией 

других 
организаций, 
важным 
требованием 
к 
средствам 

интеграции 
БД 
является 
максимальная 
простота 

масштабирования объединенной БД растущей организации при 

интеграции в структуру этой БД новых БД поглощаемых 

организаций.  

Поскольку объединяемые организации зачастую оказываются 

территориально 
распределенными, 
что 
влечет 
возможность 

эпизодических 
отказов 
в 
работе 
тех 
или 
иных 
каналов 

соединяющей 
эти 
организации 
распределенной 

коммуникационной сети, весьма актуальным является также 

следующее требование к системе интеграции данных. Эта система 

должна обеспечивать возможность получения неполных ответов на 

запросы к интегрированной совокупности БД при временной 

недоступности части этих БД. Отметим, что при объединении 

организаций 
естественно 
возникает 
и 
задача 
надежного 

объединения их корпоративных сетей. Однако решение этой 

задачи требует значительного времени. Предмет же этой задачи 

выходит за рамки настоящей монографии и рассматривается, 

например, в работе [1]. 

Вторым 
типичным 
случаем 
потребности 
в 
интеграции 

независимых БД является потребность в доступе к разделяемым 

данным совокупности БД в пределах межкорпоративной сети 

нескольких 
независимых 
организаций. 
При 
этом 
ввиду 

независимости 
взаимодействующих 
организаций, 
реальное 

объединение их корпоративных БД в единую интегрированную БД 

исключено. 
Здесь 
единственным 
возможным 
подходом 
к 

обеспечению 
интегрированного 
доступа 
к 
совокупности 

разделяемых 
данных 
является 
создание 
«виртуальной 

интегрированной БД» путем применения для этого системы 

интеграции 
данных. 
При 
этом 
требование 
максимальной 

простоты масштабирования интегрированной средствами такой 

системы совокупности БД по отношению к БД, вновь добавляемым 

в эту совокупность, в этом случае является еще более актуальным. 

И вновь очень актуально требование обеспечения возможности 

получения неполного ответа на запрос к интегрированной 

совокупности БД. 

Настоящая работа посвящена рассмотрению предложенной 

авторами системы интеграции данных (СИД) DISGO [2-4]. В ходе 

этого 
рассмотрения 
вначале 
обсуждаются 
задачи 
СИД, 

выполняется анализ существующих СИД, в ходе которого 

показываются их основные достоинства и недостатки. Затем 

предлагаются методы построения систем интеграции данных, в 

значительной 
степени 
снижающие 
отрицательный 
эффект 

указанных недостатков, а также привносящие в такие системы 

дополнительные полезные качества. Рассматривается реализация 

предложенных методов в разработанной авторами СИД DISGO и 

проводятся демонстрирующие преимущества DISGO результаты 

экспериментального сравнения этой системы с решениями, 

основанными 
на 
применении 
других 
СИД 
и 
средствами 

интеграции 
данных, 
предоставляемыми 
СУБД 
Oracle. 
В 

заключение формулируются основные результаты работы. 

Авторы надеются, что материал монографии будет полезен 

специалистам в области построения баз данных корпоративных и 

межкорпоративных информационных систем, а также студентам и 

аспирантам соответствующих специальностей. 

  

1. ЗАДАЧА ИНТЕГРАЦИИ ДАННЫХ И ОБЗОР 

ИЗВЕСТНЫХ МЕТОДОВ ИНТЕГРАЦИИ ДАННЫХ 

 

Как отмечалось во введении, задача интеграции данных, 

извлекаемых 
из 
различных 
исходно 
независимых 
БД, 

выступающих в роли источников данных (ИД), возникает при 

создании межкорпоративных сводных БД, объединяющих данные 

некой общей предметной области в глобальной сети, а также при 

слиянии предприятий, требующем объединения нескольких ранее 

независимых 
БД 
предприятий, 
вошедших 
в 
объединенное 

предприятие. Исследования в области интеграции данных ведутся 

уже более двадцати лет, и за это время было поставлено и 

частично решено множество задач в области интеграции данных. 

Однако стоит отметить, что до сих пор не существует эффективных 

средств и методов объединения множества источников данных 

(ИД) в распределенных корпоративных и межкорпоративных 

сетях. Существующие же системы интеграции данных (СИД) 

обычно используют недостаточно гибкие методы построения 

отображений между различными схемами баз данных (далее для 

краткости - просто схемами), не имеют развитых средств обработки 

исключительных ситуаций и параллельного выполнения запросов. 

Отсутствие эффективных средств связано с тем, что в области 

интеграции данных приходится решать множество задач, часть из 

которых 
является 
общей 
для 
смежных 
с 
ней 
областей 

исследований, часть - уникальной именно для этой области [5]. 

Области, наиболее близкие области интеграции данных - это ETL 

(Extract, transform, load) и область создания распределенных 

СУБД. Термин ETL пришел из области хранилищ данных и под 

ним обычно понимают процессы извлечения информации из 

различных ИД, преобразование данных к виду, необходимому для 

загрузки в хранилище данных, и собственно загрузку данных [6]. 

Среди задач, общих для области интеграции данных и области 

ETL, стоит выделить задачу создания и поддержания отображений 

между схемами различных ИД [7], задачи, общие для области 

интеграции 
данных 
и 
области 
распределенных 
СУБД 
- 

оптимизация 
запросов 
в 
распределенной 
среде 
и 
задача 

представления 
данных 
[8]. 
Специфичными 
для 
области 

интеграции данных являются задачи получения ответов на 

запросы в случаях недоступности ИД, агрегирование данных 

множества ИД с учетом их неполноты.  

Задача сопоставления двух схем заключается в исследовании 

двух схем и данных, соответствующих этим схемам, с целью 

создания отображения между этими ними. Задача поддержания 

корректности отображений между схемой ИД (которую также 

называют локальной схемой) и целевой схемой (которую также 

называют 
глобальной 
схемой) 
заключается 
в 
обнаружении 

изменений схемы и способов представления данных в ИД, которые 

делают некорректным имеющиеся отображения между схемой ИД 

и целевой схемой. Эта задача является особенно важной в области 

интеграции данных, так как ИД обычно управляются независимо 

от системы интеграции данных (СИД) и их схемы могут 

изменяться с течением времени [9]. Задача оптимизации запросов 

хорошо исследована в процессе создания распределенных СУБД, 

однако специфика области интеграции данных предъявляет новые 

требования к оптимизации запросов. Здесь может рассматриваться 

оптимизация запросов к различным типам ИД (например, 

оптимизация запросов к Web-сервисам [10] или HTML-формам), 

оптимизация в случае устаревшей или отсутствующей статистики, 

оптимизация 
в 
случае 
использования 
неполных 
ИД 
или 

недоступности отдельных ИД.  

Под задачей представления данных понимается выбор 

модели данных (МД), наиболее подходящей для конкретного 

класса прикладных задач (например, реляционной МД, XML
модели 
или 
RDF-модели). 
Задача 
агрегирования 
данных 

множества ИД заключается в получении результата из множества 

ответов различных ИД, которые в большинстве случаев будут 

неполными, 
а 
также 
могут 
содержать 
противоречивую 

информацию. Задача получения ответа в случае недоступности ИД 

заключается в том, что СИД должна рассматривать способы 

получения неполных ответов на запрос пользователя в случае 

недоступности ИД.  

В настоящей главе рассматриваются задачи, методы и 

средства интеграции данных, уточняется научная задача и 

частные задачи исследования . Основное внимание уделяется 

методам оптимизации запросов и получения ответов на запросы в 

условиях недоступности части ИД. 

 

1.1. Различные подходы к интеграции данных: GAV, 

LAV, GLAV 

Одним из основных архитектурных различий СИД является 

подход к интеграции данных. Выбор подхода определяет основные 

алгоритмы, 
используемые 
при 
формировании 
ответа 
на 

пользовательские 
запросы. 
Подход 
к 
интеграции 
данных 

определяет метод задания и интерпретации отображений между 

схемами различных ИД. 

При рассмотрении отображения между двумя схемами 

обычно говорят о схеме ИД и целевой схеме, в терминах которой 

формулируются запросы. Выделяют три основных подхода к 

составлению отображений: GAV (Global As View) [11], LAV (Local 

As View) [12] и GLAV [13]. Подходы GLAV и LAV предоставляют 

более гибкие, чем при использовании подхода GAV, средства для 

описания отображений между схемами ИД и целевой схемой. 

Однако 
алгоритмы 
обработки 
запросов 
при 
использовании 

подходов LAV и GLAV значительно сложнее аналогичных 

алгоритмов СИД, использующей GAV-подход к составлению 

отображений между схемами. 

При использовании подхода GAV целевая схема выражается 

через схемы ИД посредством нерекурсивных программ Datalog'а 

(логического языка запросов (ЯЗ) к БД [14]), состоящих из правил 

вида  

 

где  r — отношение целевой схемы,  — отношения схем ИД, [13]. 

При этом запросы выражаются в терминах целевой схемы, и 

выполнение запросов сводится к вычислению представлений.  

При использовании подхода LAV схема ИД выражаются 

через отношения целевой схемы посредством не рекурсивных 

программ Datalog'а, состоящих из правил вида  

  

где 
 — отношения целевой схемы, s - отношение схемы ИД,  

 [12]. При этом запросы выражаются в терминах целевой 

схемы. В данном случае обработка запросов усложняется и может 

быть выполнена согласно алгоритму, приведенному в [12]. Данный 

алгоритм состоит из нескольких шагов. Его основой является 

последовательное 
преобразование 
правил, 
соответствующих 

запросу пользователя и выполнение отображения между целевой 

схемой и схемой ИД. Указанные действия выполняются с целью 

избавления 
от 
переменных, 
присутствующих 
в 
, 
но 

отсутствующих в 
. В результате работы алгоритма получается 

план, представляющий собой Datalog-программу, в которой в 

качестве явных предикатов используются предикаты ИД. 

Доступ онлайн
225 ₽
В корзину