Вычислительный вероятностный анализ: модели и методы
Покупка
Основная коллекция
Издательство:
Сибирский федеральный университет
Год издания: 2020
Кол-во страниц: 236
Дополнительно
Вид издания:
Монография
Уровень образования:
ВО - Магистратура
ISBN: 978-5-7638-4232-6
Артикул: 766112.01.99
Изложен подход к использованию вычислительного вероятностного анализа для решения задач с неопределенными входными данными. Основное внимание уделено процессу обработки, представления, моделирования и анализа информации для разных типов неопределенности. Рассмотрены различные математические модели и численные методы их обработки, вопросы надежности результатов численного моделирования для разнообразных задач в условиях ограниченного и большого объемов информации. Даны примеры применения рассматриваемого подхода для практических задач цифровой экономики, надежности технических систем и оборудования. Разработанные алгоритмы могут быть использованы для исследования сложных систем с входными данными, обусловленными различными типами неопределенности. Предназначена для магистрантов, аспирантов и специалистов, занимающихся научными ис следования ми и работающих в области решения задач с неточными входными данными.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Магистратура
- 01.04.01: Математика
- 01.04.02: Прикладная математика и информатика
- 01.04.03: Механика и математическое моделирование
- 02.04.01: Математика и компьютерные науки
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Министерство науки и высшего образования Российской Федерации Сибирский федеральный университет Б. С. Добронец, О. А. Попова Вычислительный вероятностный анализ: модели и методы Монография Красноярск СФУ 2020
УДК 519.676 ББК 22.192.3 Д564 Р е ц е н з е н т ы: К. В. Сафонов, доктор физико-математических наук, профес сор, заведующий кафедрой прикладной математики СибГУ им. М. Ф. Решетнёва; Г. А. Доррер, доктор технических наук, профессор, профессор кафедры системотехники СибГУ им. М. Ф. Решетнёва Добронец, Б. С. Д564 Вычислительный вероятностный анализ: модели и методы : монография / Б. С. Добронец, О. А. Попова. – Красноярск : Сиб. федер. ун-т, 2020. – 236 с. ISBN 978-5-7638-4232-6 Изложен подход к использованию вычислительного вероятностного анализа для решения задач с неопределенными входными данными. Основное внимание уделено процессу обработки, представления, моделирования и анализа информации для разных типов неопределенности. Рассмотрены различные математические модели и численные методы их обработки, вопросы надежности результатов численного моделирования для разнообразных задач в условиях ограниченного и большого объемов информации. Даны примеры применения рассматриваемого подхода для практических задач цифровой экономики, надежности технических систем и оборудования. Разработанные алгоритмы могут быть использованы для исследования сложных систем с входными данными, обусловленными различными типами неопределенности. Предназначена для магистрантов, аспирантов и специалистов, занимающихся научными исследованиями и работающих в области решения задач с неточными входными данными. Электронный вариант издания см.: УДК 519.676 http://catalog.sfu-kras.ru ББК 22.192.3 ISBN 978-5-7638-4232-6 © Сибирский федеральный университет, 2020
Оглавление Введение 6 1. Краткий обзор теории вероятностей 18 1.1. Понятие измеримости . . . . . . . . . . . . . . . . . . . . . 18 1.2. Борелевские σ-алгебры . . . . . . . . . . . . . . . . . . . . 20 1.3. Вероятностные пространства и случайные величины . . . 21 1.4. Лемма Doob–Dynkin . . . . . . . . . . . . . . . . . . . . . . 24 1.5. Интегрируемость и моменты случайных величин . . . . . 25 1.6. Случайные векторы и их вероятностные распределения . . 26 1.7. Независимость и корреляция случайных величин . . . . . 27 1.8. Произведение вероятностных пространств . . . . . . . . . 28 1.9. Случайные поля . . . . . . . . . . . . . . . . . . . . . . . . 29 1.10. Параметризация случайных коэффициентов . . . . . . . . 32 2. Непараметрические оценки функций плотности вероятности 34 2.1. Гистограммы . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.2. Частотные полигоны . . . . . . . . . . . . . . . . . . . . . . 41 2.3. Ядерные оценки функции плотности вероятности . . . . . 43 2.4. Экстраполяция Ричардсона и правило Рунге . . . . . . . . 45 3. Функциональный анализ данных 54 3.1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.2. Примеры функциональных данных . . . . . . . . . . . . . 58 3.3. Функциональные модели данных . . . . . . . . . . . . . . . 61 3.4. Цели функционального анализа данных . . . . . . . . . . . 65 3.5. Функциональная регрессия . . . . . . . . . . . . . . . . . . 65 3.6. Прогноз плотности . . . . . . . . . . . . . . . . . . . . . . . 68 3
4. Символьный анализ данных 74 4.1. Символьные данные . . . . . . . . . . . . . . . . . . . . . . 76 4.2. Типы переменных . . . . . . . . . . . . . . . . . . . . . . . 79 4.3. Классические переменные . . . . . . . . . . . . . . . . . . . 80 4.4. Новые типы переменных . . . . . . . . . . . . . . . . . . . . 80 4.5. Категориальные многозначные переменные . . . . . . . . . 82 4.6. Квантильное представление . . . . . . . . . . . . . . . . . . 83 4.7. Другие типы символьных данных . . . . . . . . . . . . . . 84 4.8. Методы анализа символьных данных . . . . . . . . . . . . 85 4.9. Символьная регрессия . . . . . . . . . . . . . . . . . . . . . 86 4.10. Анализ временных рядов . . . . . . . . . . . . . . . . . . . 87 5. Функции случайных переменных 88 5.1. Алгебра случайных переменных . . . . . . . . . . . . . . . 88 5.2. Вероятностные расширения . . . . . . . . . . . . . . . . . . 90 5.3. Одномерный случай . . . . . . . . . . . . . . . . . . . . . . 95 5.4. Случай двух переменных . . . . . . . . . . . . . . . . . . . 97 5.5. Многомерный случай . . . . . . . . . . . . . . . . . . . . . 101 5.6. Краевые задачи со случайными коэффициентами . . . . . 103 5.7. Надежные оценки эмпирических распределений . . . . . . 105 6. Алгебраические задачи с неопределенностями 116 6.1. Интервальные СЛАУ . . . . . . . . . . . . . . . . . . . . . 116 6.2. Системы линейных алгебраических уравнений со случайными коэффициентами . . . . . . . . . . . . . . . . . . . . 120 6.3. Использование вероятностных расширений . . . . . . . . . 124 6.4. Совместное использование метода Монте-Карло и вычислительного вероятностного анализа . . . . . . . . . . . . . 127 6.5. Решения нелинейных уравнений . . . . . . . . . . . . . . . 128 6.6. Системы нелинейных уравнений . . . . . . . . . . . . . . . 130 7. Временные ряды распределений 134 7.1. Основы временных рядов распределений . . . . . . . . . . 137 7.2. Оценка погрешности для временных рядов распределений 137 7.3. Прогноз временных рядов распределений . . . . . . . . . . 138 7.4. Методы сглаживания для временных рядов распределений 140 7.5. Метод расщепления . . . . . . . . . . . . . . . . . . . . . . 146 7.6. Численный пример . . . . . . . . . . . . . . . . . . . . . . . 148 4
8. Случайное программирование 152 8.1. Постановка задачи . . . . . . . . . . . . . . . . . . . . . . . 155 8.2. Случайное линейное программирование . . . . . . . . . . . 156 8.3. Случайное нелинейное программирование . . . . . . . . . . 160 9. Регрессионный анализ 163 9.1. Регрессионные модели над эмпирическими распределениями164 9.2. Агрегация данных . . . . . . . . . . . . . . . . . . . . . . . 167 9.3. Регрессионное моделирование на основе агрегированных данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 9.4. Классическая параметрическая регрессия . . . . . . . . . . 171 9.5. Метрики в пространстве распределений . . . . . . . . . . . 172 9.6. Регрессия над эмпирическими распределениями . . . . . . 173 9.7. Эмпирическая функциональная регрессия . . . . . . . . . . 174 9.8. Применение регрессионного подхода к функциональным временным рядам . . . . . . . . . . . . . . . . . . . . . . . . 177 10. Приложения ВВА 181 10.1. Проблемы цифровой экономики . . . . . . . . . . . . . . . 182 10.2. Методика построения гарантированых оценок показателей надёжности . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 10.3. Оценка показателей надежности . . . . . . . . . . . . . . . 196 10.4. Обработка и анализ гидрологических данных спутникового мониторинга . . . . . . . . . . . . . . . . . . 202 10.5. Оптимизация выработки электроэнергии гидроэлектростанцией в условиях неопределенности . . . . . . . . . . . . . . 208 10.6. Технология извлечения и визуализации знаний . . . . . . 212 10.7. Визуально-интерактивная анимация . . . . . . . . . . . . . 216 Заключение 222 Список литературы 224 5
Введение Монография посвящена вопросам исследования сложных систем на основе применения современных математических методов представления, численного моделирования и анализа в условиях различных видов неопределенности данных. Большинство компьютерных моделей для инженерных приложений разрабатываются для того, чтобы помочь оценить проектные или нормативные требования. В рамках этой задачи критически важна способность количественно оценить влияние изменчивости и неопределенности в контексте принимаемого решения. Вычислительная стоимость инженерных имитационных моделей довольно дорога: для моделирования с конечными элементами высокой точности может потребоваться несколько часов или дней, десятки процессоров. Таким образом, понимание того, как работают методы снижения уровня неопределенности и их относительные преимущества и затраты, очень важно. В работе обсуждаются и находят дальнейшее развитие идеи, представленные в монографии [17], рассматриваются новые, активно развивающиеся направления анализа данных, такие как вероятностный анализ (probabilistic analysis), функциональный (functional analysis) и символьный анализ (symbolic analysis). Изучаются новые аспекты повышения точности и организации вычислительного процесса обработки и анализа данных, связанные с разработкой технологии быстрых и надежных вычислений. Предлагаются новые методы и алгоритмы, учитывающие такие виды информационной неопределенности, как элиторная (aleatory uncertainty) и эпистемическая (epistemic uncertainty). Теория вероятностей предназначена для моделирования, оценки и оперирования именно элитерными неопределенностями. Элиторная неопределенность характеризует присущую случайность в поведении системы или в стадии ее изучения. Она включает в себя: изменчивость, стохастическую неопределенность. Примерами случайной неопределенности являются отказы компонентов си 6
стемы, полученные в результате статистически значимых испытаний в условиях, относящихся к применению. Элиторные неопределенности характеризуются частотными распределениями. В свою очередь, неопределённость самих вероятностных оценок называют эпистемической. Эпистемическая неопределённость прямо связана с объёмом и достоверностью информации, на основании которой получаются эти оценки [68]. Эпистемические неопределенности могут быть устранены путем более глубокого понимания (исследования), на основе увеличения объема данных или с помощью более новых достоверных предположений. Проблема надежных вычислений сегодня выходит на передний план среди проблем вычислительной математики. Следует отметить, что значительную часть производимых сегодня в мире вычислений нельзя назвать надежными, поскольку методы обеспечения надежности еще не получили должного распространения, а после выполнения обычных вычислений пользователи не всегда могут получить убедительные аргументы относительно важнейших свойств полученного решения, в том числе и его точности. Надежные вычисления (reliable computing) достигаются с учетом многих факторов, прежде всего оценками погрешности вычислительных алгоритмов и учетом неопределенностей входных данных. В этой связи важное значение приобретают апостериорные оценки погрешностей результатов численного моделирования [35]. Для практической реализации идеи повышения надежности вычислений важную роль сыграли достижения интервальной математики. Корректные интервальные вычисления гарантируют выполнение важнейших свойств численного решения и прежде всего — его локализацию. В настоящее время актуализировалась проблема применения и разработки вычислительных технологий, реализующих технику быстрых и надежных вычислений для решения разнообразных практических задач, имеющих отношение к исследованию состояний и процессов функционирования сложных систем. Например, использование систем искусственного интеллекта в технике и других областях неизбежно приводит к необходимости обработки огромных массивов информации, поступающих в устройства. В этой связи специалисты по созданию интеллектуальных систем столкнулись с проблемой обработки данных объемов (big data). Отметим также задачи, которые решаются в рамках бизнесаналитики, дистанционного мониторинга распределенных систем, робо 7
тотехники, гидро- и атомной энергетики, при анализе отказов технических систем ответственного назначения, оценки и прогрнозирования техногенных, экологических, экономических и других видов рисков и т. д. Информация, которая составляет основу подобных задач, характеризуется имеющимся объемом данных, неоднородностью, динамичностью, уровнем и различными видами неопределенности. Специфика сложности исследования таких систем обусловливается как объективными, так и субъективными аспектами. К объективным аспектам можно отнести следующие три группы факторов. Первая группа обусловливается внутренней сложностью системы как таковой. Вторая — внешней сложностью, непредсказуемостью, неопределенностью явлений и процессов, влияющих на систему и взаимодействующих с ней. Третья группа факторов связана с особенностями имеющейся у исследователя эмпирической информации и возможностями для ее обработки и анализа. Субъективный аспект связан прежде всего с тем, что практикам необходимо иметь определенный уровень доверия к применяемым математическим моделям и методам. Для них важно иметь убедительный ответ на вопрос, суть которого заключается в возможности получить достоверные, обоснованные результаты исследований, позволяющие установить с помощью численных расчетов достаточно полезную и реалистичную картину последствий принимаемых управленческих решений, несмотря на тот факт, что информация, на основе которой принимается решение, носит существенно неопределенный характер. Обеспечение необходимой надежности и сложность исследования таких систем требует привлечения большого объема материальных, финансовых, интеллектуальных, временных, информационных и других ресурсов. При этом практика показывает, что привлекаемые ресурсы и вложения их в исследования не всегда пропорциональны требуемому уровню надежности и качеству функционирования систем в условиях различных видов неопределенности. Поэтому изучение способов и разработка новых моделей и методов представления информационной неопределенности в данных, обоснованное применение известных методов моделирования и разработка новых, реализующих перечисленные выше аспекты, представляет собой актуальную задачу. Существующая неопределенность информации отражается в данных. Можно выделить три типа «неопределенных» данных: случайные, нечеткие и интервальные. Случайные числа задаются некоторыми вероятностными распределениями их возможных значений, нечеткие данные зада 8
ются лингвистически сформулированными распределениями их возможных значений, интервальные данные задаются интервалами их возможных значений без указания какого-либо распределения внутри заданного интервала [101, 10, 50]. Изучение интервальной неопределенности способствовало созданию интервального анализа. Для случайной неопределенности знание законов распределения случайных величин позволяет оценивать параметры стохастических систем, используя метод МонтеКарло. Теория нечетких множеств широко используется для моделирования систем и принятия решений. В настоящее время для ряда задач в условиях стохастической неопределенности используется вычислительный вероятностный анализ [17, 31, 33, 71, 76]. В ряде случаев он успешно заменяет метод Монте-Карло [27, 39, 51], обладая значительно более высокой скоростью сходимости. В отличие от метода Монте-Карло он направлен на непосредственное построение распределений вероятности выходных переменных. Это существенно повышает качество полученных численных решений. Для оценки качества решений важное значение имеет надежность полученных результатов. Любое измерение и методы его обработки содержат неточности. Рассмотрим последовательно этапы «эпохи» развития надежных вычислений. До «эпохи» надежных вычислений использовали «сырые данные» без предварительной обработки. Первый этап надежных вычислений заключался в статистической обработке и приближенном вычислении различных статистических характеристик. Ошибки численных методов приближенно оценивались с помощью двусторонних методов, например, правило Рунге, машинные арифметики не учитывали ошибки округления на компьютерах [21]. Второй этап — эра интервального анализа (ИА) началась с 50-х годов прошлого века. На этом этапе неопределенные данные представлялись в виде интервальных данных. Машинные арифметики, используемые в ИА, уже учитывали ошибки округления, а ошибки численных методов оценивались с помощью интервалов. ИА дает полностью гарантированные оценки, при этом значительно увеличивая время работы алгоритмов. К недостаткам интервального анализа можно отнести значительную ширину интервальных оценок по сравнению с оптимальными. ИА не использует информацию о возможных распределениях входных данных и соответственно не дает внутреннего распределения результатов вычислений, которые часто оказывались сосредоточенными только в небольших областях. Интервальные данные можно отнести к эпистимическому 9
типу неопределенности. Несмотря на указанные недостатки интервальный анализ позволяет эффективно решать многие практические задачи и широко используется при численном моделировании, например [24]. Третий этап — использование распределенных данных, в частности функций плотностей вероятности. Понятие распределенных данных — достаточно новое и появилось в научной литературе совсем недавно. Начало было положено разработкой численных операций над плотностями случайных величин, включая гистограммную арифметику. Одно из интересных представлений распределенных данных — символьные данные. Символьные данные были описаны Edwin и Diday в 1987 году [58]. Символьные переменные позволяют описывать группы индивидов и понятия. Символьные переменные включают списки значений (с весами или без них), интервальные переменные и даже гистограммы. Символьные представления могут включать внутреннюю структуру (иерархии) и логическую зависимость (правила). Другой подход, при котором данные представляются в агрегированном виде, получил название Granular Computing (см., например, [112]). Информационные гранулы определяются, как группы отдельных наблюдений, которые отражают семантику абстрактных объектов, представляющих интерес. Как правило, с учетом набора данных D, в результате грануляции получается набор гранул, образованных на основе сходства или близости, которая может быть достигнута, например, с помощью алгоритмов кластеризации. Когда данные числовые, гранулы часто принимают форму гиперкубов. Информационные гранулы, описанные в теории нечетких множеств, представляются с помощью функции принадлежности. Распределенные переменные позволяют описывать каждую группу переменных посредством распределений. Распределения не используют статистические данные, такие как среднее, дисперсия, минимум и максимум и т. д. На практике сосредоточиваются на представлениях, которое лучше подходят для решения проблемы. Методы для распределенных данных включают в себя следующие разделы: описательная статистика, регрессия, кластеризация, уменьшение размерности, прогнозирование временных рядов, методы визуализации. Параллельно с символьным анализом развивается вычислительный вероятностный анализ (ВВА). Вычислительный вероятностный анализ разработан как новое направление в вычислительной статистике (Computational Statistics) и предназначен для решения практических задач, связанных с исследованиями сложных систем в условиях различных видов неопределенности и типов 10