Передача, хранение и обработка больших объемов научных данных
Покупка
Основная коллекция
Тематика:
Общая информатика
Издательство:
НИЦ ИНФРА-М
Год издания: 2021
Кол-во страниц: 207
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
Профессиональное образование
ISBN: 978-5-16-015985-0
ISBN-онлайн: 978-5-16-108415-1
DOI:
10.12737/1073525
Артикул: 726962.01.01
К покупке доступен более свежий выпуск
Перейти
В учебном пособии рассматриваются крупные научные проекты и объемы генерируемых ими данных, дается обзор научных компьютерных сетей, позволяющих производить высокоскоростную передачу больших объемов данных для этих проектов. Рассматриваются вычислительные системы, предлагаемые ведущими производителями компьютерной техники для обработки больших объемов данных и предоставляющие как возможности хранения больших объемов данных, в том числе распределенных, так и средства аналитики и параллельной обработки данных в реальном масштабе времени. Особое внимание уделено безопасности передаваемой научной информации.
Соответствует требованиям федеральных государственных образовательных стандартов высшего образования последнего поколения.
Для студентов технических специальностей бакалавриата, магистратуры, специалитета, обучающихся по направлениям подготовки «Прикладная математика и информатика», «Бизнес-информатика» и «Информатика и вычислительная техника».
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 09.03.01: Информатика и вычислительная техника
- 09.03.03: Прикладная информатика
- 38.03.05: Бизнес-информатика
ГРНТИ:
Скопировать запись
Передача, хранение и обработка больших объемов научных данных, 2024, 726962.05.01
Передача, хранение и обработка больших объемов научных данных, 2022, 726962.04.01
Фрагмент текстового слоя документа размещен для индексирующих роботов
ПЕРЕДАЧА, ХРАНЕНИЕ И ОБРАБОТКА БОЛЬШИХ ОБЪЕМОВ НАУЧНЫХ ДАННЫХ А.А. ГРИГОРЬЕВ Е.А. ИСАЕВ П.А. ТАРАСОВ Рекомендовано Межрегиональным учебно-методическим советом профессионального образования в качестве учебного пособия для студентов высших учебных заведений, обучающихся по направлениям подготовки 01.03.02 «Прикладная математика и информатика», 09.03.01 «Информатика и вычислительная техника», 38.03.05 Бизнес-информатика» (квалификация (степень) «бакалавр») (протокол № 10 от 12.10.2020) Москва ИНФРА-М 2021 УЧЕБНОЕ ПОСОБИЕ
УДК 004.6(075.8) ББК 32.973.202я73 Г83 Григорьев А.А. Г83 Передача, хранение и обработка больших объемов научных данных : учебное пособие / А.А. Григорьев, Е.А. Исаев, П.А. Тарасов. — Москва : ИНФРА-М, 2021. — 207 с. — (Высшее образова ние: Бакалавриат). — DOI 10.12737/1073525. ISBN 978-5-16-015985-0 (print) ISBN 978-5-16-108415-1 (online) В учебном пособии рассматриваются крупные научные проекты и объ емы генерируемых ими данных, дается обзор научных компьютерных сетей, позволяющих производить высокоскоростную передачу больших объемов данных для этих проектов. Рассматриваются вычислительные системы, предлагаемые ведущими производителями компьютерной техники для обработки больших объемов данных и предоставляющие как возможности хранения больших объемов данных, в том числе распределенных, так и средства аналитики и параллельной обработки данных в реальном масштабе времени. Особое внимание уделено безопасности передаваемой научной информации. Соответствует требованиям федеральных государственных образова тельных стандартов высшего образования последнего поколения. Для студентов технических специальностей бакалавриата, магистрату ры, специалитета, обучающихся по направлениям подготовки «Прикладная математика и информатика», «Бизнес-информатика» и «Информатика и вычислительная техника». УДК 004.6(075.8) ББК 32.973.202я73 Р е ц е н з е н т ы: Сиденко А.В., доктор экономических наук, профессор, президент, директор Института статистики Российской академии диалектикосистемных исследований и разработок; Тихвинский В.О., доктор экономических наук, кандидат техниче ских наук, старший научный сотрудник, профессор кафедры «Цифровая экономика, управление и бизнес-технологии» факультета «Цифровая экономика и массовые коммуникации» Московского технического университета связи и информатики ISBN 978-5-16-015985-0 (print) ISBN 978-5-16-108415-1 (online) © Григорьев А.А., Исаев Е.А., Тарасов П.А., 2021 Данная книга доступна в цветном исполнении в электронно-библиотечной системе Znanium.com
Список принятых сокращений АПКШ — Аппаратно-программный комплекс шифрования ВОЛС — Волоконно-оптические линии связи Гбит/с — Гигабит в секунду ГВС — Городская вычислительная сеть ДМЗ — Демилитаризованная зона ЖКХ — Жилищно-коммунальное хозяйство ИМПБ РАН — Институт математических проблем биологии Российской академии наук ИПМ РАН — Институт прикладной математики имени М.В. Кел дыша Российской академии наук ИТЭФ — Институт теоретической и экспериментальной физики имени А.И. Алиханова Национального исследовательского центра «Курчатовский институт» ИФВЭ — Институт физики высоких энергий имени А.А. Логу нова Кбит/с — Килобит в секунду КПС — Комплекс программных средств ЛВС — Локальная вычислительная сеть МГУ — Московский государственный университет МСЦ РАН — Межведомственный суперкомпьютерный центр Российской академии наук МЦОД — Модульный центр обработки данных НАИРИТ — Национальная ассоциация инноваций и развития информационных технологий НИИЯФ МГУ — Научно-исследовательский институт ядерной физики имени Д.В. Скобельцына МГУ НПО — Научно-производственное объединение НСД — Несанкционированный доступ ОИЯИ — Объединенный институт ядерных исследований ПИЯФ РАН — Петербургский институт ядерной физики имени Б.П. Константинова РАН Пбит/с — Петабит в секунду ПЗ — Программная задача РАН — Российская академия наук РДИГ — Российский Грид для интенсивных операций с дан ными РНЦ КИ — Российский национальный центр «Курчатовский институт»
РТ — Радиотелескоп СКС — Структурированная кабельная система СУБД — Система управления базами данных СХД — Системы хранения данных Тбит — Терабит Тбит/с — Терабит в секунду Тб — Терабайт ЦОД — Центр обработки данных ЦОНИ — Центр обработки научных данных AARNet — Australia’s Academic and Research Network AODV — Ad hoc On-Demand Distance Vector ASE — Amplified Spontaneous Emission ASN — Alcatel-Lucent Submarine Networks ALICE — América Latina Interconectada Con Europa APAN — All Partners Access Network ATSP — Attack-tolerant Time-Synchronization Protocol BI — Business intelligence BGP — Border Gateway Protocol CARP — Clustered anti-replay protection CBS — Centre Biological Sciences CERN — European Organization For Nuclear Research CHEMAS — Checkpoint-based Multi-hop Acknowledgement Scheme CLARA — Cooperación Latino Americana de Redes Avanzadas CLARIN — Common Language Resources and Technology Infra structure DARIAH — Digital Research Infrastructure for the Arts and Hu manities DAS — Direct-attached storage DDoS — Distributed Denial of Service DDBJ — DeoxyriboNucleic Acid Data Bank of Japan DEISA — Distributed European Infrastructure for Supercomputing Applications DHCP — Dynamic Host Configuration Protocol DNA — DeoxyriboNucleic Acid DNS — Domain Name System DSSS — Direct Sequence Spread Spectrum DTU — Technical University of Denmark DWDM — Dense Wavelength Division Multiplexing EED — Extremely Efficient Detection EGEE — Enabling Grids for E-sciencE ENA — European Nucleotide Archive
EGI — European Grid Infrastructure EDD — Efficient and Distributed Detection EDFA — Erbium Doped Fiber Amplifier ESnet — Energy Sciences Network FLOPS — FLoating-point Operations Per Second FHSS — Frequency-Hopping Spread Spectrum GFLOPS — GigaFLOPS GLORIAD — Global Ring for Advanced Applications Development GTSP — Gradient Time Synchronization Protocol IDC — International Data Corporation JAM — A Jammed-Area Mapping service for sensor networks MMTS — Maximum and Minimum Consensus based Time Synchro nization NAS — Network Attached Storage HCP — Hitachi Content Platform HDFS — Hadoop Distribited File System HIP — History Information exchange Protocol HNAS — Hitachi Network Attached Storage HOP — History information exchange Optimized Protocol HPC — High Performance Computing HTTP — HyperText Transfer Protocol IEEE — Institute of Electrical and Electronics Engineers IoT — Internet of Things LADEE — Lunar Atmosphere and Dust Environment Explorer LCRD — Laser Communications Relay Demonstration LEACH — Low Energy Adaptive Clustering Hierarchy LHC — The Large Hadron Collider LSGC — The Life-Science Grid Community MPLS — Multiprotocol Label Switching NASA — National Aeronautics and Space Administration NCBI — National Center for Biotechnology Information NIST — National Institute of Standards and Technology NTP — Network Time Protocol NGS — Next-Generation Sequencing Nikhef — National Institute for Subatomic Physics NGI — National Grid Infrastructures NoSQL — Not Only SQL NREN — National Research and Education Networks NTT — Nippon Telegraph и Telephone corporation OSI — Open Systems Interconnection OSG — Open Science Grid RASNet — Russian Academy of Sciences Network
RDIG — Russian Data Intensive Grid RFC — Request for Comments RSSI — Received signal strength indicator RUHEP — Russian High Energy Physics RUNNet — Russian UNiversity Network SAN — Storage Area Network SDSS — Sloan Digital Sky Survey SEDD — Storage Efficient Distributed Detection SEEREN2 — South-Eastern European Research and Education Network 2 generation SINET — Science Information Network SIP — Session Initiation Protocol SPREAD — Secure Protocol for REliable dAta Delivery SQL — Structured Query Language TCP — Transmission Control Protocol TEIN — Trans-Eurasia Information Network TGAC — The Genome Analysis Centre VRC — Virtual research communities VPN — Virtual Privacy Network WeNMR — A worldwide e-Infrastructure for Nuclear magnetic resonance (NMR) and structural biology WSN — Wireless Sensor Networks UDP — User Datagram Protocol UWB — Ultra Wide Band
Введение В настоящее время практически во всех областях науки на блюдается стремительный, лавинообразный рост объемов данных, получаемых в ходе научных экспериментов или вычислительного моделирования [15]. Потрясающий прогресс в области информационных технологий, микро- и наноэлектроники приводит к созданию экспериментальных установок, генерирующих объемы данных, достигающие сотен терабайт и петабайт, в самых различных сферах человеческой деятельности, таких как климатология и метеорология, задачи биоинформатики и математической биологии, эксперименты физики элементарных частиц, астрономические наблюдения. Необходимость передачи сверхбольших объемов данных, по лучаемых в результате научных экспериментов, для их обработки в рамках облачных технологий или с использованием технологии Grid, обеспечение удаленного доступа исследователей к уникальному научному оборудованию, совместное выполнение проектов сотрудниками распределенных научных лабораторий, организация работы с базами данных научной информации, обмен опытом и результатами научных исследований, различные формы дистанционного обучения, проведение онлайн-конференций в режиме реального времени — все это требует наличия высокоскоростных каналов связи как в локальных сетях научно-исследовательских центров, так и в глобальном масштабе международного научного сотрудничества. Успех в науке XXI века зависит от возможности ученых оперировать большими объемами данных, доступа к вычислительным и информационным ресурсам и эффективности удаленного взаимодействия ученых в реальном масштабе времени [76]. Исследователи должны иметь возможность фильтровать данные, поступающие из отдаленных источников в реальном масштабе времени, и отбирать лишь небольшую долю этих данных. С одной стороны, проблема связана с получением доступа к нужной информации, размещенной в определенном месте, в нужное время. С другой стороны, возникает проблема эффективного управления экспериментальной установкой с удаленного рабочего места исследователя. Еще одна особенность современных научных экспериментов — это сочетание распределенного хранилища данных с необходимостью удаленного доступа к высокопроизводительным вычислительным комплексам для анализа этих данных и получения
результатов эксперимента. Исследователи также заинтересованы в долгосрочном хранении полученных архивов для возможности последующих исследований. Кроме того, научные данные в большинстве своем не имеют ограничений приватности или коммерческой тайны, научное сообщество естественным образом заинтересовано в общедоступности полученных данных. Планирование новых задач, исследований и экспериментов строится на анализе текущих результатов, что в целом накладывает дополнительные требования к возможности оперативного удаленного доступа к таким данным. Таким образом, в современном мире мы сталкиваемся с острой необходимостью решения следующих проблем: резкое увеличение передаваемых объемов научной информации в локальных и региональных сетях передачи данных; необходимость хранения, обработки и анализа этих данных для получения нового знания. Учитывая колоссальные объемы получаемых научных данных и скорость их прироста, каждая из указанных задач становится достаточно сложной для эффективного решения, тем более что в ряде случаев уже имеется исчерпание имеющихся ресурсов, а реальные прогнозы потребностей указывают на продолжение роста информационных потоков в десятки и сотни раз [16]. В данной работе рассматриваются крупные научные про екты и объемы генерируемых ими данных, дается обзор научных компьютерных сетей, позволяющих производить высокоскоростную передачу больших объемов данных для этих проектов; вычислительные системы, предлагаемые ведущими производителями компьютерной техники для обработки больших объемов данных и предоставляющие как возможности хранения больших объемов данных, в том числе распределенных, так и средства аналитики и параллельной обработки данных в реальном масштабе времени. Приведен пример топологической схемы и структурной организации научной локальной вычислительной сети Пущинской радиоастрономической обсерватории Астрокосмического центра ФИАН им. П.Н. Лебедева, а также дано описание и показаны возможности вычислительного кластера ИМПБ ПНЦ РАН для решения научных задач. Особое внимание уделено современным методам обеспечения информационной безопасности облачных вычислений, дата-центров, а также волоконно-оптических линий связи при передаче больших объемов научных данных, в том числе и современным возможностям квантовой криптографии. Представленные материалы учебного пособия отвечают требо ваниям стандартов таких дисциплин, как «Информационные про
цессы, системы и сети», «Информационная безопасность и защита информации», «Сетевые технологии» и др. Целью освоения дисциплины «Информационные процессы, системы и сети» является приобретение начальных теоретических знаний в области информационных процессов, систем и сетей, а также начальных практических навыков в сфере разработки приложений БД, интернет-сайтов, проведения рекламных кампаний в интернете и реализации задач анализа с использованием данных интернет-статистики. Курс «Информационные процессы, системы и сети» в струк туре образовательной программы частично относится к профессиональным, а частично к базовым дисциплинам, читается на первыхвторых курсах и базируется: • на базовом школьном курсе информатики; • программировании; • теоретических основах информатики. Целью освоения дисциплины «Информационная безопасность и защита информации» является приобретение начальных теоретических знаний в области положений информационной безопасности и защиты информации. В процессе изучения дисциплины рассматриваются основные законодательные акты, касающиеся вопросов информационной безопасности. Вводится понятие информации с точки зрения предмета защиты информации, определяются основные категории, которым должна удовлетворять информация. Вводится понятие «атака» на информацию, рассматриваются основные виды атак, последствия от них. Вводятся понятия «информационная система», «информационная сеть», описываются основные виды угроз на них и способы защиты от этих угроз. Для распределенных компьютерных сетей возможные виды угроз передачи информации рассматриваются с привязкой их к уровням модели межсетевого взаимодействия OSI. Рассматриваются основные стандарты и спецификации в области информационной безопасности, как международные, так и российские, изучаются основные понятия, определенные в них. Данная учебная дисциплина включена в раздел «Б3.В.5 Про фессиональный» основной образовательной программы 01.03.02 «Прикладная математика и информатика», относится к вариативной части и осваивается в седьмом семестре четвертого курса. Для ее освоения студент должен прослушать такие курсы, как «Введение в криптографию», «Современные информационные технологии», «Архитектура компьютеров».
Целью освоения дисциплины «Сетевые технологии» является формирование у студентов практических навыков и знаний, связанных с созданием и эксплуатацией локальных вычислительных сетей (ЛВС) в различных условиях. В рамках курса студенты должны познакомиться с основами проектирования и создания ЛВС, техническими и программными средствами, обеспечивающими их работу, а также с основами работы в глобальной сети Интернет. Рассматриваются возможности применения интернеттехнологий в ЛВС (создание защищенной интранет-сети). Курс ориентирован на выработку основных навыков по определению требований к ЛВС, организации логической работы сети, разграничению потоков информации и их защите от несанкционированного доступа. Данная учебная дисциплина включена в раздел «Б1.Б.16 Дис циплины (модули)» основной профессиональной образовательной программы 09.03.01 «Информатика и вычислительная техника (Автоматизированные системы обработки информации и управления)» и относится к базовой (общепрофессиональной) части. В результате освоения перечисленных дисциплин студент должен: знать • основы функционирования информационных систем различ ного назначения (ERP, CRM, BI, GIS, BI-систем, HR-системы); • базовые информационные процессы; • основы функционирования информационных сетей; • законодательный морально-этический, административно-проце дурный, физический, аппаратно-программный аспекты обеспечения информационной безопасности; • существующие способы защиты информации на этапах хра нения, обработки, передачи информации в целях сохранения ее необходимых качеств, таких как доступность, целостность; • понятия конфиденциальности, апеллируемости, аутентичности; • стеки протоколов передачи данных; • методы кодирования и проверки правильности передачи данных; • стандарты локальных и глобальных сетей; уметь • анализировать ценность информационных решений для раз личных групп потребителей; • осуществлять базовое прототипирование информационных систем, включая модель базы данных и интерфейс; • использовать базовые информационные процессы для описания информационных потоков предприятия;
К покупке доступен более свежий выпуск
Перейти