Статистическое управление процессами. «Большие данные»
Покупка
Тематика:
Прикладные информационные технологии
Издательство:
Издательский Дом НИТУ «МИСиС»
Год издания: 2016
Кол-во страниц: 52
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-87623-969-3
Артикул: 752956.01.99
«Большие данные» - сравнительно новое понятие. Эта область принадлежит к беспрецедентным возможностям работы с огромными массивами разнородных данных. Уже сейчас существует масса успешных применений этого нового направления, которое открывает новые горизонты и ставит новые вопросы. Предназначено студентам и аспирантам всех специальностей, имеющим дело с большими массивами данных и пользующимся компьютерами для их анализа и интерпретации.
Тематика:
ББК:
УДК:
- 004: Информационные технологии. Вычислительная техника...
- 658: Организация производства. Экономика предприятий. Организация и техника торговли
ОКСО:
- ВО - Бакалавриат
- 01.03.04: Прикладная математика
- 09.03.01: Информатика и вычислительная техника
- 09.03.02: Информационные системы и технологии
- 09.03.03: Прикладная информатика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
МИНИСТЕРСТВО ОБРА ЗОВАНИЯ И НАУКИ РФ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ «МИСиС» № 2909 Кафедра сертификации и аналитического контроля Ю.П. Адлер Е.А. Черных Статистическое управление процессами. «Большие данные» Учебное пособие Рекомендовано редакционно-издательским советом университета Москва 2016
УДК 658 А28 Р е ц е н з е н т канд. техн наук С.В. Проничкин Адлер Ю.П. А28 Статистическое управление процессами. «Большие дан ные» : учеб. пособие / Ю.П. Адлер, Е.А. Черных. – М. : Изд. Дом МИСиС, 2016. – 52 с. ISBN 978-5-87623-969-3 «Большие данные» – сравнительно новое понятие. Эта область принадле жит к беспрецедентным возможностям работы с огромными массивами разнородных данных. Уже сейчас существует масса успешных применений этого нового направления, которое открывает новые горизонты и ставит новые вопросы. Предназначено студентам и аспирантам всех специальностей, имеющим дело с большими массивами данных и пользующимся компьютерами для их анализа и интерпретации. УДК 658 Ю.П. Адлер, Е.А. Черных, 2016 ISBN 978-5-87623-969-3 НИТУ «МИСиС», 2016
ОГЛАВЛЕНИЕ Введение ................................................................................................4 1. Данные и решения ............................................................................8 2. Что делать с информацией? ..............................................................8 3. Вычисления и компьютеры ............................................................10 4. Данные и статистика .......................................................................12 5. Модели объектов и модели данных ................................................14 6. Что есть знание? ..............................................................................16 7. Статистическое мышление .............................................................17 8. Детерминизм или вероятностный мир? .........................................18 9. «Большие данные» ..........................................................................20 10. Методы анализа .............................................................................28 11. Программные продукты ................................................................31 12. Сферы применения .......................................................................34 Заключение .........................................................................................47 Библиографический список ..............................................................48
Где жизнь, затерявшаяся в бытии? Где мудрость, затерявшаяся в знании? Где знание, затерявшееся в информации? Томас Элиот. Скала. 1934 г. Введение Данная работа была написана в 2012 г. и частично опубликована в журнале «Методы оценки соответствия» в 2013 г. (№ 7–12). При подготовке к изданию в виде учебного пособия она была частично пересмотрена, заново отредактирована и к ней были добавлены в 2015 г. одним из авторов (Ю.А.) некоторые новые материалы. Любой человек, вынужденный принимать решения, каких в на шей жизни предостаточно, хотел бы быть мудрым, как, например, Конфуций, или еще кто-нибудь из людей, мудрость которых не подвергается сомнению. Легко сказать. Откуда же к людям приходит мудрость, можно ли этому научиться? Мы не знаем «правильного» ответа на эти вопросы. Из общих соображений можно предположить, что мудрость приходит людям со временем, в результате накопления опыта успехов и неудач и осмысливания обстоятельств их появления. А. Шопенгауэр говорил, что лучший способ вложения наших денег возникает в том случае, если их у нас украдут. Тогда мы непосредственно получаем взамен жизненный опыт. Видимо, он полагал, что благодаря этому мы становимся мудрее. Наверно, в природе есть и не такие драматичные способы «помудрения». Если согласиться с тем, что сказано выше, то получается, что мудрость – это нечто такое, что получается в результате какой-то трансформации знаний, накапливаемых человеком в течение жизни. Правда, есть некоторые вопросы. При примерно равном жизненном опыте разные люди обычно не оказываются, так сказать, равно мудрыми. Кроме того, с возрастом бывает, что мудрость растет, а бывает, что падает. Только ли гены влияют на это? Все-таки похоже, что знания играют в этом деле, если не решаю щую, то во всяком случае важную роль. Э. Деминг любил говорить, что «знаниям нет замены» [1]. Откуда же они берутся? Ну, сначала мы долго учимся, набираемся знаний. Потом начинаем работать, применяем полученные теоретические модели на практике, и прак
тика часто их сильно корректирует. Действуя, слушая, говоря, читая, мы продолжаем накапливать знания и постоянно проверяем их практикой. Принято думать, что знания возникают в результате накопления и анализа информации, которую мы добываем во внешнем мире и перерабатываем каким-то неведомым способом. Но что же такое информация и откуда она берется? Древние говорили, что нам доступны всего три источника ин формации: суждение мудреца (диалог), наблюдение мира (созерцание) и эксперимент (вмешательство). К этому иногда добавляют еще озарение (самадхи) – и это все. Суждения мудреца – это слова, которые нам предстоит каким-то образом интерпретировать. Созерцание порождает некие динамические картины вроде видеороликов, в которых содержатся, как мы надеемся, интересующие нас взаимосвязи рассматриваемых явлений. Иногда такую ситуацию называют «астроном – галактика». Можно тщательно регистрировать результаты наблюдений небесной сферы, можно строить на их основе любые умозаключения, но пока нам не удается, скажем, изменить траектории движения небесных тел. Еще говорят, что это все-таки эксперимент, только «пассивный», без вмешательства в ход событий. Наконец, последняя возможность – «активный» эксперимент. Прямое вмешательство в ход событий и сравнение результатов, полученных по определенным правилам, называемым методами планирования эксперимента. Таким образом, информация предстает перед нами в виде текстов, в виде рисунков, графиков или «фильмов» и в виде данных, полученных в результате измерений. На протяжении веков люди стремились преобразовать данные в такую форму, чтобы с ними было удобно работать, чтобы содержащаяся в них информация стала доступной для анализа. Самой удобной оказалась цифровая форма. И.В. Гёте как-то сказал: «Числа правят миром». Многим людям приписывается мысль о том, что без чисел нет никакой науки. Специально этим занимался Т. Данциг, книгу которого [2] высоко оценил А. Эйнштейн. Данциг писал: «…будучи языком науки, число представляет собой условную форму, используемую в целях ретрансляции (обратного перевода) фикции евклидова пространства в пространство аудио-тактильное» [3, с. 310]. Но как же они возникают, эти числа? Обычно – в результате процесса измерения. Людям пришлось придумать измерительные шкалы и приборы, которые сделали измерения технически реализуемыми [4]. Сами измерительные шкалы оказались сложными конструкциями. Матема
тики называют такие конструкции «кортежами». Это два множества: эмпирическое и числовое, каждое со своей системой отношений, и некоторая функция, которая их связывает. В эмпирическом множестве собраны те физические операции, которые выполняются для реализации измерения. Не важно, выполняются ли эти операции человеком, измерительным прибором или сложной измерительной системой. Если в эмпирическом множестве получен некоторый результат, то функция, связывающая два множества, как бы вытаскивает из числового множества некоторое число, которое и объявляется результатом измерений. Этот результат будет однозначным с точностью до ошибки измерения только в том случае, если в эмпирической системе есть «эталон», или точка отчета. Именно операции, производящиеся в эмпирическом множестве, определяют характер отношений, допустимых в числовом множестве. Поэтому возникает иерархия измерительных шкал. Известный российский металлург Д.К. Чернов совершил в ХIХ в. важное научное открытие: он обнаружил, что в стальном слитке при охлаждении происходят фазовые переходы. Особенность его открытия состояла в том, что он сделал свои выводы на основании наблюдений над изменениями цвета слитка от ослепительно желтого в момент заливки, до серого («стального») в холодном состоянии. В числовом множестве этим различным цветам можно было приписать любые значения, но они обязательно должны быть разными для разных цветов, поскольку эти цвета не эквивалентны один другому. Понадобились годы и школа Н.С. Курнакова, чтобы была построена количественная теория этого процесса и нарисована точная диаграмма состояния железо – углерод. Благодаря этому мы можем пользоваться не различием в цветах, а дифференциальным термическим анализом и металлографическими исследованиями шлифов вместе с теорией многокомпонентных систем. В конце концов и для понимания (познания), и для принятия управленческих решений мы имеем дело с данными, поступающими или непосредственно через наши органы чувств, или через измерительные приборы и системы. Данные «нападают на нас» со всех сторон, лезут во все щели. Просто нет от них отбоя. Пора предпринимать что-то решительное. Все вокруг говорят о «больших данных». Может, это как раз то, что нам надо? Давайте посмотрим. Но сначала посмотрим на данные вообще, они ведь, как известно, коварны и лукавы. Источниками данных служат системы, которые их порождают. Было бы странно, если бы состояние этих систем не оказывало влия