Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Методы и алгоритмы обработки данных

Покупка
Основная коллекция
Артикул: 631443.04.01
К покупке доступен более свежий выпуск Перейти
В учебном пособии рассматриваются некоторые методы и алгоритмы обработки данных, последовательность решения задач обработки и анализа данных для создания модели поведения объекта с учетом всех компонент его математической модели. Описываются виды технологических методов использования программно-аппаратных средств для решения задач в этой области. Рассматриваются алгоритмы распределений, регрессий временных рядов, их преобразование с целью получения математических моделей и прогноза поведения информационно-экономических систем (объектов). Второе издание дополнено материалами, которые востребованы исследователями в части корректного использования алгоритмов кластеризации. Приводятся элементы классификации алгоритмов с определением их возможностей, достоинств и недостатков. Представляются процедуры обоснования и проверки адекватности результатов кластерного анализа, проводятся сравнение и оценка различных методов кластеризации, даются сведения о визуализации многомерных данных и примеры практического применения алгоритмов кластеризации. Соответствует требованиям федеральных государственных образовательных стандартов высшего образования последнего поколения. Для студентов экономических специальностей, специалистов, аспирантов.
236

Только для владельцев печатной версии книги: чтобы получить доступ к дополнительным материалам, пожалуйста, введите последнее слово на странице №109 Вашего печатного экземпляра.

Григорьев, А. А. Методы и алгоритмы обработки данных : учебное пособие / А.А. Григорьев, Е.А. Исаев. — 2-е изд., перераб. и доп. — Москва : ИНФРА-М, 2022. — 383 с. + Доп. материалы [Электронный ресурс]. — (Высшее образование: Бакалавриат). — DOI 10.12737/1032305. - ISBN 978-5-16-015581-4. - Текст : электронный. - URL: https://znanium.ru/catalog/product/1862852 (дата обращения: 22.11.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
МЕТОДЫ 

И АЛГОРИТМЫ 

ОБРАБОТКИ ДАННЫХ

А.А. ГРИГОРЬЕВ
Е.А. ИСАЕВ

2-е издание, переработанное и дополненное

Москва
ИНФРА-М

2022

УЧЕБНОЕ ПОСОБИЕ

Рекомендовано Межрегиональным учебно-методическим советом 

профессионального образования в качестве учебного пособия 

для студентов высших учебных заведений, обучающихся 

по экономическим направлениям подготовки и специальностям 

(протокол № 8 от 22.06.2020)

УДК 330.47(075.8)
ББК 65.050я73
 
Г83

Григорьев А.А.

Г83 
 
Методы и алгоритмы обработки данных : учебное пособие / А.А. Гри
горьев, Е.А. Исаев. — 2-е изд., перераб. и доп. — Москва : ИНФРА-М, 
2022. — 383 с. + Доп. материалы [Электронный ресурс]. — (Высшее образование: Бакалавриат). — DOI 10.12737/1032305.

ISBN 978-5-16-015581-4 (print)
ISBN 978-5-16-108009-2 (online)
В учебном пособии рассматриваются некоторые методы и алгоритмы обработки 

данных, последовательность решения задач обработки и анализа данных для создания модели поведения объекта с учетом всех компонент его математической модели. 
Описываются виды технологических методов использования программно-аппаратных средств для решения задач в этой области. Рассматриваются алгоритмы распределений, регрессий временны х рядов, их преобразование с целью получения математических моделей и прогноза поведения информационно-экономических систем 
(объектов).

Второе издание дополнено материалами, которые востребованы исследовате
лями в части корректного использования алгоритмов кластеризации. Приводятся 
элементы классификации алгоритмов с определением их возможностей, достоинств 
и недостатков. Представляются процедуры обоснования и проверки адекватности 
результатов кластерного анализа, проводятся сравнение и оценка различных методов кластеризации, даются сведения о визуализации многомерных данных и примеры практического применения алгоритмов кластеризации.

Соответствует требованиям федеральных государственных образовательных 

стандартов высшего образования последнего поколения.

Для студентов экономических специальностей, специалистов, аспирантов.

УДК 330.47(075.8)

ББК 65.050я73

Р е ц е н з е н т ы:

Сиденко А.В., доктор экономических наук, профессор, президент Российской 

академии диалектико-системных исследований и разработок, директор Института статистики Российской академии диалектико-системных исследований 
и разработок;

Корнилов В.В., кандидат физико-математических наук, доцент кафедры ин
новаций и бизнеса в сфере информационных технологий, заместитель руководителя Школы бизнес-информатики Национального исследовательского университета «Высшая школа экономики»

ISBN 978-5-16-015581-4 (print)
ISBN 978-5-16-108009-2 (online)

Материалы, отмеченные знаком 
, 

доступны в электронно-библиотечной системе Znanium

© Григорьев А.А., 2017
© Григорьев А.А., Исаев Е.А., 2020, 

с изменениями

Введение

Информационные технологии обработки данных предназначены 
для решения хорошо структурированных задач, по которым имеются необходимые входные данные и известны алгоритмы и другие 
стандартные процедуры их обработки. Эти технологии реализуются 
на уровне операционной деятельности.
На уровне операционной деятельности решаются следующие задачи:
 
• обработка данных об операциях;
 
• создание периодических контрольных отчетов;
 
• получение ответов на всевозможные текущие запросы и оформление их в виде отчетов.
Особенности технологии обработки:
 
• решение хорошо структурированных задач по обработке данных, 
для которых можно разработать алгоритм;
 
• реализация стандартных процедур обработки в автоматическом 
режиме;
 
• использование детализированных и структурированных данных 
в хронологическом порядке.
Материалы учебного пособия представляют интерес при использовании методов и алгоритмов обработки данных, которые применяются для решения задач в области моделирования и прогнозирования поведения информационных экономических систем. Представленные материалы отвечают требованиям стандартов дисциплин 
«Планирование и обработка результатов экспериментов», «Количественные методы анализа информационных систем в экономике», 
«Методы моделирования и прогнозирования», «Факторный и кластерный анализ», «Статистические методы моделирования и прогнозирования финансовой конъюнктуры», «Информационные системы 
в маркетинге», «Компьютерные технологии», «Информационные 
системы в экономике» и др.
Программа дисциплины «Методы моделирования и прогнозирования» составлена в соответствии с потребностями практики 
и требованиями к обязательному минимуму содержания и уровню 
подготовки дипломированного специалиста (бакалавра, магистра) 
по циклу прикладных дисциплин рыночной экономики XXI в., 
а также требованиями федеральных государственных образовательных стандартов высшего образования последнего поколения 
и требованиями, предъявляемыми к новым, модернизированным 
программам учебных курсов.

Цель изучения дисциплины — формирование компетентности 
в области статистической, математической и исследовательской 
культуры специалистов. Исследовательская работа бакалавра (вначале учебно-исследовательская, затем и научно-исследовательская), 
выполняемая в ходе обучения в вузе, — важнейший шаг к профессиональной деятельности. Более основательное знакомство исследователей с современными статистическими методами поможет им 
повысить качество обработки, анализа и интерпретации данных эксперимента при выполнении научной работы.
Место дисциплины в структуре основной образовательной программы высшего образования (ООП ВО). Дисциплина «Методы моделирования и прогнозирования» относится к базовой части профессионального цикла и основывается на знании следующих дисциплин: «Высшая математика», «Линейная алгебра», «Статистика», 
«Теория вероятностей и математическая статистика», «Информатика», «Информационные технологии», «Микроэкономика», 
«Макроэкономика», «Факторный и кластерный анализ производственных предприятий», «Логистика», «Операционные системы, 
среды и оболочки». В совокупности с другими дисциплинами базовой части статистического цикла федерального государственного 
образовательного стандарта высшего образования (ФГОС ВО) дисциплина «Методы моделирования и прогнозирования» обеспечивает 
инструментарий формирования следующих профессиональных компетенций бакалавра экономики:
знать
 
• принципы и закономерности, особенности проведения количественного анализа и моделирования теоретического и экспериментального исследования;
 
• виды операционных систем, состав программного обеспечения, 
файловые системы, разделы информатики;
 
• основные понятия, связанные с построением математических 
моделей организационных систем;
 
• возможности и границы применения программного обеспечения 
анализа и качественного моделирования систем управления;
уметь
 
• применять понятийно-категориальный аппарат количественного 
анализа и моделирования теоретического и экспериментального 
исследования;
 
• понимать и применять на практике компьютерные технологии 
для решения различных задач комплексного и гармонического 
анализа;
 
• использовать стандартное программное обеспечение, администрировать персональный компьютер, проводить сервисные и профилактические работы;

 
• создавать банки данных, определять требования и характеристики 
корпоративных информационных систем получения, хранения 
и переработки информации;
 
• осуществлять выбор математических моделей организационных 
систем, анализировать их адекватность и последствия применения;
 
• применять методы и программные средства обработки деловой 
информации;
владеть
 
• методами теоретического и экспериментального исследования;
 
• методами и средствами получения, хранения и переработки информации;
 
• навыками и приемами взаимодействия со службами информационных технологий, использования корпоративных информационных систем.
Методы моделирования и прогнозирования — общественная экономико-математическая наука и отрасль знаний, которая изучает 
закономерности формирования и изменения количественных характеристик массовых социально-экономических явлений с учетом 
их качественного содержания.
Моделирование и прогнозирование как направление научной 
и хозяйственной деятельности существует давно, совершенствуясь 
по мере накопления знаний и используемого инструментария, 
дисциплина призвана обеспечить комплексную характеристику 
состояния и развития страны на разных уровнях. Моделирование 
и прогнозирование как учебная дисциплина относится к базовой 
части математического и естественнонаучного цикла дисциплин Б.2.

Глава 1. 

ОСНОВНЫЕ КОМПОНЕНТЫ 
В АЛГОРИТМИЗАЦИИ 
И ПОСЛЕДОВАТЕЛЬНОСТЬ РЕШЕНИЯ 
ЗАДАЧИ ОБРАБОТКИ ДАННЫХ

1.1. ЦЕЛИ И ЗАДАЧИ ОБРАБОТКИ ДАННЫХ

Сбор данных производится с соблюдением целостности, достоверности. Обработка данных использует следующие виды типовых 
операций:
 
• классификация или группировка. Первичные данные обычно 
имеют вид кодов, состоящих из одного или нескольких символов. 
Эти коды, выражающие определенные признаки объектов, используются для идентификации и группировки записей (при расчете заработной платы каждая запись включает в себя код работника, код подразделения, в котором он работает и т.д.);
 
• сортировка. Она позволяет изменить порядок следования записей 
исходной выборки данных в соответствии с алгоритмом, определенным пользователем.
Вычисления производятся с использованием стандартных 
функций, являющихся инструментарием специальных программных 
продуктов исследователя.
Укрупнение, или агрегирование, служит для уменьшения количества данных и реализуется в формах расчетов итоговых или 
средних значений.
Хранение данных осуществляется в различного вида информационных емкостях — базах данных, хранилищах данных, в облаке.
Трансформация данных — комплекс методов и алгоритмов, направленных на оптимизацию представления и форматов данных 
с точки зрения решаемых задач и целей анализа. Трансформация 
данных не ставит целью изменить информационное содержание 
данных. Ее задача — представить эту информацию в таком виде, 
чтобы она могла быть использована наиболее эффективно.
Типичные средства трансформации:
 
• преобразование временных данных, оно позволяет оптимизировать представление данных во временном формате с целью обеспечения эффективности анализа во всех возможных интервалах 
даты и времени;
 
• квантование, которое позволяет разбить диапазон возможных 
значений числового признака на заданное количество интервалов 
и присвоить номера интервалов попавшим в них значениям;

• слияние, оно позволяет объединить две таблицы по одноименным 
полям или дополнить одну таблицу записями из другой, которые 
отсутствуют в дополняемой;
 
• группировка. Используя группировку, можно обобщить нужную 
информацию, объединить ее в минимально необходимое количество полей и значений.
Настройка набора данных. Позволяет изменять имена, типы, 
метки и назначения полей исходной выборки данных.
Табличная подстановка значений. Позволяет производить замену 
значений в исходной выборке данных на основе таблицы подстановки. Таблица подстановки содержит пары исходное значение — 
новое значение.
Вычисляемые значения. Иногда для анализа требуется информация, которая отсутствует в явном виде в исходных данных, 
но может быть получена на основе вычислений над имеющимися 
значениями.
Нормализация позволяет преобразовать диапазон изменения значений числового признака в другой диапазон, более удобный для 
применения к данным тех или иных аналитических алгоритмов, 
а также согласовать диапазоны изменений различных признаков.
Последовательность решения задачи обработки данных. Это процесс приведения данных к виду, удобному для использования. Обработка данных предполагает выполнение операций в следующей 
последовательности:
 
• подбор исходных данных;
 
• собственно обработка данных;
 
• анализ результатов.
Последовательность решения задачи обработки данных представляется следующим образом:
 
• постановка задачи обработки;
 
• общая схема процесса обработки информации;
 
• алгоритм обработки;
 
• решение типовых задач обработки информации.
Один из этапов обработки данных — агрегирование. Статистическая обработка данных, приведение их к сопоставимому виду, использование специальных инструментальных средств для преобразования данных, методов и алгоритмов факторного и кластерного анализа, методик аналитической обработки в реальном ремени (online 
analytical processing, ОLАР) и облачных технологий позволяет решать 
задачи обработки данных в соответствии с поставленной задачей 
исследования.
К целям обработки данных относятся следующие:
 
• собрать всю доступную информацию, представленную в данных 
различной природы;

• отделить существенную информацию, представленную данными, 
от несущественной для рассмотрения в данный момент;
 
• представить существенную информацию в виде, наиболее 
удобном для восприятия.
Эти цели в свою очередь приводят к постановке задач обработки 
данных. Общие задачи обработки данных — это:
 
• сбор данных;
 
• оценка качества данных;
 
• ввод данных в различные информационные системы;
 
• автоматический ввод данных;
 
• ручной ввод данных;
 
• контроль и исправление ошибок ручного ввода;
 
• накопление данных;
 
• хранение накопленных данных, в том числе — длительное; надежность такого хранения; учет и инвентаризация данных; их сортировка и классификация; доступ к данным; поиск нужных данных 
в накопленных массивах; контроль доступа и защита данных; их 
передача и обмен; упаковка и маркировка данных; надежность 
их передачи;
 
• представление данных: текстовое, табличное, графическое и визуальное;
 
• форматы представления данных в различных информационных 
системах.
Алгоритм обработки. Он выглядит так: исходная информация — 
исполнитель обработки — итоговая информация. Процесс перехода 
от исходных данных к результату представляется процессом обработки. Различают два типа обработки информации:
 
• первый тип обработки: преобразование данных к виду, удобному 
для решения поставленной задачи (числовая, символьная обработка данных, моделирование исследуемого объекта, аналитические задачи);
 
• второй тип обработки: преобразования данных, связанные с изменением форм представления, но без изменения содержания 
(например, перевод текста с одного языка на другой).
Кодирование — преобразование информации в символьную форму, 
удобную для ее хранения, передачи, обработки, используется в технических средствах хранения, обработки и передачи информации.
Структурирование данных — упорядочивание данных в информационных емкостях различного вида, классификация, каталогизация 
данных.
Информационный поиск в некоторой информационной емкости 
данных, удовлетворяющих условиям поиска (запросу). Алгоритм 
поиска зависит от способа организации информации в информационной емкости.

Существенными представляются принципы обработки данных 
с технологической (аппаратной, программной) точки зрения.

1.2. ТЕХНОЛОГИИ ВЫЧИСЛЕНИЙ

1.2.1. Параллельные вычисления
Параллельные вычисления — такой способ организации обработки данных, при котором программы реализации вычислений 
разрабатываются как набор взаимодействующих вычислительных 
процессов, работающих параллельно (одновременно). Термин охватывает совокупность вопросов параллелизма в программировании, 
а также создание эффективно действующих аппаратных реализаций.
Существуют различные способы реализации параллельных вычислений. Каждый вычислительный процесс может быть реализован 
в виде стандартного алгоритма вычислительного процесса операционной системы либо вычислительные процессы могут представлять 
собой набор потоков выполнения внутри одного процесса оперативной системы (ОС).
Параллельные программы могут физически исполняться либо 
последовательно (в однопроцессорных вычислительных системах), 
либо параллельно (в многопроцессорных вычислительных системах). 
Особенность проектирования параллельных программ — обеспечение правильной последовательности взаимодействий между вычислительными процессами с учетом координации вычислительных 
ресурсов, разделяемых между процессами.

1.2.2. Виды параллельного взаимодействия
В некоторых параллельных системах программирования информационный обмен между компонентами либо скрыт от программиста, либо указыватся явно. Явные взаимодействия могут быть 
разделены на два типа.
1. Взаимодействие через разделяемую память (например, в Jаvа 
или С#). Данный вид параллельного программирования обычно 
требует какой-то формы захвата управления (мьютексы, семафоры, 
мониторы) для координации потоков между собой.
2. Взаимодействие с помощью передачи сообщений (например, 
в Еrlаng или Оссаm). Обмен сообщениями может происходить асинхронно либо с использованием метода «рандеву», при котором отправитель блокирован до тех пор, пока его сообщение не будет доставлено. Асинхронная передача сообщений может быть надежной 
(с гарантией доставки) либо ненадежной.
Параллельные системы, основанные на обмене сообщениями, 
более просты для понимания. Системы с разделяемой памятью рассматриваются как метод параллельного программирования. Обмен 

сообщениями может быть эффективно реализован на симметричных 
мультипроцессорах как с разделяемой когерентной памятью, так 
и без нее.

1.2.3. Параллельные вычислительные системы
Параллельные вычислительные системы — это технические, 
программные системы, реализующие параллельную обработку 
данных в вычислительных узлах вычислительной системы. Для 
быстрой сортировки массива на двухпроцессорной машине необходима синхронизация с последующим разделением массива пополам 
и сортировкой каждой половины на отдельном процессоре.
Идея распараллеливания вычислений основана на разделении 
задач на набор стандартных алгоритмов, которые могут быть решены одновременно. Обычно параллельные вычисления требуют 
координации действий. Параллельные вычисления существуют в нескольких формах — как параллелизм на уровнях:
 
• битов;
 
• инструкций;
 
• данных;
 
• задач.
Параллельные вычисления использовались в высокопроизводительных вычислениях, в последнее время к ним возрос интерес 
вследствие существования физических ограничений на рост тактовой частоты процессоров. Параллельные вычисления стали доминирующей парадигмой в архитектуре компьютеров, в основном 
в форме многоядерных процессоров.
Синхронизация и взаимодействие между вычислительными процессами представляют достаточную сложность для получения высокой производительности параллельных систем. В настоящее время 
является актуальным вопрос о потреблении электроэнергии параллельными компьютерами. Характер увеличения скорости программы 
в результате распараллеливания объясняется законом Амдала.

1.2.4. Типы параллелизма
Параллелизм на уровне битов. Эта форма параллелизма основана 
на увеличении объема разрядной сетки. Увеличение ее размера уменьшает количество операций, необходимых процессору для выполнения 
действий над данными: на 8-битном процессоре нужно сложить два 
16-битных целых числа. Для этого нужно сложить нижние 8 бит чисел, 
затем сложить верхние 8 бит и к результату их сложения прибавить 
значение флага переноса, итого — три инструкции. С 16-битным процессором можно выполнить эту операцию одной инструкцией.
С появлением технологии х86-64 для этих целей стали использовать 64-битные процессоры.

К покупке доступен более свежий выпуск Перейти