Основы статистики
Покупка
Основная коллекция
Тематика:
Общая теория статистики
Издательство:
Издательский Дом ФОРУМ
Автор:
Канцедал Сергей Андреевич
Год издания: 2022
Кол-во страниц: 192
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
Среднее профессиональное образование
ISBN: 978-5-8199-0439-8
ISBN-онлайн: 978-5-16-110095-0
Артикул: 134450.11.01
В книге на элементарном уровне изложены классические разделы описательной и аналитической статистики, а также проблемы принятия статистических решений в условиях риска и неопределенности. Все излагаемые задачи статистики сопровождаются многочисленными примерами, что существенно облачает понимание студентами излагаемого теоретического материала. Особое внимание уделено описанию современных компьютерных технологий решения этих задач.
Книга предназначена в качестве учебника для учащихся экономических колледжей и не требует знаний, выходящих за пределы школьного курса математики. Она может быть использована также студентами вузов для ознакомления с предметом.
Тематика:
ББК:
УДК:
- 311: Теория статистики. Статистические методы
- 519: Комбинатор. анализ. Теория графов. Теория вер. и мат. стат. Вычисл. мат., числ. анализ. Мат. кибер..
ОКСО:
- Среднее профессиональное образование
- 51.02.03: Библиотечно-информационная деятельность
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
С. А. Канцедал ОСНОВЫ СТАТИСТИКИ Рекомендовано методическим советом Института искусств и информационных технологий в качестве учебного пособия для студентов средних специальных учебных заведений, обучающихся по группе специальностей «Экономика и управление» Москва ИД «ФОРУМ» — ИНФРА-М 2022
УДК 311(075.32) ФЗ Издание не подлежит маркировке ББК 65.051я723 ¹ 436-ФЗ в соответствии с п. 1 ч. 4 ст. 11 К19 Рецензенты: доктор технических наук, профессор кафедры математического моделирования Житомирского государственного технологического университета А. В. Панишев; доктор технических наук, профессор, зав. кафедрой наук «Информатика и программное обеспечение вычислительных систем» Московского государственного института электронной техники (Технического университета) Л. Г. Гагарина Канцедал С. А. К19 Основы статистики : учебное пособие / С. А. Канцедал. — Москва: ИД «ФОРУМ» : ИНФРА-М, 2022. — 192 с. : ил. — (Профессиональное образование). ISBN 978-5-8199-0439-8 (ИД «ФОРУМ») ISBN 978-5-16-004362-3 (ИНФРА-М) В книге на элементарном уровне изложены классические разделы описательной и аналитической статистики, а также проблемы принятия статистических решений в условиях риска и неопределенности. Все излагаемые задачи статистики сопровождаются многочисленными примерами, что существенно облегчает понимание студентами излагаемого теоретического материала. Особое внимание уделено описанию современных компьютерных технологий решения этих задач. Книга предназначена в качестве учебника для учащихся экономических колледжей и не требует знаний, выходящих за пределы школьного курса математики. Она может быть использована также студентами вузов для ознакомления с предметом. УДК 311(075.32) ББК 65.051я723 ISBN 978-5-8199-0439-8 (ИД «ФОРУМ») ISBN 978-5-16-004362-3 (ИНФРА-М) © С. А. Канцедал, 2016 © ИД «ФОРУМ», 2016 Подписано в печать 02.02.2016. Формат 60 90/16. х Печать офсетная. Гарнитура «Таймс». Усл. печ. л. 12,0. Уч.-изд. л. 12,5. ПТ10. Бумага офсетная.
Предисловие С самых давних времен для изучения различных явлений природы и общества люди вели наблюдения, ставили эксперименты, проводили опросы и опыты. Результаты этих действий представлялись числовыми и качественными данными и рассматривались как случайные события и величины, которые затем интерпретировались тем или иным способом. Постепенно в результате этой деятельности сформировалось научное направление, которое с течением времени трансформировалось в отдельную отрасль науки — статистику. Пионерами статистики были европейские математики: У. Петти, И. Бернулли, Т. Байес, У. Госсет, К. Пирсон, Р. Фишер, С. Крамер и многие другие. У. Петти, например, составил первый отчет об уровне смертности в Лондоне. И. Бернулли дал правило определения вероятности успешных исходов в серии независимых испытаний. К. Пирсон обосновал известное и широко используемое в статистике распределение вероятностей 2. С. Крамер оставил после себя фундаментальную книгу «Математическая статистика». По современным воззрениям статистика рассматривает способы получения (сбора), обработки, анализа и истолкования данных о явлениях природы и общества, а также методы использования результатов анализа для принятия рациональных решений в той или иной человеческой деятельности. Как наука статистика состоит из трех взаимосвязанных разделов: описательной статистики, аналитической статистики и теории принятия статистических решений. Описательная статистика ограничивается способами получения полной или частичной (выборочной) информации о наблюдаемых явлениях, объектах и процессах, ее анализом, истолкованием, а также методами представления полученных данных в удобной табличной и графической формах. Аналитическая статистика — это методы получения статистических заключений, характеризующих наблюдаемые явления,
Предисловие процессы или объекты как бы на основании полного набора данных, располагая, однако, только выборочной информацией, полученной на стадии описательной статистики. В отличие от описательной и аналитической статистики теория статистических решений представляет собой относительно новый раздел статистики, посвященный изучению методов принятия решений в ситуациях, которые в различной мере описываются статистическими данными. С определенной степенью полноты материал, входящий в указанные разделы статистики, изложен в настоящем учебном пособии.
ОПИСАТЕЛЬНАЯ СТАТИСТИКА Глава 1 РЯДЫ РАСПРЕДЕЛЕНИЯ ЧАСТОТ И ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ ВЫБОРКИ 1.1. Основные термины и определения Каждая научная дисциплина использует свои специфические термины или, как принято говорить, свой язык. Не всем изучающим эту дисциплину они понятны, в связи с чем под рукой необходимо иметь энциклопедический словарь или использовать Интернет. Чтобы избавить читателя от занятий листать словарь и входить в Интернет, приведем основные термины и определим понятия, которые будут фигурировать в дальнейшем изложении. Начнем с простейшего. Случайное явление — это такое явление, исход которого (практическое его проявление) заранее не может быть предсказан. Когда мы вытягиваем одну карту из хорошо тасованной колоды карт, наперед нельзя сказать, какой она будет масти. Когда мы приходим на остановку нескольких трамваев и не знаем расписания их движения, нельзя угадать, какой трамвай подойдет. Когда судья перед капитанами футбольных команд подбрасывает и ловит монету, нельзя заранее сказать, выпадет орел или решка и, таким образом, нельзя предугадать, какие ворота достанутся той или иной команде. Когда вы просите продавца магазина взвесить 0,5 кг ветчины, нельзя заранее угадать, насколько он ошибется.
Описательная статистика Все это примеры случайных явлений, которые, вообще говоря, легко умножить. Таким образом, отличительная черта случайности — непредсказуемость исхода априори, т. е. до опыта. Явление называется детерминированным, если его исход заранее определен. Например, мы знаем, что за ночью всегда наступит утро, затем день, вечер и снова ночь. Как уже говорилось, для изучения явлений природы и общества люди проводят опыты, опросы и наблюдения. Испытание или опыт — это комплекс процедур, которые можно повторять сколько угодно раз при одних и тех же условиях без изменения. Результат испытаний, т. е. всякий факт, который может произойти или не произойти, называется случайным событием. Наблюдение представляет собой фиксацию исхода события или явления. Например, в опыте подбрасывания монеты, повторяемом двадцать раз подряд, может произойти или не произойти событие — выпадение орла. Наблюдениями исходов в этом случае будут фиксации того факта, что же выпало — орел или решка. Те события, которые в результате каждого испытания происходят неизбежно, называются достоверными. Например, сколько бы раз мы ни бросали камень весом 0,3 кг вверх, он обязательно упадет на землю. События, которые в результате всего множества опытов не происходят никогда, называют невозможными. Например, выпадение более шести очков при бросании игральной кости — событие невозможное. События равновозможные (одинаково возможные), если есть основание полагать, что появление одного из них в одном и том же опыте не более возможно, чем появление другого. Равновозможно появление орла или решки при бросании монеты, выпадении трех или шести очков при бросании игральной кости и т. д. События называются несовместными, если появление одного из них в одном и том же опыте исключает появление другого. Так, появление герба при бросании монеты исключает появление решки. Такие события часто называют взаимоисключающими. Предположим, осуществляются наблюдения некоторого явления или исходов опыта. Например, ежедневная фиксация «дождь или сухо» в течение года, «орел или решка» при 100 бросаниях монеты, количество очков от одного до шести при 30 бросаниях игральной кости. В течение этих наблюдений фиксируется, какое же из возможных событий и сколько раз произошло.
Глава 1. Ряды распределения частот... 7 Число произошедших событий называется его частотой. Отношение числа появлений nA конкретного события А к общему числу наблюдений n, т. е. Wn(А) nA/n, называется относительной частотой (частостью) случайного события А. Так, если при 50 подбрасываниях монеты событие А — выпадение орла — наблюдалось 22 раза, частота равна 22, а частость этого события W50 22/50 11/25 0,44. Относительная частота достоверного события всегда равна единице, так как происходит это событие в каждом опыте, вследствие чего nA n. Относительная частота невозможного события равна нулю, так как это событие не происходит никогда, т. е. nA 0. Поэтому частость случайного события А лежит в пределах 0 Wn(А) 1. Статистические данные, которые характеризуют явления и получают в результате опытов, представляют собой случайные величины, т. е. величины, которые могут принимать то или иное значение — заранее неизвестно какое. Различают величины двух типов: дискретные (прерывистые) и непрерывные. По существу это переменные, которые получают значения в результате счета или измерения. В геометрической интерпретации на числовой оси дискретные переменные — это целые числа, отображаемые отдельными точками, непрерывные величины — интервалы, в которые попадают в общем случае рациональные числа, полученные в результате измерения. Непрерывные переменные всегда ограничены определенными пределами. Предположим, по некоторому предмету ученик сдает экзамен. Оценки, которые он может получить, — 2, 3, 4, 5 — дискретная случайная величина, принимающая целые значения 2, 3, 4, 5. Число избирателей, которые могут прийти на данный избирательный участок, — дискретная случайная величина, ограниченная слева нулем, справа количеством избирателей, внесенных в список. Число очков 0, 1, 2, которые может получить данная футбольная команда в результате очередной игры, — дискретная случайная величина. Время проезда на автомобиле из города А в город В — непрерывная случайная величина, принадлежащая интервалу [tmin, tmax]. Погрешность приближенного алгоритма, предназначенного для решения некоторой задачи, — непрерывная случайная величина, лежащая в интервале [0, max].
Описательная статистика Месячный доход семей некоторой категории служащих данного региона — непрерывная случайная величина, находящаяся в интервале [dmin, dmax]. Приведенные примеры случайных величин, безусловно, легко умножить. Изучая случайные явления и проводя опыты, принципиально можно провести все возможные наблюдения явлений и все опыты. В этом случае говорят о сплошном изучении и о том, что рассматривается генеральная совокупность наблюдений. Когда же имеют дело с частью наблюдений явлений и результатов опытов, говорят о выборочном изучении и о выборке наблюдений. Например, руководство некоторого университета интересуют данные о росте ребят первого курса, образованного тремя группами студентов, численностью 75 человек. Можно измерить рост каждого студента, отметить минимальный, максимальный и вычислить средний рост, а также получить другие числовые характеристики. Это будет сплошным изучением роста, а генеральная совокупность — 75 студентов. Выборочное изучение — такое изучение, когда для измерения роста будет отобрана часть студентов, например 25. В этом случае именно число 25 и составляет объем выборки. На основании измерения роста этого числа студентов получают характеристики: минимальный, максимальный, средний рост и др. Полученные на основании выборки данные называют статистиками. В рассматриваемом случае — это статистики роста студентов. Статистики используют для оценки характеристик генеральной совокупности, которые принято называть параметрами. В этом и состоит одна их основных задач аналитической статистики: по характеристикам выборки оценить параметры генеральной совокупности. Иными словами, на основании части данных определить общие свойства изучаемого признака. Такой подход практически обусловлен рядом обстоятельств. Не всегда возможно измерить характеристики каждого элемента генеральной совокупности, например в том случае, когда их число бесконечно или требует больших затрат времени, или измерение этих характеристик связано с большими финансовыми расходами, или когда в процессе измерения происходит разрушение или изменение характеристик элементов. Например, в случае
Глава 1. Ряды распределения частот... 9 контроля качества ламп накаливания, когда при проверке многие лампы выходят из строя. Безусловно, в тех случаях, когда допустимо измерение характеристик каждого элемента генеральной совокупности, проводят сплошное изучение и ограничиваются статистическим описанием, опуская решение проблем статистического заключения. При выборочном изучении такое заключение необходимо проводить в обязательном порядке, так как нужно знать, насколько правдоподобны выводы относительно свойств генеральной совокупности, полученные на основании выборки. 1.2. Построение рядов распределения частот Данные являются основой статистических исследований, ее фундаментом. По определению данные — это значения, которые присвоены конкретному наблюдению или измерению [1]. Достоверность данных определяет правдивость и объективность выводов, полученных на основании статистической обработки этих данных. Данные принято классифицировать по разным направлениям. Так, по способу источников получения различают первичные и вторичные данные. Первичные данные формирует лицо, непосредственно их использующее. Для этого проводят наблюдения, опросы, ставят эксперименты, фиксируют результаты измерений. Достоверность таких данных обеспечивается тем исследователем, который их собирает. Вторичными данными являются те данные, которые собраны людьми, не проводящими дальнейших статистических исследований на основе этих данных. Главным недостатком этих данных является то, что способ их сбора не может быть проконтролирован. Поэтому во многих случаях достоверность таких данных может быть сомнительной. Различают также количественные и качественные данные. Количественные данные позволяют проводить числовой анализ, в связи с чем они являются основой статистических методов исследования. Качественные данные используют описательные выражения для рассматриваемых объектов. Например, имя опрашиваемого респондента, его возраст, семейное положение, пол и т. д.
Описательная статистика Ряды распределения частот строят для облегчения анализа и толкования данных. Ряд распределения представляет собой перечень нескольких групп данных, для каждой из которых указано количество единиц изучаемого признака, — частота и частость Wn(А). В табл. 1.1 приведена выборка результатов измерения роста 50 студентов некоторого учебного заведения с точностью до 1 см. Таблица 1.1. Рост 50 студентов 167 173 171 174 160 168 170 170 166 173 168 167 172 169 171 169 176 170 172 171 177 169 171 174 166 168 170 172 172 170 171 170 164 165 170 169 172 175 166 167 170 172 167 170 171 168 166 173 169 167 Для статистика, изучающего рассматриваемый признак студента, т. е. его рост, эта таблица малоинформативна. Его, как правило, интересуют некоторые общие черты случайности. Это прежде всего минимальный и максимальный рост студентов и соответствующий интервал между этими величинами. Как по этому интервалу рассредоточен рост студентов, равномерно или есть какие-то сгущения. Какова величина среднего роста как представителя данной выборки, а также другие характеристики. На все эти вопросы дает ответ ряд распределения. Построение этого ряда начинают с вычисления диапазона колебаний — размаха вариаций R, в данном случае роста студентов. Для этого в исходной таблице данных находят минимальный и максимальный элементы хmin, хmax и вычитают из второго первое, т. е. получают R хmax хmin. Далее решают вопрос о числе интервалов равной длины, на которые будет разбит диапазон R. К сожалению, четких правил, которых следует придерживаться при решении этого вопроса, нет. Обычно считают, что правильно составленный ряд распределения должен содержать от 6 до 15 интервалов. Предварительно число интервалов может быть определено по формуле Штюргеса k 1 3,32lg n. После этого с учетом полученной величины диапазона R число интервалов уточняется.