Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Статистическая обработка данных в учебно-исследовательских работах

Покупка
Основная коллекция
Артикул: 165750.07.01
К покупке доступен более свежий выпуск Перейти
В учебном пособии подробно рассматриваются возможности использования программ статистической обработки данных STATISTICA и R. Даны теоретические основы статистического анализа. Предназначено для студентов вузов, а также может использоваться педагогами, работающими в системе среднего профессионального и дополнительного образования.
Волкова, П. А. Статистическая обработка данных в учебно-исследовательских работах : учебное пособие / П.А. Волкова, А.Б. Шипунов. — Москва : ФОРУМ : ИНФРА-М, 2020. — 96 с. — (Высшее образование: Бакалавриат). - ISBN 978-5-00091-710-7. - Текст : электронный. - URL: https://znanium.com/catalog/product/1091712 (дата обращения: 24.11.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
СТАТИСТИЧЕСКАЯ 
ОБРАБОТКА ДАННЫХ 
В УЧЕБНО-ИССЛЕДОВАТЕЛЬСКИХ 
РАБОТАХ

П.А. ВОЛКОВА
А.Б. ШИПУНОВ

УЧЕБНОЕ ПОСОБИЕ

Москва                                        2020

ИНФРА-М

Рекомендовано Межрегиональным учебно-методическим советом 
профессионального образования в качестве учебного пособия 
для студентов высших учебных заведений 
(протокол № 6 от 25.03.2019)

УДК 311.2(075.8)
ББК 60.6я73
 
В67

Волкова П.А.
В67 
 
Статистическая обработка данных в учебно-исследовательских работах : учебное пособие / П.А. Волкова, А.Б. Шипунов. — Москва : ФОРУМ : 
ИНФРА-М, 2020. — 96 с. — (Высшее образование: Бакалавриат).

ISBN 978-5-00091-710-7 (ФОРУМ)
ISBN 978-5-16-015394-0 (ИНФРА-М, print)
ISBN 978-5-16-107846-4 (ИНФРА-М, online)
В учебном пособии подробно рассматриваются возможности использования программ статистической обработки данных STATISTICA и R. Даны 
теоретические основы статистического анализа. 
Предназначено для студентов вузов, а также может использоваться педагогами, работающими в системе среднего профессионального и дополнительного образования.

УДК 311.2(075.8)
ББК 60.6я73

Р е ц е н з е н т ы:
Горелов А.С., кандидат физико-математических наук, кандидат философских наук, преподаватель московского лицея № 1553 («Лицей на Донской»);
Зайцев А.С., кандидат географических наук, научный сотрудник Лаборатории изучения экологических функций почв Института проблем экологии и эволюции имени А.Н. Северцова Российской академии наук;
Моргун Д.В., кандидат биологических наук, кандидат философских 
наук, доцент, заместитель директора по научно-методической работе

ISBN 978-5-00091-710-7 (ФОРУМ)
ISBN 978-5-16-015394-0 (ИНФРА-М, print)
ISBN 978-5-16-107846-4 (ИНФРА-М, online)

ФЗ 
№ 436-ФЗ
Издание не подлежит маркировке 
в соответствии с п. 1 ч. 4 ст. 11

© Волкова П.А., 
Шипунов А.Б., 2017

ООО «Научно-издательский центр ИНФРА-М»
127214, Москва, ул. Полярная, д. 31В, стр. 1
Тел.: (495) 280-15-96, 280-33-86. Факс: (495) 280-36-29
E-mail: books@infra-m.ru        http://www.infra-m.ru

Подписано в печать 16.03.2020. 
Формат 6090/16. Бумага офсетная. Гарнитура Newton. 
Печать цифровая. Усл. печ. л. 6,0.
ППТ20. Заказ № 00000
ТК 165750-1091712-151116

Отпечатано в типографии ООО «Научно-издательский центр ИНФРА-М»
127214, Москва, ул. Полярная, д. 31В, стр. 1
Тел.: (495) 280-15-96, 280-33-86. Факс: (495) 280-36-29

ООО «Издательство Форум»
127214, Москва, ул. Полярная, д. 31В, стр. 1
E-mail: forum-book@yandex.ru
Тел.: (495) 280-15-96

Предисловие

Это пособие написано для тех, кто хочет научиться обрабатывать данные. Такая задача возникает очень часто, особенно тогда, 
когда нужно выяснить ранее неизвестный факт. Например: есть ли 
эффект от нового лекарства? Или: различаются ли рейтинги двух 
политиков? Или: как будет меняться курс доллара на следующей 
неделе? Многие люди думают, что этот неизвестный факт можно 
выяснить, если просто немного подумать над данными. К сожалению, часто это совершенно не так. Например, по опросу 262 человек, выходящих с избирательных участков, выяснилось, что 52% 
проголосовало за кандидата А, а 48% — за кандидата В (естественно, это упрощенная ситуация, ведь всегда есть и проголосовавшие 
иначе, например «против всех»). Значит ли это, что кандидат А победил? Подумав, многие сначала скажут «Да», а через некоторое 
время — «Кто его знает». Но есть очень простой (с точки зрения 
современных компьютерных программ) «тест пропорций», который позволяет не только ответить на вопрос, но и вычислить, 
сколько надо было опросить человек, чтобы можно было бы ответить на такой вопрос. В описанном случае это примерно 2500 
человек!

В общем, если бы люди знали, что можно сделать методами 
анализа данных, ошибок и неясностей в нашей жизни стало бы 
гораздо меньше. К сожалению, ситуация в этой области далека 
от благополучия, а ведь на теории вероятностей и основано большинство методов анализа данных! С другой стороны, ведь совсем 
не обязательно знать радиофизику для того, чтобы слушать любимую радиостанцию по радиоприемнику. Значит, для того чтобы

Предисловие

анализировать данные в практических целях, не обязательно свободно владеть математической статистикой и теорией вероятностей. Эту проблему давно уже почувствовали многие английские 
и американские авторы — названиями типа «Статистика без слез» 
пестрят книжные полки магазинов, посвященные книгам по анализу данных.

Тут, правда, следует быть осторожным как авторам, так и читателям таких книг: многие методы анализа данных имеют, если 
можно так выразиться, двойное дно. Их (эти методы) можно применять, глубоко не вникая в сущность используемой там математики, получать результаты и обсуждать эти результаты в отчетах. 
Однако в один далеко не прекрасный день может выясниться, что 
данный метод был (с позиции теории, разумеется) совершенно неприменим для ваших данных, и поэтому полученные результаты 
и результатами-то назвать нельзя... Что-то похожее происходит 
при тестировании компьютерных программ: программа может отлично работать, выполняя все, что от нее требуется, но однажды 
какой-то пустяк (например, какое-то редкое слово или просто сочетание букв, набранное в окне текстового редактора) приводит к 
ее «зависанию» или даже к более серьезным последствиям. Дело, 
наверное, в том, что вероятность ошибок растет с увеличением 
сложности, а методы анализа данных часто очень сложны (в математическом выражении, конечно). В общем, будьте бдительны, 
внимательно читайте про все ограничения методов анализа.

Глава 1 
Что такое данные
и зачем их обрабатывать?

В этой главе рассказывается о самых общих понятиях анализа 
данных. Статистики и математики, как представители любой профессии, выработали свой собственный язык, которым должны, хотя 
бы частично, овладеть те, кто желает проникнуть в их тайны.

1.1. Откуда берутся данные: наблюдения и эксперимент

«Без пруда не выловишь и рыбку из него», — говорит народная компьютерная мудрость. Действительно, если хочешь анализировать данные, надо их сначала получить. Способов получения 
данных много. Можно их просто выдумать, но в таком случае 
результатом анализа будут сведения о том, что творится в вашей 
собственной голове, а не в окружающей вас действительности. 
Можно взять данные (да и выводы тоже, вот и обрабатывать ничего не надо) из книг тех авторов, которым вы доверяете — это называется «апелляция к авторитетам», а иногда и просто «плагиат». 
Такой подход был широко распространен в средние века, а сейчас широко распространен в средней школе. Но опытный учитель 
знает, что если на вопрос существуют два ответа — правильный 
и неправильный, то большинство учеников спишет друг у друга 
неправильный ответ. Дело в том, что, согласно одному из законов 
Мерфи, «любая проблема имеет простое, изящное и неправильное 
решение» — неправильный ответ проще.

Чтобы не уподобляться упомянутым выше персонажам, нужно использовать данные, полученные в результате наблюдения или 
эксперимента.

Глава 1. Что такое данные и зачем их обрабатывать?

Наблюдением будем называть такой способ получения данных, 
при котором воздействие наблюдателя на наблюдаемый объект 
сведено к минимуму. Эксперимент тоже включает наблюдение, 
но сначала на наблюдаемый объект оказывается заранее рассчитанное воздействие. Для наблюдения очень важно это «сведение 
воздействия к минимуму». Если этого не сделать, мы получим данные, отражающие не «исконные» свойства объекта, а его реакцию 
на наше воздействие.

Вот, например, встала задача исследовать, чем питается какое- 
то редкое животное. Оптимальная стратегия наблюдения здесь состоит в установке скрытых камер во всех местах, где это животное 
обитает. После этого останется только обработать снятое, чтобы 
определить вид пищи. Очень часто, однако, оптимальное решение 
совершенно невыполнимо, и тогда пытаются обойтись, скажем, 
наблюдением за животным в зоопарке. Ясно, что в последнем случае на объект оказывается воздействие, и немалое. В самом деле, 
животное поймали, привезли в совершенно нетипичные для него 
условия, да и корм, скорее всего, будет непохож на тот, каким оно 
питалось на родине. В общем, если наблюдения в зоопарке поставлены грамотно, то выяснено будет не то, чем вообще питается 
данное животное, а то, чем оно питается при содержании в определенном зоопарке. К сожалению, многие (и исследователи, и те, 
кто потом читает их отчеты) часто не видят разницы между этими 
двумя вариантами наблюдений, что может привести к очень серьезным последствиям.

Вернемся к примеру из предисловия. Предположим, мы опрашиваем выходящих с избирательных участков. Часть людей, конечно, вообще откажется отвечать. Часть ответит что-нибудь не 
относящееся к делу. Часть вполне может намеренно или случайно 
исказить свой ответ. Часть ответит правду. И все это серьезным 
образом зависит от наблюдателя — человека, проводящего опрос, 
а также от многих внешних факторов.

Даже упомянутые выше скрытые камеры приведут к определенному воздействию. Нет никакой гарантии, что наше животное

1,1. Откуда берутся данные: наблюдения и эксперимент
7

или его добыча не отреагирует на них. А кто будет ставить камеры? Если это люди, то чем больше камер поставить, тем сильнее 
будет воздействие на окружающую среду. Сбрасывать с вертолета? 
Сами понимаете, к чему это может привести.

В общем, из сказанного должно быть понятно, что наблюдение 
«в чистом виде» более или менее неосуществимо, поскольку всегда 
будет внесено какое-нибудь воздействие. Поэтому для того, чтобы адекватно работать с данными наблюдений, надо всегда четко 
представлять, как они проводились. Если воздействие было значительным, то надо представлять (хотя бы теоретически), какие 
оно могло повлечь изменения, а в отчете обязательно указать на 
те ограничения, которые были вызваны способом наблюдения. Не 
следует без необходимости применять экстраполяцию: это значит, 
что если мы увидели, что А делает Б, нельзя писать «А всегда делает Б» и даже «А обычно делает Б». Можно лишь писать нечто вроде «в наших наблюдениях А делал Б, это позволяет предположить, 
что Б для него — обычное дело».

У эксперимента свои проблемы. Наиболее общие из них — это 
точный учет воздействия и наличие контроля. Например, мы исследуем действие нового лекарства. Классический эксперимент 
состоит в том, что выбираются две группы больных (как выбрать 
такие группы, сколько должно быть человек и пр.,. рассмотрено в 
последующих разделах). Всем больным сообщают, что проводится исследование нового лекарства, но его дают только больным 
первой группы, остальные получают так называемое плацебо, 
внешне неотличимое от настоящего лекарства, но не содержащее 
ничего лекарственного. Зачем это делается? Дело в том, что если 
больной будет знать, что ему дают «ненастоящее» лекарство, то 
это скажется на эффективности лечения, потому что результат зависит не только от того, что больной пьет, но и от того, что он 
чувствует. Иными словами, психологическое состояние больного — это дополнительный фактор воздействия, от которого в эксперименте лучше избавиться. Очень часто не только больным, но 
и их врачам не сообщают, кому дают плацебо, а кому — настоящее

Глава 1. Что такое данные и зачем их обрабатывать ?

лекарство («двойной слепой метод»). Это позволяет гарантировать, что и психологическое состояние врача не повлияет на исход 
лечения.

Группа, которой дают плацебо (она называется контроль), 
нужна для того, чтобы отделить эффект, который может произвести лекарство, от эффекта какого-нибудь постороннего внешнего 
фактора. Известно, например, что уменьшение длины светового 
дня в октябре-декабре провоцирует многие нервные заболевания. 
Если наше исследование придется как раз на эти месяцы и у нас 
не будет контроля, то увеличение частоты заболеваний мы вполне 
можем принять за результат применения лекарства.

1.2. Генеральная совокупность и выборка: два значения 
слова «статистика»; почему выборочные исследования 
часто важнее «полной» информации

«Статистика знает все», — писали Ильф и Петров в «Двенадцати стульях», имея в виду то, что обычно называют статистикой — 
сбор всевозможной информации обо всем на свете. Чем полнее собрана информация, тем, как считается, лучше. Однако лучше ли?

Возьмем простой пример. Допустим, фирма-производитель решила выяснить, какой из двух сортов производимого мороженого 
предпочитают покупатели. Проблем бы не было, если бы все мороженое продавалось в одном магазине. На самом же деле продавцов 
несчетное множество: это оптовые рынки и гипермаркеты, средние и малые магазины, киоски, отдельные мороженщики с тележками, те, кто торгует в пригородных поездах, и т.п. Можно попробовать учесть доход от продажи каждого из двух сортов. Если 
они стоят одинаково, то большая сумма дохода должна отразить 
больший спрос. Представим, однако, что спрос одинаков, но по 
каким-то причинам мороженое первого сорта тает быстрее. Тогда 
потерь при его транспортировке будет в среднем больше, продавцы будут покупать его несколько чаще, и получится, что доход от

1.2. Генеральная совокупность и выборка...
9

продажи первого сорта будет несколько выше, чем от второго. Это 
рассуждение, конечно, упрощает реальную ситуацию, но подумайте, сколько других неучтенных факторов стоит на пути такого 
способа подсчета! Анализ товарных чеков лучше, однако многие 
конечные продавцы таких чеков не имеют и поэтому в анализ не 
попадут. А нам-то необходимо как раз учесть спрос покупателей, а 
не промежуточных продавцов.

Можно поступить иначе — раздать всем конечным продавцам 
анкеты, в которых попросить указать, сколько какого мороженого продано; а чтобы анкеты были обязательно заполнены, вести с 
этими продавцами дела только при наличии заполненных анкет. 
Только ведь никто не будет контролировать, как продавцы заполняют анкеты... Вот и получит фирма большую, подробную сводную таблицу о продажах мороженого, которая ровным счетом ничего отражать не будет.

Как же поступить? Здесь на помощь приходит идея выборочных исследований. Всех продавцов не проконтролируешь, но 
ведь нескольких-то можно! Надо выбрать из общего множества 
несколько торговых точек (как выбирать — это особая наука, см. 
об этом ниже) и проконтролировать тамошние продажи силами 
самой фирмы или такими нанятыми людьми, которым можно 
доверять. В результате мы получим результат, который является 
частью общей картины. Теперь самый главный вопрос — можно 
ли этот результат распространить на всю совокупность продаж? 
Оказывается, можно, поскольку на основе теории вероятностей 
уже много лет назад была создана теория выборочных исследований. Ее-то и называют чаще всего математической статистикой, 
или просто статистикой.

Пример с мороженым показывает важную вещь: выборочные 
исследования могут быть (и часто бывают) значительно более точными (в смысле соответствия реальности), чем сплошные.

Еще один хороший пример на эту же тему есть в результатах 
сплошной переписи населения России 1897 г. Если рассмотреть 
численность населения по возрастам, то получается, что макси
Глава 1. Что такое данные и зачем их обрабатывать?

малыше численности («пики») имеют возраста, кратные 5 и в особенности кратные 10. Понятно, как это получилось. Большая часть 
населения в те времена была неграмотна и свой возраст помнила 
только приблизительно, с точностью до пяти или до десяти лет. 
Чтобы все-таки узнать, каково было распределение по возрастам 
на самом деле, нужно не увеличивать данные, а, наоборот, создать 
выборку нескольких процентов населения и провести комплексное 
исследование, основанное на перекрестном анализе нескольких 
источников: документов, свидетельств и личных показаний. Это 
даст гораздо более точную картину, нежели сплошная перепись.

Естественно, сам процесс создания выборки может являться 
источником ошибок. Их принято называть ошибками репрезентативности. Однако правильная организация выборки позволяет 
их избежать. А поскольку с выборкой можно проводить гораздо 
более сложные исследования, чем со всеми данными (их называют генеральной совокупностью), те ошибки (ошибки точности), 
которые возникают при сплошном исследовании, в выборочном 
исследовании можно исключить.

1.3. Как получать данные: организация выборки; 
повторности и рандомизация; понятие о контроле; 
сколько нужно данных

В предыдущих разделах неоднократно упоминалось, что от 
правильного подбора выборки серьезным образом будет зависеть 
качество получаемых данных. Собственно говоря, есть два основных принципа составления выборки: повторности и рандомизация. Повторности нужны для того, чтобы быть более уверенными 
в полученных результатах, а рандомизация — для того, чтобы избежать отклонений, вызванных посторонними причинами.

Принцип повторностей предполагает, что один и тот же эффект будет исследован несколько раз. Собственно говоря, для этого мы в предыдущих примерах опрашивали множество избирате
К покупке доступен более свежий выпуск Перейти