Теория вероятностей и математическая статистика. Раздел 2. Математическая статистика
Покупка
Издательство:
Издательский Дом НИТУ «МИСиС»
Год издания: 2005
Кол-во страниц: 117
Дополнительно
Вид издания:
Учебно-методическая литература
Уровень образования:
ВО - Бакалавриат
Артикул: 752829.01.99
Настоящее издание представляет собой продолжение учебно-методического пособия «Теория вероятностей и математическая статистика». Рассматриваются современные методы математической статистики и обработки результатов экспериментов. Приводятся указания по выполнению типовых расчетов по данной тематике. Теоретический и методический материал сопровождается большим количеством примеров решения типовых задач, а также необходимыми справочными данными. Приводятся примерные варианты контрольной работы. Предназначено для студентов специальностей 110200, 110500, 110600, 110800, 090300, 170300, 072000.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 01.03.01: Математика
- 01.03.02: Прикладная математика и информатика
- 01.03.04: Прикладная математика
- 03.03.01: Прикладные математика и физика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
УДК 519.2 К21 Р е ц е н з е н т доцент СМ. Курашов Карасев В.А., Богданов С.Н., Левшина Г.Д. К21 Теория вероятностей и математическая статистика. Разд. 2. Математическая статистика: Учеб.-метод. пособие. - М.: МИСиС, 2005. - 117 с. Настоящее издание представляет собой продолжение учебнометодического пособия «Теория вероятностей и математическая статистика». Рассматриваются современные методы математической статистики и обработки результатов экспериментов. Приводятся указания по выполнению типовых расчетов по данной тематике. Теоретический и методический материал сопровождается большим количеством примеров решения типовых задач, а также необходимыми справочными данными. Приводятся примерные варианты контрольной работы. Предназначено для студентов специальностей 110200, 110500, 110600, 110800, 090300, 170300, 072000. © Московский государственный институт стали и сплавов (Технологический университет) (МИСиС), 2005
ОГЛАВЛЕНИЕ Предисловие 5 1. Практические занятия по обработке результатов эксперимента 6 1.1. Первичная обработка результатов эксперимента и оценка основных параметров генеральной совокупности 6 1.2. Оценка математического ожидания по неравноточным измерениям 13 1.3. Оценка дисперсии по результатам нескольких серий экспериментов 14 1.4. Построение гистограммы распределения 16 1.5. Некоторые используемые в статистике законы распределения 17 1.6. Построение доверительных интервалов 21 1.6.1. Доверительный интервал для математического ожидания 21 1.6.2. Доверительный интервал для среднего квадратического отклонения 22 1.6.3. Доверительный интервал для дисперсии 22 1.7. Проверка статистических гипотез 26 1.7.1. Основные понятия 26 1.7.2. Проверка гипотез о дисперсии нормального распределения 30 1.7.3. Проверка гипотез о математических ожиданиях нормального распределения 36 1.7.4. Проверка гипотезы о виде распределения генеральной совокупности 45 1.8. Регрессионный анализ. Построение линейной и квадратичной регрессионных моделей 48 1.8.1. Оценка коэффициентов регрессии 48 1.8.2. Построение доверительных интервалов для коэффициентов регрессии 57 1.8.3. Проверка гипотезы об адекватности регрессионной модели 59 1.9. Линейный корреляционный анализ 62 1.9.1. Двумерный случайный вектор, его выборочные характеристики 62 3
1.9.2. Построение доверительного интервала для коэффициента корреляции. Проверка гипотезы о существовании линейной зависимости 68 2. Указания по выполнению типовых расчетов «обработка основных типов данных промышленного эксперимента» 72 2.1. Типовой расчет 1. Сравнение двух случайных выборок (первичная обработка данных, проверка статистических гипотез) 72 2.2. Типовой расчет 2. Обработка данных методами регрессионного анализа 85 2.3. Типовой расчет 3. Обработка данных методами линейного корреляционного анализа 95 2.4. Примерные варианты контрольной работы 97 Ответы к вариантам контрольной работы 101 Библиографический список 103 Приложение 103 4
Предисловие Пособие является продолжением нашего учебно-методического пособия «Теория вероятностей и математическая статистика», вышедшего в 2003 году. В нем приведены необходимые сведения об основных современных методах математической статистики и обработки экспериментальных результатов на примерах, заимствованных из области металлургии и металловедения. Основой издания послужили учебные пособия по организации эксперимента, выпущенные кафедрой математики МИСиС. Изменения в программе преподавания математики, произошедшие за последние десять лет, а также опыт чтения лекций и проведения практических занятий определили необходимость и характер издания данного пособия. «Теория вероятностей и математическая статистика» входит в состав курса математики, являющегося Федеральной компонентой в основных образовательных программах направлений подготовки специалистов в областях: 651300- металлургия (специальности 110200, 110500, 110600, 110800); 650600 - горное дело (специальность 090300); 651600 - технологические машины и оборудование (специальность 170300); 653800 - стандартизация, сертификация и метрология (специальность 072000). Согласно учебному плану, при изучении второго раздела курса предусмотрено выполнение нескольких типовых расчетов. Исходя из этого, сформирована структура пособия, состоящая из двух разделов и приложения, в котором приведены статистические таблицы, необходимые для проведения типовых расчетов. Студентам, желающим ознакомиться с более полным и строгим изложением основ математической статистики, рекомендуем литера- туру, приведенную в библиографическом списке. 5
1. ПРАКТИЧЕСКИЕ ЗАНЯТИЯ ПО ОБРАБОТКЕ РЕЗУЛЬТАТОВ ЭКСПЕРИМЕНТА 1.1. Первичная обработка результатов эксперимента и оценка основных параметров генеральной совокупности Математическая статистика позволяет с помощью математических методов обрабатывать, систематизировать и использовать численные результаты эксперимента для получения практических выводов. Под генеральной совокупностью в математической статистике понимается множество (гипотетическое) всех возможных результатов измерения некоторой величины, которые могут быть получены в данных условиях. Тем же самым понятием в теории вероятностей является случайная величинах Реальная серия повторных измерений случайной величины х1, НОСТИ, или просто случайная выборка. Число п называется объемом случайной выборки. Приведем примеры. 1. Проведена серия повторных измерений одной и той же физической величины в одних и тех же условиях. Разброс результатов обусловлен погрешностью измерительной аппаратуры. 2. Измеряется некоторая характеристика одинаковых изделий, изготовленных при поточном производстве. Разброс результатов обусловлен особенностями технологии производства. 3. Измеряется некоторая характеристика людей определенного пола и интервала возрастов, например, рост. Разброс результатов обусловлен природными факторами. В статистике принята следующая математическая модель подобных экспериментов: каждый элемент случайной выборки рассматривается как отдельная случайная величина; относительно этих случайных величин, которые в дальнейшем будем обозначать заглавными буквами, известна некоторая априорная информация. Случайная выборка называется повторной, если все входящие в нее случайные величины Х„Х„...,Х„ взаимно независимы и имеют одинаковую функцию распределения F{x), причем такую же, что и наблюдаемая случайная величина X. Па практике это, в частности, 6
означает, что измерения производятся независимо друг от друга (полученные результаты одних измерений не влияют на возможные результаты других). Величины имеют одинаковые математические ожидания М(Х,) = а, т.е. результаты измерений свободны от систематических ошибок (результаты в среднем не смещены относительно истинного значения М(Х) = а), и одинаковые дисперсии D(Xi) = D(X) = a\ что ятьтастся равноточностью измерений (например, в случае, когда измерения физической величины проведены на одном и том же приборе при одинаковых условиях). Если случайные величины Х„Х„...,Х„, образующие повторную случайную выборку, имеют нормальное распределение с одинаковыми параметрами а, и, т.е. Д ~ N(a; а), то такая выборка называется нормальной, а соответствующая генеральная совокупность- нормальной генеральной совокупностью. В математической статистике рассматривают и неповторные выборки, в которых нарушается хотя бы одно из указанных условий: взаимная независимость, одинаковость функции распределения. Слово «повторная» обычно опускается, и пишут просто «выборка». Для неповторной выборки обязательно пишут «неповторная выборка». Распределение случайной величины X характеризуется рядом параметров (математическое ожидание, дисперсия и т.д.). Эти параметры называют параметрами генеральной совокупности. Важной задачей математической статистики является нахождение по случайной выборке приближенных значений каждого из параметров, называемых точечными оценками параметров, или просто оценками. Таким образом, оценкой параметра Р называется функция /{Х^,Х^,...,Х„)от случайной выборки, значение которой принимается в качестве приближенного для данного параметра и обозначается (3 : P;«P = /(Xi,X2,...,XJ. (1.1) Так как оценка зависит от случайной выборки, то она, в свою очередь, является случайной величиной. Для одного и того же параметра р по одной и той же выборке можно построить много различных оценок. Для сравнения оценок между собой введены специальные характеристики. Оценка называется несмещенной, если ее математическое ожидание равно истинному значению параметра, т.е. М(Р) = р. Несмещенная 7
оценка обеспечивает близость в среднем значений оценки к значению оцениваемого параметра, т.е. не дает систематической ошибки. Оценка называется состоятельной, если при « ^ оо она сходится по вероятности к истинному значению оцениваемого параметра: Vs>0 limP(|B - B | > S ) = 0 , (1.2) где Р„ - оценка параметра Р, найденная по выборке объема п. Смысл понятия состоятельности заключается в том, что с увеличением объема выборки оценка стремится к истинному значению параметра. Точностью оценки р называется средний квадрат отклонения оценки от Р: q4^)^M[^-^f]. Для несмещенных оценок точ ность определяется величиной дисперсии оценки: ^^(Р) = Оф). Чем меньше q — •\Jq ф) , тем оценка лучше (точнее). Наилучшей линейной оценкой параметра Р называется такая его линейная несмещенная оценка, которая имеет наименьшую дисперсию в классе всех линейных несмещенных оценок. Пусть задана повторная случайная выборка Х„Х„...,Х„. За оценку математического ожидания a принимается среднее арифметическое элементов выборки: X-—^X, . (1.3) « i=\ Оценкой дисперсии а^ при известном математическом ожидании a является величина 5*0 : 81Л^^^Х,-а)' . (1.4) Оценкой дисперсии а' при неизвестном математическом ожидании является величина 5*^, которую называют эмпирической дисперсией: S'^^f^{X,-Xf . (1.5) п-\ i=\ 8
Оценкой среднего квадратического отклонения а при этом являются, соответственно, величины S^^-Jsl; S = ^ . (1.6) Оценки математического ожидания и дисперсии, найденные по формулам (1.3), (1.4) и (1.5), являются несмещенными и состоятельными. Среднее арифметическое (1.3) является наилучшей линейной оценкой математического ожидания для повторной случайной выборки. Оценка параметра а = л / ^ с помощью значений, полученных по формуле (1.6), является состоятельной, но смещенной (ее смещение убывает с увеличением п). Число к = п—\ в формуле (1.5) называется числом степеней свободы оценки S^ . Для практических расчетов формулу (1.5) целесообразно преобразовать к следующему виду: Вычисление среднего значения X и оценки дисперсии S^ упрощается, если отсчет значений Х^ вести от подходящим образом выбранного начала отсчета С и в подходящем масштабе, т.е. сделать линейную замену (кодирование): X,. =С + /гС/, (г = 1,2,...,и). (1.8) При такой замене формулы (1.3), (1.5), (1.6) принимают следующий вид: = ^[Xxf-«x4. (1.7) X^C + hU; [ / = - ^ [ / , ; (1.9) п i=\ л2 я _ h"^ ( " —Л S"^ 'S^(U:-U)^- 'S^Uf-nU^ . (1.10) Для контроля правильности вычислений весь расчет следует повторить при другом начале отсчета С: результаты должны совпадать с точностью до величины возможных ошибок округления. 9
Таблица 1.1 Исходные данные и ревультаты расчетов (к задаче 1.1) ЗначениеX 4,761 4,792 4,758 4,764 4,810 4,799 4,797 4,790 4,747 4,769 4,806 4,779 4,785 4,790 4,777 4,749 4,781 4,799 Сумма Результаты расчетов U –19 12 –22 –16 30 19 17 10 –33 –11 26 –1 5 10 –3 –31 1 19 13 U 2 361 144 484 256 900 361 289 100 1089 121 676 1 25 100 9 961 1 361 6239 Контроль правильности расчетов V –29 2 –32 –26 20 9 7 0 –43 –21 16 –11 –5 0 –13 –41 –9 9 –167 V 2 841 4 1024 676 400 81 49 0 1849 441 256 121 25 0 169 1686 81 81 7779 Задача 1.1. В табл. 1.1 в первом столбце записаны результаты n = 18 независимых равноточных измерений величины заряда электрона q^X-lQ-'' (в единицах CGSE), полученных Милликеном. Вычислить оценки математического ожидания, дисперсии и среднего квадратического отклонения величины X, провести контроль правильности расчетов. Решение Выберем С = 4,780 и, полагая h = 10 ^ подсчитаем значения [/,=(Х,-С)//г = (Х,-4,780)/10-^ и Ul Суммы чисел второго и третьего столбца дают возможность рассчитать X и S 2: [7 = 13/18 = 0,72; Х = 4,780+ 0,72-10-^ =4,7807; ^^=10-'^(6239-13Vl8)/17 = 3,66.10-^, откуда ^ = V F = V3,66.10-^=1,91-10-1 10
в последних двух столбцах приведены расчеты при другом начале отсчета C1 = 4,790. Новые кодированные значения обозначены как Vi = (Xi -4,790)/10-3 . Эти расчеты приводят к тем же значениям X и S: V =167/18 = -9,2, X = 4,790-9,28-10" =4,7807. При большом числе исходных данных их предварительно группируют, т.е. весь диапазон значений X разбивают на l равных интервалов, подсчитывают число исходных данных, попавших в каждый j-й интервал, и относят это число (частоту mj) к середине интервала Xj (j = 1, 2, ..., l). Затем середины этих интервалов кодируют по формуле (1.8), выбирая за новое начало отсчета С середину одного из интервалов, а за масштабный коэффициент h - длину интервала. При таком кодировании все значения Uj будут целыми числами, которые для соседних интервалов отличаются на единицу. Расчет по сгруппированным данным дает лишь приближенные значения среднего X^C + hU и эмпирической дисперсии S2 »h 2 SU 2 , где I U-—2_Ujmj; (111) 1 SU 2 = 1 T ( U j - U ) 2 m j = У U2 j=1 u=1 f l _ ^ 2m-nU2 j (n-1). (112) Эмпирическая дисперсия S\ вычисленная по сгруппированным данным, оказывается меньше эмпирической дисперсии, найденной по несгруппированным 2езультатам эксперимента, на величину, приблизительно равную hVU. Это следует учитывать при округлеНИИ значения S, сохраняя лишь один сомнительный знак; значение среднего X округляют при этом до единиц того разряда, который сохранен в значении S. Подобными соображениями можно руководствоваться и в тех случаях, когда результаты измерений округлены с учетом цены деления шкалы измерительного прибора (при этом обычными методами, используя цену деления шкалы, оценивают погрешность вычисления S2). Задача 1.2. Проведено 52 эксперимента, результаты которых находятся в диапазоне значений 22,75-26,75. Этот диапазон разбит на 11