Решение задач теории вероятностей и математической статистики в среде Scilab
Покупка
Год издания: 2019
Кол-во страниц: 120
Дополнительно
Вид издания:
Учебно-методическая литература
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-7882-2605-7
Артикул: 788554.01.99
Доступ онлайн
В корзину
Рассматриваются возможности системы компьютерной математики Scilab для проведения статистического анализа данных на ПК, вопросы генерирования случайных величин с заданным законом распределения. Описывается технология работы со статистическим блоком среды Scilab. Содержатся краткие сведения из теории вероятностей и математической статистики, облегчающие восприятие излагаемого материала. Для оценки уровня усвоения студентами пройденного материала предложены варианты заданий для самостоятельной работы.
Предназначено для студентов, обучающихся по направлениям подготовки 09.03.02 «Информационные системы и технологии», 22.03.01 «Материаловедение и технологии материалов», 18.03.01 «Химическая технология», 28.03.02 «Наноинженерия».
Подготовлено на кафедре информатики и прикладной математики.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 09.03.02: Информационные системы и технологии
- 18.03.01: Химическая технология
- 22.03.01: Материаловедение и технологии материалов
- 28.03.02: Наноинженерия
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов.
Для полноценной работы с документом, пожалуйста, перейдите в
ридер.
Министерство науки и высшего образования Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования «Казанский национальный исследовательский технологический университет» А. Н. Титов, Р. Ф. Тазиева РЕШЕНИЕ ЗАДАЧ ТЕОРИИ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ В СРЕДЕ SCILAB 2-е изд., стереотипное Учебно-методическое пособие Рекомендовано УМО РАЕ по классическому университетскому и техническому образованию в качестве учебно-методического пособия для студентов высших учебных заведений, обучающихся по направлениям подготовки 09.03.02 – «Информационные системы и технологии», 22.03.01 – «Материаловедение и технологии материалов», 18.03.01 – Химическая технология», 28.03.02 – «Наноинженерия». Казань Издательство КНИТУ 2019
УДК 519.21:004(07) ББК 22.171:32.97я7 Т45 Печатается по решению редакционно-издательского совета Казанского национального исследовательского технологического университета Рецензенты: д-р техн. наук, проф. М. Х. Хайруллин канд. экон. наук О. С. Семичева Т45 Титов А. Н. Решение задач теории вероятностей и математической статистики в среде Scilab : учебно-методическое пособие / А. Н. Титов, Р. Ф. Тазиева; Минобрнауки России, Казан. нац. исслед. технол. ун-т. – 2-е изд., стереотип. – Казань : Изд-во КНИТУ, 2019. – 120 с. ISBN 978-5-7882-2605-7 Рассматриваются возможности системы компьютерной математики Scilab для проведения статистического анализа данных на ПК, вопросы генерирования случайных величин с заданным законом распределения. Описывается технология работы со статистическим блоком среды Scilab. Содержатся краткие сведения из теории вероятностей и математической статистики, облегчающие восприятие излагаемого материала. Для оценки уровня усвоения студентами пройденного материала предложены варианты заданий для самостоятельной работы. Предназначено для студентов, обучающихся по направлениям подготовки 09.03.02 «Информационные системы и технологии», 22.03.01 «Материаловедение и технологии материалов», 18.03.01 «Химическая технология», 28.03.02 «Наноинженерия». Подготовлено на кафедре информатики и прикладной математики. ISBN 978-5-7882-2605-7 © Титов А. Н., Тазиева Р. Ф., 2019 © Казанский национальный исследовательский технологический университет, 2019 УДК 519.21:004(07) ББК 22.171:32.97я7
ОГЛАВЛЕНИЕ Введение......................................................................................................5 1. ЗАДАЧИ ТЕОРИИ ВЕРОЯТНОСТЕЙ................................................7 1.1. Дискретные случайные величины и их характеристики..............7 1.2. Статистические функции Scilab для работы с дискретными случайными величинами.........................................................................9 1.3. Непрерывные случайные величины и их характеристики..........13 1.3.1. Нормальный закон распределения........................................15 1.3.2. Распределение Шарлье ..........................................................20 1.3.3. Логарифмически нормальное распределение......................23 1.3.4. Распределение Фишера–Снедекора......................................27 1.3.5. Гамма-распределение.............................................................29 1.3.6. Бета-распределение................................................................31 1.3.7. Распределение хи-квадрат .....................................................33 1.3.8. Распределение Стьюдента .....................................................35 1.3.9. Распределение Вейбулла ......................................................37 1.3.10. Показательное (экспоненциальное) распределение..........40 1.3.11. Распределение Коши............................................................42 1.3.12. Распределение Накагами .....................................................44 1.4. Генерирование случайных чисел в Scilab.....................................46 1.5. Случайные векторы ........................................................................63 ЗАДАНИЯ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ.............................66 2. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА............................................69 2.1. Расчет выборочных характеристик статистического распределения ........................................................................................69 2.1.1. Точечные оценки ............................................................................69 2.1.1.1. Средние величины в статистике ........................................70 2.1.1.2. Характеристики рассеяния .................................................74
2.1.1.3. Другие характеристики формы и рассеяния.....................80 2.1.1.4. Построение гистограммы и полигона частот в Scilab......83 2.1.1.5. Работа с таблицами, содержащими нечисловые данные..... (nan – not-a-number)……………………………..............................85 2.1.2. Интервальные (доверительные) оценки параметров распределения...........................................................................................88 2.1.2.1. Построение доверительного интервала для математического ожидания и дисперсии .......................................89 2.1.2.2. F – тест. Случай нескольких выборок ..............................94 2.2. Корреляция и регрессия .................................................................97 3. МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ КОРРЕЛЯЦИЯ .......................101 3.1. Понятие множественной корреляции .........................................101 3.2. Измерение тесноты множественной линейной корреляционной связи ......................................................................................................109 3.3. Проверка адекватности модели множественной линейной корреляции ...........................................................................................110 ЗАДАНИЯ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ...........................115 ЛИТЕРАТУРА ........................................................................................118 Предметный указатель ...........................................................................119
ВВЕДЕНИЕ Одним из важнейших аналитических инструментариев в сфере поддержки процессов принятия решений являются статистические ме- тоды. Статистикой пользуются все – от политиков, желающих предска- зать исход выборов, до предпринимателей, стремящихся оптимизиро- вать прибыль при тех или иных вложениях капитала. Применение эко- номико-математических методов и использование вычислительной техники при анализе социально-экономических явлений значительно продвинуло развитие статистической науки. Мощными возможностями статистической обработки данных обладают специализированные программные продукты, такие как Stat- graphics, Statistica, SPSS Statistics и др. Стандартные статистические методы обработки данных включены в состав электронных таблиц, таких как Lotus 1-2-3, Excel, в математические пакеты общего назначения, такие как Mathcad, Matlab, Scilab. Свободно распространяемая система компьютерной математики Scilab предоставляет пользователю большое количество (несколько сотен) функций для анализа и обработки данных, в частности функции для решения задач интерполяции и аппроксимации, математической статистики и анализа данных (статистические функции, статистическая регрессия, цифровая фильтрация, быстрое преобразование Фурье и другие), возможности обработки данных ( набор специальных функций, включая построение графиков, оптимизацию, решение уравнений, численное интегрирование и другие). Scilab поддерживает язык программирования высокого уровня для организации технических вычислений. Последний факт выгодно отличает Scilab наряду с Mathcad и Matlab от упомянутых выше специализированных пакетов, так как решение статистических задач является, как правило, лишь частью общей задачи, стоящей перед исследователем. Настоящее пособие призвано помочь тем пользователям (студен- там, магистрам, аспирантам), которые используют или собираются ис- пользовать систему компьютерной математики Scilab для статистиче- ского анализа данных. При написании пособия авторы предполагают, что читатель уже имеет базовые знания по теории вероятностей и мате- матической статистике, поэтому часть материала, с которой обычно начинается изложение основ теории вероятностей и математической статистики, опущена. Однако там, где это необходимо, приводятся нужные формулы с пояснениями. Предполагается также, что читатель знаком с основами работы в среде Scilab.
Для облегчения понимания материал излагается в виде демон- страционных примеров и задач, поскольку «при изучении наук при- меры полезней правил» (Ньютон). При работе с данным пособием не обязательно читать все подряд, можно просто попробовать найти при- мер, похожий на тот, решение которого интересует читателя. Пособие включает в себя три раздела. В первом разделе рассмот- рены статистические функции для работы с дискретными (4 закона) и непрерывными (12 законов) случайными величинами (далее СВ), во- просы генерирования СВ с заданным законом распределения (11 зако- нов), вычисления ковариации и коэффициента корреляции. Во втором разделе рассмотрены вопросы оценки параметров распределения (то- чечные и интервальные оценки для математического ожидания и дис- персии), построения гистограмм, приведены примеры решения задач на F-тест, построения матриц ковариации, уравнения линейной регрессии. Рассмотрены вопросы работы с выборками, содержащими нечисловые данные (в Scilab это данные, принимающие значения NaN – not-a-num- ber). В третьей части на примерах рассмотрены решения задач постро- ения уравнения множественной линейной регрессии, построения дове- рительных интервалов для найденных коэффициентов регрессии. По- казано, как можно проверить значимость построенной модели. С целью расширения возможностей экономического анализа показано, как в вы- бранной программной среде рассчитываются множественный коэффи- циент корреляции, коэффициенты эластичности, парной корреляции, вариации, бета-коэффициенты (коэффициенты риска), коэффициенты детерминации и Q-коэффициенты. Теоретические аспекты экономиче- ской интерпретации результатов, полученных в разделе три, выходят за пределы интересов данного пособия, главной целью которого являются вопросы обработки экспериментальных данных при решении статисти- ческих задач как с использованием статистических функций Scilab, так и без них, если таковых функций в системе нет. Все расчеты, приведенные в учебном пособии, выполнены в среде Scilab (версия 6.0.1).
1. ЗАДАЧИ ТЕОРИИ ВЕРОЯТНОСТЕЙ 1.1. Дискретные случайные величины и их характеристики Случайной величиной X называется величина, которая в резуль- тате опыта (или испытания) принимает какое-либо значение, причем за- ранее неизвестно, какое именно. Пример 1.1. Подбрасывается игральная кость. Число, появляю- щееся на верхней грани, ꟷ случайная величина. Случайные величины бывают дискретными и непрерывными. Дискретная случайная величина – это величина, принимающая конечное (или счетное) множество значений. В примере 1.1 случайная величина является дискретной, принимающей шесть значений {1, 2, 3, 4, 5, 6}. Дискретная случайная величина задается законом или рядом рас- пределения. Закон распределения дискретной СВ Х – это таблица, в первой строке которой перечислены все значения, которые может принять слу- чайная величина X, а в нижней – вероятности того, что случайная ве- личина X примет данное значение. X х1 х2 … хn P p1 p2 … pn 1 ( ), 1, , 1. n i i i i p P X x i n p = = = = = Если по оси абсцисс отложить значения x1, x2, …, xn, а по оси ор- динат ꟷ соответствующие вероятности p1, p2,…, pn, и соединить сосед- ние точки отрезками, то получим многоугольник распределения слу- чайной величины X. Характеристики случайной величины Х. 1. Функция распределения F(x). Функция распределения F(x) действительной переменной x опре- деляется формулой (1.1): F(x)=P(X<x). (1.1) Это вероятность того, что случайная величина X примет значение меньшее, чем х. Функция распределения может принимать значения от 0 до 1. 2. Математическое ожидание M(X). Это число, подсчитываемое по формуле
1 ( ) . (1.2) n k k k M X x p = = 3. Мода случайной величины X. Определяется как такое возможное значение случайной вели- чины X, вероятность которого максимальна. Так, xm – мода случайной величины X, если max . (1.3) m k k P(X x ) {P(X x )} = = = 4. Дисперсия D(X). Дисперсией (рассеянием) случайной вели- чины называется математическое ожидание квадрата ее отклонения от математического ожидания. Это неотрицательное число, подсчитываемое по формуле 2 2 1 ( ) ( ( )) ( ( )) . (1.4) n k k k D X M X M X x M X p = = − = − Можно доказать, что 2 2 2 2 1 ( ) ( ) ( ( )) ( ( )) . (1.5) n k k k D X M X M X x p M X = = − = − 5. Среднеквадратическое отклонение ( ): Х ( ) ( ). (1.6) X D X = σ(Х) имеет размерность случайной величины. D(X) и σ(X) харак- теризуют степень рассеяния случайной величины относительно ее ма- тематического ожидания. 6. Начальный момент m-го порядка αm(X), m=0,1, 2, … Это число 1 ( ) ( ). (1.7) n m m m k k k X x p M X = = = 7. Центральный момент m-го порядка μm(X): 1 ( ) ( ( )) ( ( )) . (1.8) n m m m k k k X M X M X x M X p = = − = − 8. Коэффициент асимметрии, или «скошенности», распределения ( ): As X 3 3 ( ) ( ) . (1.9) ( ) X As X X = 9. Коэффициент эксцесса распределения Ex(X): 4 4 ( ) ( ) 3. (1.10) ( ) X Ex X X = −
1.2. Статистические функции Scilab для работы с дискретными случайными величинами Для работы с дискретными СВ в Scilab предназначены функции binomial, cdfbin, cdfnbn, cdfpoi. Пусть проводится n последовательных испытаний, в каждом из которых может произойти некоторое случайное событие А. Испытания независимы друг от друга. Пусть задана вероятность наступления со- бытия А в одном испытании (опыте) p(A)=p и она не меняется от опыта к опыту. Пусть X – случайная величина, равная числу наступлений собы- тия А в n опытах. Очевидно, n X ,0 = . Вероятность того, что в n опытах событие А наступит ровно m раз, подсчитывается по формуле Бернулли: ! ( ) (1 ) (1 ) . !( )! m m n m m n m n n n P X m C p p p p m n m − − = = − = − − (1.11) Здесь n!=1·2·3···n. Так, 5!=1·2·3·4·5=120. Принято считать, что 0!=1. Говорят, что случайная величина X имеет биномиальное распре- деление. Вероятность того, что в n опытах событие А наступит не более m раз, можно вычислить по формуле (1.12): ( ) (0) (1) (2) ... ( ). n n n n n P X m P P P P m = + + + + (1.12) Каждое m i i Pn , 0 ), ( = в (1.12) вычисляют по формуле (1.11). Можно доказать, что 1 ) ( ... ) 2 ( )1( ) 0 ( = + + + + n P P P P n n n n . Пример 1.2. Проведено 4 независимых испытания, в каждом из которых может произойти некоторое событие А с вероятностью 0,2. Построить закон распределения СВХ – числа наступлений события А – и вычислить вероятность того, что СВХ примет значение, не превосхо- дящее двух. Построить многоугольник распределения СВХ . Решение. Случайная величина Х может принять 5 разных значе- ний – от 0 до 4. Для подсчета вероятностей воспользуемся функцией binomial. -> x=0:4;p=binomial(0.2,4);[x;p] ans = 0. 1. 2. 3. 4. 0.4096 0.4096 0.1536 0.0256 0.0016 В этом примере первый элемент массива p (вторая строка) – это P4(0), последний – P4(4).
Для того чтобы определить вероятность того, что СВХ примет значение, не превосходящее двух P(X≤2), используем функцию cdfbin. Она может иметь следующий вид: [P,Q]=cdfbin("PQ",S,Xn,Pr,Ompr) [S]=cdfbin("S",Xn,Pr,Ompr,P,Q) [Xn]=cdfbin("Xn",Pr,Ompr,P,Q,S) [Pr,Ompr]=cdfbin("PrOmpr",P,Q,S,Xn) Здесь Pr – вероятность наступления события А в одном опыте Ompr=1–Pr; Xn – число опытов, S – максимальное интересующее нас число наступлений события А (в нашем примере 2), P+Q=1. Тогда --> p1=cdfbin("PQ",2,4,0.2,0.8) p1 = 0.9728 Для построения многоугольника распределения добавляем одну строку: --> plot(x,p,'.r-') Получаем требуемый график. Математическое ожидание случайной величины Х, имеющей биномиальное распределение, ( ) M X np = , где р – вероятность наступ- ления события в одном опыте, дисперсия ( ) (1 ) D X np р = − ; α2=np[(n–1)p+1], α3=np[(n–1)(n–2)p2+3(n–1)p+1], μ3=npq(q–p), (q=1–p),
μ4=npq[1+3pq(n–2)]. Коэффициенты вариации, асимметрии и эксцесса равны соответственно 1 6 , , . q q p pq V As Ex np npq npq − − = = = Пусть в схеме Бернулли с вероятностью наступления события А в одном опыте, равной р, заранее фиксируется число появлений собы- тия А, после которого испытания прекращаются (m). Пусть случайная величина Х – число непоявлений события А до момента наступления m- го события А. Например, Х – число бракованных изделий до изготовле- ния сотого (m=100) небракованного. Случайное число Х неудачных ис- пытаний до появления m-го успеха (наступления события А) подчиня- ется отрицательному биноминальному распределению. Распределение используется при планировании запуска изделий в производство для получения требуемого количества годных изделий при известном про- центе выхода годных, при планировании объема испытаний до получе- ния заданного числа отказов [1]. Вероятность того, что случайная величина Х до наступления m успеха примет значение k , 1 ( 1)! ( ) (1 ) (1 ) !( 1)! k m k m k m p k m k m P X k C p p p p k m + − + − = = − = − − , m≥1; k=0,1, 2, ... (1.13) Математическое ожидание, дисперсия, коэффициенты вариации, асимметрии и эксцесса равны соответственно 2 (1 ) (1 ) 1 ( ) , ( ) , , (1 ) m p m p M X D X V p p p p − − = = = − 2 1 2 6 (2 ) (1 ) , 3 . (1 ) p As p m p Ex m m p − = − − = + + − У этого распределения множество возможных значений случай- ной величины не ограничено сверху. Для работы с отрицательным биномиальным распределением в Scilab используется функция cdfnbn. Синтаксис функции: [P,Q]=cdfnbn("PQ",S,Xn,Pr,Ompr) [S]=cdfnbn("S",Xn,Pr,Ompr,P,Q) [Xn]=cdfnbn("Xn",Pr,Ompr,P,Q,S) [Pr,Ompr]=cdfnbn("PrOmpr",P,Q,S,Xn) В первой формуле P – вероятность того, что до получения Xn успехов произойдет не более S неудач, Pr – вероятность успеха в одном испытании (р), Ompr=1–Pr.
Пример 1.3. Вероятность получения дефектного изделия равна 0.1. Какова вероятность того, что будут произведены 50 годных изде- лий до появления десятого дефектного изделия. Вычислить вероят- ность того, что до появления второго дефектного изделия будет произ- ведено не более 5 годных изделий. Решение. Успех здесь – появление бракованного изделия. Нужно определить вероятность того, что произойдет k «неуспехов» (произве- дено 50 годных изделий k=50) до появления десятого «успеха» (m=10). Вероятность успеха равна 0.1. В формуле (1.13) m=10; p=0.1; k=50. 10 10 50 10 10 50 50 10 1 59 ( 10) 0.1 0.9 0.1 0.9 0.03238. P X C C + − = = = = Для решения задачи в Scilab воспользуемся первой из приведен- ных формул. В ней успех – появление годного изделия, Pr =0.9, Xn=50. P=P(X≤10) –P(X≤9). P=cdfnbn("PQ",10,50,0.9,0.1) –cdfnbn("PQ",9,50,0.9,0.1) Ответ: P = 0.0323803. cdfnbn("PQ",10,50,0.9,0.1) – это вероятность того, что до появления 50 годных изделий бракованных будет не более 10. Вероятность того, что до появления второго дефектного изделия будет произведено не более 5 годных изделий, равна 0 2 0 1 2 1 2 2 2 1 2 3 3 2 3 4 2 4 5 2 5 4 5 6 ( 5) 0.1 0.9 0.1 0.9 0.1 0.9 0.1 0.9 0.1 0.9 0.1 0.9 0.1496944. P X C C C C C C = + + + + + + = Во второй части задачи «успех» – появление бракованного изделия, и до появления второго успеха (Xn=2) должно произойти не более 5 неудач (число годных изделий S=5). Вероятность «успеха» Pr= 0.1. Тогда ( ) ( ) Р Х 5 = cdfnbn "PQ",5,2,0.1,0.9 --> cdfnbn("PQ",5,2,0.1,0.9) ans = 0.1496944 Если в формуле (1.11) n велико (больше 30), а p(A) – мала, то пользоваться этой формулой становится неудобно. Доказано, что в этом случае вероятность того, что в n испытаниях событие A наступит ровно k раз, можно подсчитать по формуле Пуассона: ! ) ( k e k P k n = − , (1.14)
Доступ онлайн
В корзину