Многомерный статистический анализ эколого-геохимических измерений. Ч.1. Математические основы
Покупка
Основная коллекция
Издательство:
Томский политехнический университет
Год издания: 2014
Кол-во страниц: 102
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
Профессиональное образование
Артикул: 643308.01.99
Пособие содержит теоретический материал по математическим основам курса «Многомерный статистический анализ эколого-геохимических измерений»: краткие теоретические сведения по теории вероятностей и многомерным статистическим методам; учет особенностей статистического анализа в случае малых выборок; наглядные графические иллюстрации, выполненные в системе STATISTICA 6.1; список рекомендуемой литературы.
Предназначено для студентов и аспирантов, обучающихся по специальности 320300 (013600) «Геоэкология», и может быть полезным при проведении многомерного статистического анализа эколого-геохимической информации.
Тематика:
ББК:
- 201: Человек и окружающая среда. Экология человека. Экология в целом. Охрана природы
- 263: Геологические науки
УДК:
- 55: Геология. Геологические и геофизические науки
- 574: Общая экология. Биоценология. Гидробиология. Биогеография
ОКСО:
- ВО - Бакалавриат
- 05.03.01: Геология
- 05.03.06: Экология и природопользование
- ВО - Специалитет
- 04.05.01: Фундаментальная и прикладная химия
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное автономное образовательное учреждение высшего образования «НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТОМСКИЙ ПОЛИТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ» А.А. Михальчук, Е.Г. Язиков МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ ЭКОЛОГО-ГЕОХИМИЧЕСКОЙ ИНФОРМАЦИИ ЧАСТЬ I. МАТЕМАТИЧЕСКИЕ ОСНОВЫ Рекомендовано в качестве учебного пособия Редакционно-издательским советом Томского политехнического университета Издательство Томского политехнического университета 2014
УДК 550.4:504:519.22(075.8) ББК 26.30:20.1:22.172я73 М69 Михальчук А.А. М69 Многомерный статистический анализ эколого-геохимических измерений: учебное пособие. Часть I. Математические основы / А.А. Михальчук, Е.Г. Язиков; Томский политехнический университет. – Томск: Изд-во Томского политехнического университета, 2014. – 102 с. Пособие содержит теоретический материал по математическим основам курса «Многомерный статистический анализ эколого-геохимических измерений»: краткие теоретические сведения по теории вероятностей и многомерным статистическим методам; учет особенностей статистического анализа в случае малых выборок; наглядные графические иллюстрации, выполненные в системе STATISTICA 6.1; список рекомендуемой литературы. Предназначено для студентов и аспирантов, обучающихся по специальности 320300 (013600) «Геоэкология», и может быть полезным при проведении многомерного статистического анализа эколого-геохимической информации. УДК 550.4:504:519.22(075.8) ББК 26.30:20.1:22.172я73 Рецензенты Доктор физико-математических наук, профессор заведующий кафедрой ТФ ТГУ А.В. Шаповалов Кандидат геолого-минералогических наук заместитель начальника экспедиции ГТИиГК ООО «ВостокГАЗПРОМгеофизика» О.А. Миков © ФГАОУ ВО НИ ТПУ, 2014 © Михальчук А.А., Язиков Е.Г., 2014 © Оформление. Издательство Томского политехнического университета, 2014
ОГЛАВЛЕНИЕ ВВЕДЕНИЕ ................................................................................................... 4 ЧАСТЬ I. МАТЕМАТИЧЕСКИЕ ОСНОВЫ .............................................. 6 1.1. Введение в теорию вероятностей ..................................................... 6 1.1.1. Понятие вероятности случайного события .............................. 6 1.1.2. Случайная величина и законы ее распределения .................... 8 1.1.3. Основные характеристики случайной величины .................. 10 1.1.4. Примеры законов распределения случайной величины ................................................................ 15 1.1.6. Система случайных величин ................................................... 25 1.2. Элементы математической статистики .......................................... 29 1.2.1. Выборочный метод ................................................................... 29 1.2.2. Проверка статистических гипотез .......................................... 35 1.2.3. Дисперсионный анализ ............................................................ 43 1.2.4. Корреляционно-регрессионный анализ .................................. 58 1.2.5. Метод канонических корреляций ........................................... 62 1.2.6. Метод главных компонент ....................................................... 68 1.2.7. Факторный анализ .................................................................... 72 1.2.8. Кластерный анализ ................................................................... 77 1.2.9. Особенности применения статистического анализа экологогеохимической информации в случае малых выборок .......................................................... 86 ЗАКЛЮЧЕНИЕ ........................................................................................... 98 СПИСОК ЛИТЕРАТУРЫ .......................................................................... 99
ВВЕДЕНИЕ Современные эколого-геохимические исследования урбанизированных территорий свидетельствуют о тяжелой экологической ситуации в крупных промышленных центрах. Мониторинг окружающей среды предполагает комплексную систему наблюдений за компонентами природной среды для оценки и прогноза изменений их состояния под воздействием природных и антропогенных факторов. Анализ проведённых эколого-геохимических исследований подобных наблюдений урбанизированных территорий в России и других стран показывает, что они характеризуются комплексом химических компонентов (тяжелые металлы, радиоактивные, редкоземельные и редкие элементы, макроэлементы). Таким образом, база данных эколого-геохимических измерений является многомерной, что предполагает использование многомерных статистических методов при проведении анализа эколого-геохимической информации [5, 10, 14, 18–20, 24, 27, 30, 33, 35–37, 41, 42, 44]. Резкое увеличение количественной информации, получаемой в процессе эколого-геохимических исследований, вызвало необходимость использования современных способов ее обработки и анализа с помощью ЭВМ. В последнее время наблюдается широкое привлечение математических методов исследования во всех отраслях геологических наук (геохимии в частности). Для успешного развития экологогеохимических исследований необходимо также использовать полный арсенал существующих прогрессивных научных и технических средств, включая методы статистического анализа и ЭВМ [6, 7, 9, 39]. Современная геохимия уже не может ограничиться изучением лишь качественных сторон явлений и процессов, а должна активно и всесторонне выявлять их количественные характеристики, обеспечивая тем самым более высокий научный уровень исследования экологии окружающей среды. Прежде чем приступить к статистическому анализу экологогеохимической информации, следует особое внимание обратить на составление базы данных. Именно грамотная формулировка задачи и в соответствии с ней формирование массива данных будет определять эффективность применения статистического анализа. Подборка проб определяется в первую очередь задачей исследований. Например, при изучении различных почвенных разрезов следует объединять пробы по горизонтам. При изучении воздействия предпри
ятия можно объединять в выборки пробы, отобранные на разных расстояниях и направлениях с учётом розы ветров. Кроме того, необходимо учитывать способ отбора проб, метод аналитических исследований и лаборатории, в которых проводился анализ. Количество проб, объединённых в выборку, может быть различным. Однако для получения достоверных статистических результатов желательно иметь выборки объёма не менее 30 проб. Важным моментом в настоящее время является использование эколого-геохимической информации в виде выборки небольшого объёма. Основным фактором в данном случае являются дорогостоящие методы анализа. В данном пособии рассматривается возможность применения методов статистической обработки при небольшом объеме выборок для сопоставления результатов исследований [21–23]. Начиная с 1990-х годов изучение загрязнения окружающей среды, в том числе почв и снегового покрова, проводится на кафедре геоэкологии и геохимии Томского политехнического университета [34, 45]. Учебное пособие состоит из трех частей. В первой части рассматривается теоретический материал математических основ курса «Многомерный статистический анализ эколого-геохимических измерений», содержащий краткие теоретические сведения по теории вероятностей и многомерным статистическим методам. Вторая часть включает компьютерный практикум по многомерным статистическим методам. В третьей части подробно рассматриваются примеры сравнительного статистического анализа эколого-геохимической информации на реальных материалах. Авторы преследовали цель не только создать учебно-методическое пособие, но и на конкретных примерах показать возможность применения современного компьютерного инструментария (системы STATISTICA 6.1) для овладения необходимыми практическими навыками при проведении сравнительного статистического анализа эколого-геохимической информации. С учетом ограниченного объема пособия для более глубокого изучения курса «Многомерный статистический анализ экологогеохимических измерений» предполагается изучение литературы, приведённой в конце пособия. Авторы будут признательны читателям за отзывы, критические замечания и полезные советы, которые помогут устранить имеющиеся в пособии недостатки и улучшить в будущем его содержание.
ЧАСТЬ I. МАТЕМАТИЧЕСКИЕ ОСНОВЫ 1.1. Введение в теорию вероятностей Теория вероятностей [8, 16]– математическая наука, позволяющая, в частности, по вероятностям одних случайных событий находить вероятности связанных с ними других случайных событий. В этом определении есть целый ряд понятий: случайное событие, вероятность случайного события, связь между случайными событиями. Все эти понятия нуждаются в определении и разъяснении. В усвоении этого круга вопросов и состоит первое знакомство с теорией вероятностей. Теория вероятностей изучает свойства массовых случайных событий, способных многократно повторяться при воспроизведении определенного комплекса условий. Основное свойство любого случайного события, независимо от его природы, – вероятность его осуществления. П р е д м е т о м т е о р и и в е р о я т н о с т е й является изучение вероятностных закономерностей массовых однородных случайных событий, что предопределяет необходимость овладения методами теории вероятностей и математической статистики как инструментом статистического анализа и прогнозирования явлений и процессов. 1.1.1. Понятие вероятности случайного события Осуществление каждого отдельного наблюдения, опыта или измерения при проведении эксперимента называют испытанием. Результат испытания назовем событием. Различают события: достоверные, невозможные и случайные. Достоверное событие – это такое событие, которое всегда происходит в рассматриваемом эксперименте. Невозможное событие – это такое событие, которое никогда не происходит в рассматриваемом эксперименте. Случайное событие – результат испытания со случайным исходом, которых при воспроизведении опыта может наступить, а может и не наступить. События обозначаются латинскими буквами А,В,С,…, невозможное – , достоверное – . Сравнивать случайные события естественно по степени возможности их наступления. С этой целью вводится числовая характеристика этой степени возможности (случайности), называемая вероятностью со
бытия. Для события А вероятность принято обозначать Р(А). Существует несколько подходов, поясняющих понятие вероятности. В каждом из этих подходов указываются правила, по которым случайному событию ставится в соответствие положительное число, объективно характеризующее степень возможности появления этого события. С практической точки зрения представляет интерес статистическое определение вероятности. Многочисленными наблюдениями над самыми разнообразными случайными событиями установлен следующий достоверный факт: если над одним и тем же случайным событием в одних и тех же условиях проводить много серий из большого числа испытаний каждая, то наблюдаемая в каждой такой серии частота появления события будет колебаться от серии к серии в сравнительно узких пределах, будет, как говорят в теории вероятностей, «устойчивой». При этом пределы, в которых колеблется устойчивая частота случайного события, будут тем теснее, чем большее число испытаний в каждой серии. Это свидетельствует о наличии статистической закономерности в изучаемом явлении. Пусть в одних и тех же условиях проведена серия из n* испытаний, в каждом из которых могло появиться или не появиться интересующее нас событие А. Пусть событие А появилось при этом в m* испытаниях. Относительной частотой Р(А) события А в данной серии испытаний называется отношение m* (числа испытаний, в которых появилось событие А) к n* (общему числу проведенных испытаний), то есть Р (А) = m n . (1.1) Из данного определения следует, что относительная частота случайного события всегда заключена между нулем и единицей: 0 Р(А) 1. Статистической вероятностью Р(А) события А называется предел, к которому стремится относительная частота Р(А) при неограниченном увеличении числа испытаний, то есть Р(А) = lim n P(A) = * lim * x m n . (1.1) При больших n статистическое определение позволяет в приблизительных расчетах относительную частоту Р(А) использовать в качестве приближенного значения вероятности случайного события А. Недостатком этого определения вероятности является необходимость проведения большого числа опытов в одинаковых условиях.
1.1.2. Случайная величина и законы ее распределения Случайной величиной Х называется величина, которая в результате опыта может принять то или иное значение хi. Принятие некоторого значения случайной величины Х есть случайное событие: Х = хi. Функцией распределения случайной величины Х называется функция F(х), значение которой в точке х равно вероятности того, что случайная величина Х будет меньше этого значения х, то есть F(х) = Р(Х х). (1.2) Среди случайных величин выделяют прерывные (дискретные) и непрерывные случайные величины. Дискретной называют случайную величину, которая может принимать отдельные, изолированные значения с определёнными вероятностями Дискретная случайная величина Х может быть задана рядом распределения или функцией распределения (интегральным законом распределения). Рядом распределения называется совокупность всех возможных значений хi и соответствующих им вероятностей рi = Р(Х = хi), он может быть задан в виде таблицы. Таблица 1.1 Ряд распределения дискретной случайной величины Х хi х1 х2 … хk рi р1 р2 … рk При этом вероятности рi удовлетворяют условию 1 1 k i i p , где число возможных значений k может быть конечным или бесконечным. Графическое изображение ряда распределения называется многоугольником распределения. Для его построения возможные значения случайной величины (хi) откладываются по оси абсцисс, а вероятности рi – по оси ординат; точки Аi c координатами (хi, рi) соединяются ломаными линиями. Функция F(х) для дискретной случайной величины вычисляется по формуле F(х) = i i x x p , (1.2) где суммирование ведется по всем i, для которых хi х.
Непрерывной называют случайную величину, возможные значения которой непрерывно заполняют некоторые промежутки. Непрерывная случайная величина характеризуется прежде всего заданием неотрицательной функции f(х), называемой плотностью вероятности и определяемой соотношением f(х) = 0 lim x P( x Х x x ) x (1.3) При любых х плотность вероятности f(х) удовлетворят равенству F(х) = ( ) x f x dx , (1.2) связывающему её с функцией распределения F(х). Непрерывная случайная величина задается, таким образом, либо функцией распределения F(х) (интегральным законом), либо плотностью вероятности f(х) (дифференциальным законом). Функция распределения F(х) имеет следующие свойства: 1) Р(а Х в) = F(в) – F(а); 2) F(х1) F(х2), если х1 х2; 3) lim ( ) x F x = 1; (1.4) 4) lim ( ) x F x = 0. Функция плотности распределения вероятности f(х) обладает следующими основными свойствами: 1) f(х) 0; 2) f(х) = ( ) dF x dx = F(х); 3) ( ) x f t dt = F(х); (1.5) 4) f ( x )dx = 1; 5) Р(а Х в) = b a f ( x )dx . Геометрически вероятность попадания величины Х на участок (а,b) равна площади криволинейной трапеции, соответствующей определен ному интегралу b a f ( x )dx (см. пример на рис. 1.1).
Рис. 1.1. Графики плотности f(x) и функции F(x) нормального стандартизированного распределения. Площадь затемненной области равна 0,977 = р = F(2) = 2 ( ) f t dt 1.1.3. Основные характеристики случайной величины Свойства случайной величины могут характеризоваться различными параметрами. Важнейшие из них – математическое ожидание случайной величины, которое обозначается через М[Х], и дисперсия D[Х] = 2[Х], корень квадратный из которой [Х] называют среднеквадратическим отклонением или стандартом. Математическим ожиданием М[Х] (средним по распределению) дискретной (прерывной) случайной величины Х называют сумму произведений всех возможных значений случайной величины на соответствующие им вероятности: М[Х] = х1р1 + х2р2 + … + хk рk = 1 k i i i x p , (1.6) Учитывая предыдущие записи и 1 k i i p = 1, иногда пишут