Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Многомерный статистический анализ эколого-геохимических измерений. Ч.1. Математические основы

Покупка
Основная коллекция
Артикул: 643308.01.99
Доступ онлайн
300 ₽
В корзину
Пособие содержит теоретический материал по математическим основам курса «Многомерный статистический анализ эколого-геохимических измерений»: краткие теоретические сведения по теории вероятностей и многомерным статистическим методам; учет особенностей статистического анализа в случае малых выборок; наглядные графические иллюстрации, выполненные в системе STATISTICA 6.1; список рекомендуемой литературы. Предназначено для студентов и аспирантов, обучающихся по специальности 320300 (013600) «Геоэкология», и может быть полезным при проведении многомерного статистического анализа эколого-геохимической информации.
Михальчук, А. А. Многомерный статистический анализ эколого-геохимических измерений. Ч.1. Математические основы : учебное пособие / А. А. Михальчук, Е. Г. Язиков. - Томск : Изд-во Томского политех. университета, 2014. - 102 с. - Текст : электронный. - URL: https://znanium.com/catalog/product/698044 (дата обращения: 28.11.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
 

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ 
Федеральное государственное автономное образовательное учреждение высшего образования 
«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ 
ТОМСКИЙ ПОЛИТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ» 

 

 
 
 
 
 
 
А.А. Михальчук, Е.Г. Язиков 
 
 
 
 
 
МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ  
ЭКОЛОГО-ГЕОХИМИЧЕСКОЙ ИНФОРМАЦИИ 

 
ЧАСТЬ I. МАТЕМАТИЧЕСКИЕ ОСНОВЫ 
 
Рекомендовано в качестве учебного пособия  
Редакционно-издательским советом 
Томского политехнического университета 
 
 
 
 
 
 
 
 
 
 
 
Издательство 
Томского политехнического университета 
2014 

УДК 550.4:504:519.22(075.8) 
ББК  26.30:20.1:22.172я73 
М69 
 
 
Михальчук А.А. 
М69  
Многомерный статистический анализ эколого-геохимических 
измерений: учебное пособие. Часть I. Математические основы / 
А.А. Михальчук, Е.Г. Язиков; Томский политехнический университет. – Томск: Изд-во Томского политехнического университета, 
2014. – 102 с. 
 
Пособие содержит теоретический материал по математическим основам 
курса «Многомерный статистический анализ эколого-геохимических измерений»: краткие теоретические сведения по теории вероятностей и многомерным 
статистическим методам; учет особенностей статистического анализа в случае 
малых выборок; наглядные графические иллюстрации, выполненные в системе 
STATISTICA 6.1; список рекомендуемой литературы. 
Предназначено для студентов и аспирантов, обучающихся по специальности 320300 (013600) «Геоэкология», и может быть полезным при проведении 
многомерного статистического анализа эколого-геохимической информации.  
 
УДК 550.4:504:519.22(075.8) 
ББК 26.30:20.1:22.172я73 
 
 
 
Рецензенты 

Доктор физико-математических наук, профессор  
заведующий кафедрой ТФ ТГУ  
А.В. Шаповалов 

Кандидат геолого-минералогических наук  
заместитель начальника экспедиции ГТИиГК  
ООО «ВостокГАЗПРОМгеофизика» 
О.А. Миков 

 
 
 
© ФГАОУ ВО НИ ТПУ, 2014 
© Михальчук А.А., Язиков Е.Г., 2014 
© Оформление. Издательство Томского 
политехнического университета, 2014 

ОГЛАВЛЕНИЕ 

ВВЕДЕНИЕ  ...................................................................................................  4 

ЧАСТЬ I. МАТЕМАТИЧЕСКИЕ ОСНОВЫ  ..............................................  6 
1.1. Введение в теорию вероятностей  .....................................................  6 
1.1.1. Понятие вероятности случайного события  ..............................  6 
1.1.2. Случайная величина и законы ее распределения  ....................  8 
1.1.3. Основные характеристики случайной величины  ..................  10 
1.1.4. Примеры законов распределения  
случайной величины  ................................................................  15 
1.1.6. Система случайных величин  ...................................................  25 
1.2. Элементы математической статистики  ..........................................  29 
1.2.1. Выборочный метод  ...................................................................  29 
1.2.2. Проверка статистических гипотез  ..........................................  35 
1.2.3. Дисперсионный анализ  ............................................................  43 
1.2.4. Корреляционно-регрессионный анализ  ..................................  58 
1.2.5. Метод канонических корреляций  ...........................................  62 
1.2.6. Метод главных компонент  .......................................................  68 
1.2.7. Факторный анализ  ....................................................................  72 
1.2.8. Кластерный анализ  ...................................................................  77 
1.2.9. Особенности применения статистического анализа 
экологогеохимической информации 
в случае малых выборок  ..........................................................  86 

ЗАКЛЮЧЕНИЕ  ...........................................................................................  98 

СПИСОК ЛИТЕРАТУРЫ  ..........................................................................  99 
 

ВВЕДЕНИЕ 

Современные эколого-геохимические исследования урбанизированных территорий свидетельствуют о тяжелой экологической ситуации в 
крупных промышленных центрах. Мониторинг окружающей среды 
предполагает комплексную систему наблюдений за компонентами природной среды для оценки и прогноза изменений их состояния под воздействием природных и антропогенных факторов. Анализ проведённых 
эколого-геохимических исследований подобных наблюдений урбанизированных территорий в России и других стран показывает, что они характеризуются комплексом химических компонентов (тяжелые металлы, 
радиоактивные, редкоземельные и редкие элементы, макроэлементы). 
Таким образом, база данных эколого-геохимических измерений является 
многомерной, что предполагает использование многомерных статистических методов при проведении анализа эколого-геохимической информации [5, 10, 14, 18–20, 24, 27, 30, 33, 35–37, 41, 42, 44]. 
Резкое увеличение количественной информации, получаемой 
в процессе эколого-геохимических исследований, вызвало необходимость использования современных способов ее обработки и анализа 
с помощью ЭВМ. В последнее время наблюдается широкое привлечение математических методов исследования во всех отраслях геологических наук (геохимии в частности). Для успешного развития экологогеохимических исследований необходимо также использовать полный 
арсенал существующих прогрессивных научных и технических средств, 
включая методы статистического анализа и ЭВМ [6, 7, 9, 39]. 
Современная геохимия уже не может ограничиться изучением 
лишь качественных сторон явлений и процессов, а должна активно 
и всесторонне выявлять их количественные характеристики, обеспечивая тем самым более высокий научный уровень исследования экологии 
окружающей среды. 
Прежде чем приступить к статистическому анализу экологогеохимической информации, следует особое внимание обратить на составление базы данных. Именно грамотная формулировка задачи 
и в соответствии с ней формирование массива данных будет определять 
эффективность применения статистического анализа.  
Подборка проб определяется в первую очередь задачей исследований. Например, при изучении различных почвенных разрезов следует 
объединять пробы по горизонтам. При изучении воздействия предпри
ятия можно объединять в выборки пробы, отобранные на разных расстояниях и направлениях с учётом розы ветров. Кроме того, необходимо 
учитывать способ отбора проб, метод аналитических исследований 
и лаборатории, в которых проводился анализ. 
Количество проб, объединённых в выборку, может быть различным. Однако для получения достоверных статистических результатов 
желательно иметь выборки объёма не менее 30 проб.  
Важным моментом в настоящее время является использование эколого-геохимической информации в виде выборки небольшого объёма. 
Основным фактором в данном случае являются дорогостоящие методы 
анализа. В данном пособии рассматривается возможность применения 
методов статистической обработки при небольшом объеме выборок для 
сопоставления результатов исследований [21–23].  
Начиная с 1990-х годов изучение загрязнения окружающей среды, 
в том числе почв и снегового покрова, проводится на кафедре геоэкологии и геохимии Томского политехнического университета [34, 45]. 
Учебное пособие состоит из трех частей. В первой части рассматривается теоретический материал математических основ курса «Многомерный статистический анализ эколого-геохимических измерений», содержащий краткие теоретические сведения по теории вероятностей 
и многомерным статистическим методам. Вторая часть включает компьютерный практикум по многомерным статистическим методам. В третьей 
части подробно рассматриваются примеры сравнительного статистического анализа эколого-геохимической информации на реальных материалах. 
Авторы преследовали цель не только создать учебно-методическое 
пособие, но и на конкретных примерах показать возможность применения 
современного компьютерного инструментария (системы STATISTICA 6.1) 
для овладения необходимыми практическими навыками при проведении сравнительного статистического анализа эколого-геохимической 
информации. С учетом ограниченного объема пособия для более глубокого изучения курса «Многомерный статистический анализ экологогеохимических измерений» предполагается изучение литературы, приведённой в конце пособия. 
Авторы будут признательны читателям за отзывы, критические замечания и полезные советы, которые помогут устранить имеющиеся 
в пособии недостатки и улучшить в будущем его содержание.  
 

ЧАСТЬ I. МАТЕМАТИЧЕСКИЕ ОСНОВЫ 

1.1. Введение в теорию вероятностей 

Теория вероятностей [8, 16]– математическая наука, позволяющая, 
в частности, по вероятностям одних случайных событий находить вероятности связанных с ними других случайных событий. 
В этом определении есть целый ряд понятий: случайное событие, вероятность случайного события, связь между случайными событиями. Все 
эти понятия нуждаются в определении и разъяснении. В усвоении этого 
круга вопросов и состоит первое знакомство с теорией вероятностей. 
Теория вероятностей изучает свойства массовых случайных событий, способных многократно повторяться при воспроизведении определенного комплекса условий. Основное свойство любого случайного события, независимо от его природы, – вероятность его осуществления. 
П р е д м е т о м  т е о р и и  в е р о я т н о с т е й  является изучение 
вероятностных закономерностей массовых однородных случайных событий, что предопределяет необходимость овладения методами теории 
вероятностей и математической статистики как инструментом статистического анализа и прогнозирования явлений и процессов. 

1.1.1. Понятие вероятности случайного события 

Осуществление каждого отдельного наблюдения, опыта или измерения при проведении эксперимента называют испытанием. Результат 
испытания назовем событием. Различают события: достоверные, невозможные и случайные. 
Достоверное событие – это такое событие, которое всегда происходит в рассматриваемом эксперименте. 
Невозможное событие – это такое событие, которое никогда не 
происходит в рассматриваемом эксперименте. 
Случайное событие – результат испытания со случайным исходом, которых при воспроизведении опыта может наступить, а может 
и не наступить. 
События обозначаются латинскими буквами А,В,С,…, невозможное – 
, достоверное – . 
Сравнивать случайные события естественно по степени возможности их наступления. С этой целью вводится числовая характеристика 
этой степени возможности (случайности), называемая вероятностью со
бытия. Для события А вероятность принято обозначать Р(А). Существует несколько подходов, поясняющих понятие вероятности. В каждом из 
этих подходов указываются правила, по которым случайному событию 
ставится в соответствие положительное число, объективно характеризующее степень возможности появления этого события. 
С практической точки зрения представляет интерес статистическое 
определение вероятности.  
Многочисленными наблюдениями над самыми разнообразными случайными событиями установлен следующий достоверный факт: если над 
одним и тем же случайным событием в одних и тех же условиях проводить много серий из большого числа испытаний каждая, то наблюдаемая в 
каждой такой серии частота появления события будет колебаться от серии 
к серии в сравнительно узких пределах, будет, как говорят в теории вероятностей, «устойчивой». При этом пределы, в которых колеблется устойчивая частота случайного события, будут тем теснее, чем большее число 
испытаний в каждой серии. Это свидетельствует о наличии статистической закономерности в изучаемом явлении. 
Пусть в одних и тех же условиях проведена серия из n* испытаний, 
в каждом из которых могло появиться или не появиться интересующее 
нас событие А. Пусть событие А появилось при этом в m* испытаниях. 
Относительной частотой Р(А) события А в данной серии испытаний 
называется отношение m* (числа испытаний, в которых появилось событие А) к n* (общему числу проведенных испытаний), то есть 

 
Р (А) = 




m
n
. 
(1.1) 

Из данного определения следует, что относительная частота случайного события всегда заключена между нулем и единицей: 

 
0  Р(А)  1. 

Статистической вероятностью Р(А) события А называется предел, к которому стремится относительная частота Р(А) при неограниченном увеличении числа испытаний, то есть 

 
Р(А) = lim
n P(A) = 
*
lim
*
x
m
n
.  
(1.1) 

При больших n статистическое определение позволяет в приблизительных расчетах относительную частоту Р(А) использовать в качестве 
приближенного значения вероятности случайного события А. Недостатком этого определения вероятности является необходимость проведения 
большого числа опытов в одинаковых условиях. 

1.1.2. Случайная величина и законы ее распределения 

Случайной величиной Х называется величина, которая в результате опыта может принять то или иное значение хi. Принятие некоторого 
значения случайной величины Х есть случайное событие: Х = хi. 
Функцией распределения случайной величины Х называется 
функция F(х), значение которой в точке х равно вероятности того, что 
случайная величина Х будет меньше этого значения х, то есть  

 
F(х) = Р(Х х).  
(1.2) 
Среди случайных величин выделяют прерывные (дискретные) 
и непрерывные случайные величины. 
Дискретной называют случайную величину, которая может принимать отдельные, изолированные значения с определёнными вероятностями  
Дискретная случайная величина Х может быть задана рядом распределения или функцией распределения (интегральным законом распределения).  
Рядом распределения называется совокупность всех возможных 
значений хi и соответствующих им вероятностей рi = Р(Х = хi), он может 
быть задан в виде таблицы. 
 
Таблица 1.1 

Ряд распределения дискретной случайной величины Х 

хi 
х1 
х2 
… 
хk 

рi 
р1 
р2 
… 
рk 

 
При этом вероятности рi удовлетворяют условию  

 

1
1

k

i
i
p





,  

где число возможных значений k может быть конечным или бесконечным.  
Графическое изображение ряда распределения называется многоугольником распределения. Для его построения возможные значения 
случайной величины (хi) откладываются по оси абсцисс, а вероятности 
рi – по оси ординат; точки Аi c координатами (хi, рi) соединяются ломаными линиями. 
Функция F(х) для дискретной случайной величины вычисляется 
по формуле  

 
F(х) = 


i
i
x
x

p ,  
(1.2) 

где суммирование ведется по всем i, для которых хi  х. 

Непрерывной называют случайную величину, возможные значения 
которой непрерывно заполняют некоторые промежутки. 
Непрерывная случайная величина характеризуется прежде всего 
заданием неотрицательной функции f(х), называемой плотностью вероятности и определяемой соотношением 

 
f(х) = 
0
 



 

lim
x
P( x
Х
x
x )
x
 
(1.3) 

При любых х плотность вероятности f(х) удовлетворят равенству 

 
F(х) = 
( )

x

f x dx



 , 
(1.2) 

связывающему её с функцией распределения F(х).  
Непрерывная случайная величина задается, таким образом, либо 
функцией распределения F(х) (интегральным законом), либо плотностью вероятности f(х) (дифференциальным законом). 
Функция распределения F(х) имеет следующие свойства: 
1) 
Р(а  Х  в) = F(в) – F(а);  
2) 
F(х1)  F(х2), если х1  х2;  
3) 

lim
( )
x
F x
 = 1; 
(1.4) 

4) 

lim
( )
x
F x
 = 0.  

Функция плотности распределения вероятности f(х) обладает следующими основными свойствами:  
1) 
f(х)  0;  

2) 
f(х) = 
( )
dF x
dx
 = F(х);  

3) 


( )

x

f t dt  = F(х); 
(1.5) 

4) 



 f ( x )dx  = 1;  

5) 
Р(а  Х  в) = 

b

a

f ( x )dx .  

Геометрически вероятность попадания величины Х на участок (а,b) 
равна площади криволинейной трапеции, соответствующей определен
ному интегралу 

b

a

f ( x )dx (см. пример на рис. 1.1).  

Рис. 1.1. Графики плотности f(x) и функции F(x) нормального  

стандартизированного распределения.  

Площадь затемненной области равна 0,977 = р = F(2) = 

2
( )
f
t dt


 

1.1.3. Основные характеристики случайной величины 

Свойства случайной величины могут характеризоваться различными параметрами. Важнейшие из них – математическое ожидание 
случайной величины, которое обозначается через М[Х], и дисперсия 
D[Х] = 2[Х], корень квадратный из которой [Х] называют среднеквадратическим отклонением или стандартом.  
Математическим ожиданием М[Х] (средним по распределению) 
дискретной (прерывной) случайной величины Х называют сумму произведений всех возможных значений случайной величины на соответствующие им вероятности:  

 
М[Х] = х1р1 + х2р2 + … + хk рk = 
1


k

i
i
i

x p ,  
(1.6) 

Учитывая предыдущие записи и 
1


k

i
i
p  = 1, иногда пишут 

Доступ онлайн
300 ₽
В корзину