Введение в хемометрику
Покупка
Год издания: 2020
Кол-во страниц: 116
Дополнительно
Вид издания:
Учебно-методическая литература
Уровень образования:
ВО - Магистратура
ISBN: 978-5-7882-2843-3
Артикул: 792767.01.99
Издание включает теоретические основы по наиболее важным методам анализа многомерных данных: методу главных компонент и проекции на латентные структуры, а также практические задания для самостоятельного выполнения.
Предназначено для магистров, обучающихся по направлению подготовки 27.04.01 «Стандартизация и метрология», а также для аспирантов специальности «Аналитическая химия» и специалистов, интересующихся современными методами анализа данных.
Подготовлено на кафедре аналитической химии, сертификации и менеджмента качества.
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Министерство науки и высшего образования Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования «Казанский национальный исследовательский технологический университет» Н. Н. Умарова, Н. И. Валеева ВВЕДЕНИЕ В ХЕМОМЕТРИКУ Учебно-методическое пособие Казань Издательство КНИТУ 2020
УДК 543:51(075) ББК Г4:22.1я7 У52 Печатается по решению редакционно-издательского совета Казанского национального исследовательского технологического университета Рецензенты: д-р хим. наук, проф. Г. А. Евтюгин канд. геол.-минерал. наук, доц. Э. А. Королев У22 Умарова Н. Н. Введение в хемометрику : учебно-методическое пособие / Н. Н. Умарова, Н. И. Валеева; Минобрнауки России, Казан. нац. исслед. технол. ун-т. – Казань : Изд-во КНИТУ, 2020. – 116 с. ISBN 978-5-7882-2843-3 Издание включает теоретические основы по наиболее важным методам анализа многомерных данных: методу главных компонент и проекции на латентные структуры, а также практические задания для самостоятельного выполнения. Предназначено для магистров, обучающихся по направлению подготовки 27.04.01 «Стандартизация и метрология», а также для аспирантов специальности «Аналитическая химия» и специалистов, интересующихся современными методами анализа данных. Подготовлено на кафедре аналитической химии, сертификации и менедж мента качества. ISBN 978-5-7882-2843-3 © Умарова Н. Н., Валеева Н. И., 2020 © Казанский национальный исследовательский технологический университет, 2020 УДК 543:51(075) ББК Г4:22.1я7
ВВЕДЕНИЕ «Хемометрика − это химическая дисциплина, применяющая математические, статистические и другие методы, основанные на формальной логике, для построения или отбора оптимальных методов измерения и планов эксперимента, а также для извлечения наиболее важной информации при анализе экспериментальных данных» (Д. Массарт). Хемометрика − синтетическая дисциплина, находящаяся на стыке химии и математики. Бурное ее развитие в начале 70-х годов XX в. связывают с появлением в это же время компьютеров, которые позднее стали повсеместно доступны ученым и инженерам. Это позволило на практике воплотить многие сложные алгоритмы обработки данных, в особенности методы анализа многооткликовых и многофакторных экспериментов. Оказалось, что очень часто традиционные аналитические методы, требующие больших затрат труда и времени, уникального оборудования, дорогих реактивов, могут быть заменены на косвенные методы, которые гораздо быстрее и дешевле. Хемометрический подход с успехом применяется в областях, далеких от аналитической химии: многомерный статистический контроль процессов, анализ изображений и биологические приложения (биометрика, психометрика), в физической химии для исследования кинетики, в органической химии для предсказания активности соединений по их структуре (QSAR), в химии полимеров, в теоретической и квантовой химии. Хемометрика используется в самых разнообразных областях − от пивоварения до астрономии. Она применяется для решения судебных споров о защите окружающей среды и для контроля качества производства полупроводников. Единственный широкоизвестный в России учебник по хемомет рике авторов Шараф, Ильмен, Ковальски «Хемометрика» ярко отражал положение дел в хемометрике, сложившееся в середине 80-х годов. Наиболее полным изложением хемометрических методов является двухтомник, написанный группой авторов под руководством Д. Массарта. Для студентов и специалистов в области аналитической химии, начинающих осваивать хемометрику, проще было бы начать с книги Бреретона. К сожалению, на сегодняшний день учебников по хемометрике на русском языке недостаточно. Недавно на русский язык был переведен учебник М. Отто, содержащий краткое описание хемометрики. Маленьким тиражом был издан сокращенный перевод
самого популярного в мире учебника по хемометрике, написанного К. Эсбенсеном. Недавно был издан учебник А. Померанцева «Хемометрика в Excel». Проблемам хемометрики посвящены два специализированных журнала: Journal of Chemometrics, Chemometrics and Intelligent Laboratory Systems. Статьи, где хемометрические методы используются в прикладных задачах, регулярно печатаются более чем в 50 научных журналах, таких как Analytical Chemistry, Analytica Chimica Acta, Analyst, Talanta, Trends in Analytical Chemistry, Journal of Chromatography, Computers and Chemical Engineering, Vibrational Spectroscopy и т. п. В качестве программного обеспечения в хемометрике применяются специализированные пакеты программ (например, Unscrumbler фирмы Camo, SIMCA, ПЛС Toolbox for Mathlab), позволяющие наглядно и быстро обрабатывать данные в интерактивном режиме. Однако широко применяются и статистические пакеты общего назначения: SPSS, STATISTICA, SAS. Трудно переоценить вклад Российского хемометрического об щества (РХО) в популяризацию хемометрики. РХО регулярно организует и проводит симпозиумы по хемометрике в России с участием ведущих специалистов в этой области со всего мира. На сайте этого общества размещены материалы учебных курсов, часть которых вошла в это пособие. В учебном пособии представлен материал, позволяющий полу чить начальные знания в области хемометрики.
1. МАТРИЦЫ МНОГОМЕРНЫХ ДАННЫХ Природа многомерна. Почти все технологические и измеритель ные системы, используемые в науке, характеризуются многомерным набором параметров. Любое частное явление, которое мы хотели бы подробно изучить, обычно зависит от нескольких переменных. Например, погода зависит от таких величин, как ветер, атмосферное давление, температура, точка росы, помимо очевидных сезонных колебаний. Большинство химических измерений по своей природе многомерно. Это означает, что с одного неизвестного образца можно сделать несколько измерений. Очевидным примером является спектроскопия: мы можем записать спектр на сотнях длин волн на одном образце. Многие традиционные химические методы являются одномерными, в них используется только одна длина волны (или измерение) на образец, но при этом пропускается много информации. Так, например, оцифрованный ИК-спектр может содержать дан ные, соответствующие 2000 значениям волновых чисел. В хроматомасспектрометрии не составляет труда за один эксперимент получить массив из 600000 чисел, составляющих 2,4 Мб числовой информации. Конечно, можно проигнорировать такой большой объем информации и, например, при обработке спектров ограничиться одной-единственной длиной волны. Однако в настоящее время, когда компьютеры позволяют хранить огромные числовые массивы, а современные методы хемометрики их обрабатывать, такой путь, приводящий к значительной потере информации, крайне нерационален. Еще одно важное применение − это количественная связь струк тура – свойство − активность, для которой доступны многие физические измерения (длины связей, дипольные моменты, углы связи и т. д.). Можем ли мы статистически предсказать биологическую активность соединения? Может ли это помочь, например, в разработке фармацевтических препаратов? Имеется несколько видов информации. Метод главных компонент является одним из нескольких многомерных методов, который позволяет исследовать закономерности в этих данных. Какие соединения ведут себя аналогично? Как такое поведение можно предсказать на основе имеющейся информации? Основные задачи многомерных методов хемометрики состоят в группировке и классификации химических объектов (образцов, веществ, материалов) и в моделировании взаимосвязей между различными типами аналитических данных.
Хемометрические методы основываются на геометрическом представлении данных. Наблюдаемые объекты располагаются в теоретическом пространстве размерностью, соответствующей числу признаков, которыми они характеризуются. Частные случаи признакового пространства: − с нулевой размерностью – объекты не имеют характеристик; − с единичной размерностью – объекты отражаются значениями какого-либо одного признака; − многомерное пространство – объекты представлены значени ями двух и более признаков (m-мерное пространство). Одномерное признаковое пространство можно представить в виде одной градуированной шкалы. Например, пять образцов воды, имеющие различные значения рН (табл. 1.1), могут быть изображены точками на линии, являющейся осью или шкалой рН. Таблица 1.1 Образцы воды и значения их рН Образцы воды рН 1 2 3 4 5 6,5 7,0 8,0 6,0 7,5 Рис. 1.1. Одномерное признаковое пространство Двумерное признаковое пространство – это когда наблюдаемые объекты геометрически представляются на плоскости в двумерной (декартовой) системе координат, при этом объекты будут характеризоваться двумя признаками, например вода − рН и общей жесткостью (табл. 1.2). Графическое изображение двумерного признакового пространства представлено на рис.1.2.
Таблица 1.2 Данные для двумерного признакового пространства Образцы рН Общая жесткость, моль/л 1 2 3 4 5 6,5 7,0 8,0 6,0 7,5 2,0 4,0 3,0 6,0 14,0 Рис.1.2. Двумерное признаковое пространство Таблица 1.3 Данные для трехмерного признакового пространства Образцы рН Общая жесткость, ммоль/л Общая минерали зация, мг/л 1 2 3 4 5 6,5 7,0 8,0 6,0 7,5 2,0 4,0 3,0 6,0 14,0 10,0 125,0 15,0 250,0 350,0
В трехмерном признаковом пространстве отображаются объек ты, имеющие три признака (параметра), − см. табл. 1.3 , рис. 1.3. Рис. 1.3. Трехмерное признаковое пространство Кроме признакового пространства, возможна организация дан ных в другой форме − в форме пространства объектов (рис. 1.4). Рис. 1.4. Двумерное пространство объектов
В общем случае многомерные аналитические данные можно расположить в виде матрицы Х «объект – признаки» (или «объект – свойства»): 11 12 1 21 22 2 1 1 ... ... ... ... ... ... ... p p n p n n np x x x x x x x x x = X , описывающей n объектов (строки) и р признаков (столбцы). Объектами могут быть образцы, молекулы, материалы и т. д. Типичными примерами признаков, или переменных, описывающих эти объекты, являются содержания элементов, спектральные характеристики, структурные параметры, физические свойства. Заметим, что анализ многомерных данных невозможен без зна ний основ матричной алгебры, основных математических действий над векторами и матрицами. Базовые сведения из линейной алгебры приведены в приложении.
2. МНОЖЕСТВЕННЫЙ КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗ 2.1. Корреляционный анализ Корреляционный анализ является одним из методов статистиче ского анализа взаимозависимости нескольких признаков. Основная задача корреляционного анализа состоит в оценке корреляционной матрицы генеральной совокупности по выборке и определении на основе этой матрицы частных и множественных коэффициентов корреляции и детерминации. Парный и частный коэффициенты корреляции характеризуют тесноту линейной зависимости между двумя переменными соответственно на фоне действия и при исключении влияния всех остальных показателей, входящих в модель. Они изменяются в пределах от −1 до +1, причем, чем ближе коэффициент корреляции к 1, тем сильнее зависимость между переменными. Если коэффициент корреляции больше нуля, то связь положительная, а если меньше нуля − отрицательная. Множественный коэффициент корреляции характеризует тесно ту линейной связи между одной переменной (результативной) и остальными, входящими в модель; он изменяется в пределах от 0 до 1. Квадрат множественного коэффициента корреляции называется множественным коэффициентом детерминации. Он характеризует долю дисперсии одной переменной (результативной), обусловленной влиянием всех остальных переменных (аргументов), входящих в модель. Исходной для анализа является матрица Х размерности п х k, i-я строка которой характеризует i-е наблюдение (объект) по всем k-показателям (j = 1, 2, ..., k): 𝐗 = ( 𝑥11. … 𝑥1𝑗 … 𝑥1𝑘 … … … … … … . . 𝑥𝑖1 … 𝑥𝑖𝑗 … 𝑥𝑖𝑘 … … … … … … . . 𝑥𝑛1 … 𝑥𝑛𝑗 … 𝑥𝑛𝑘) . В корреляционном анализе матрицу Х рассматривают как вы борку объема п из k-мерной генеральной совокупности, подчиняющейся k-мерному нормальному закону распределения.