Эталон сходства: использование при сравнении состава и структуры сообществ
Покупка
Новинка
Издательство:
КМК
Год издания: 2013
Кол-во страниц: 89
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-87317-828-5
Артикул: 477346.02.99
Предложен новый подход к решению проблемы адекватной оценки результатов при сравнении сообществ по составу и структуре с помощью традиционных индексов, для которых, как известно, отсутствуют статистические критерии. В качестве объекта рассмотрены сообщества почвенных коллембол, а также фитопланктона и макробентоса. Для примера выбраны широко используемые индексы: Жаккара (сравнение видового состава) и Шорыгина (сумма минимальных относительных обилий видов). Значения индексов сходства рассмотрены в связи с внутренней неоднородностью сообществ. В основе метода — переход от сравнения сообществ на уровне объединенных выборок (с одним значением индекса на выходе) к сравнению сообществ по данным отдельных проб (много значений индекса). Эмпирические распределения этих индексов для проб, взятых как из экологически различных, так и сходных сообществ, позволяют определить уровни значимости для принятия решения о сходстве их видового состава и структуры. Новый подход дает возможность обойтись без кластер-анализа и построения дендрограмм, порождающих разнообразие вариантов интерпретации данных. Для упрощения работы практикующего эколога разработан ускоренный метод создания эталона сходства, основанный на применении индекса фи-квадрат. Показано, как подобрать эталонную совокупность для использования этого индекса и сравнения сообществ как различных экосистем, так и анализа сезонных и межгодовых изменений сообществ в пределах одного биотопа.
Пособие предназначено для специалистов, работающих в области экологии сообществ.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 05.03.06: Экология и природопользование
- 06.03.01: Биология
- 06.03.02: Почвоведение
- ВО - Магистратура
- 05.04.06: Экология и природопользование
- 06.04.01: Биология
- 06.04.02: Почвоведение
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
В.Н. МАКСИМОВ, Н.А. КУЗНЕЦОВА ЭТАЛОН СХОДСТВА: ИСПОЛЬЗОВАНИЕ ПРИ СРАВНЕНИИ СОСТАВА И СТРУКТУРЫ СООБЩЕСТВ Товарищество научных изданий КМК Москва ❖ 2013
УДК 311.2:574 ББК 60.603+28.080.3 М17 [Максимов В.Н.|, Кузнецова Н.А. Эталон сходства: использование при сравнении состава и структуры сообществ. М.: Товарищество научных изданий КМК. 2013. 89 с. Предложен новый подход к решению проблемы адекватной оценки результатов при сравнении сообществ по составу и структуре с помощью традиционных индексов, для которых, как известно, отсутствуют статистические критерии. В качестве объекта рассмотрены сообщества почвенных коллембол, а также фитопланктона и макробентоса. Для примера выбраны широко используемые индексы: Жаккара (сравнение видового состава) и Шорыгина (сумма минимальных относительных обилий видов). Значения индексов сходства рассмотрены в связи с внутренней неоднородностью сообществ. В основе метода — переход от сравнения сообществ на уровне объединенных выборок (с одним значением индекса на выходе) к сравнению сообществ по данным отдельных проб (много значений индекса). Эмпирические распределения этих индексов для проб, взятых как из экологически различных, так и сходных сообществ, позволяют определить уровни значимости для принятия решения о сходстве их видового состава и структуры. Новый подход дает возможность обойтись без кластер-ана-лиза и построения дендрограмм, порождающих разнообразие вариантов интерпретации данных. Для упрощения работы практикующего эколога разработан ускоренный метод создания эталона сходства, основанный на применении индекса фи-квадрат. Показано, как подобрать эталонную совокупность для использования этого индекса и сравнения сообществ как различных экосистем, так и анализа сезонных и межгодовых изменений сообществ в пределах одного биотопа. Пособие предназначено для специалистов, работающих в области экологии сообществ. Работа была выполнена при финансовой поддержке РФФИ, проект № 09-04-00328 © Максимов В.Н., Кузнецова Н.А., 2013 © ИПЭЭ им. А.Н. Северцова РАН, 2013 © Товарищество научных изданий КМК, ISBN 978-5-87317-828-5 издание, 2013
Введение Сравнение видового состава в пробах, собранных в различных биотопах, в различные сезоны при разнообразных внешних (в первую очередь, конечно, антропогенных) воздействиях, относится к числу наиболее часто применяемых подходов к изучению сообществ. Не удивительно, что литература, посвященная методам, применяемым при таком сравнении, практически необозрима. Понятно также, что и современное математическое обеспечение подобной деятельности разработано весьма основательно. Практически в любом современном пакете прикладных вычислительных программ, предназначенном для широкого круга пользователей («юзеров»), не слишком искушённых в математике вообще и в статистике в частности, обязательно присутствует раздел или модуль под общим названием «Методы классификации», «Кластер-анализ» и т.п. «Дружественный интерфейс» в этих пакетах не только подсказывает «юзеру», в какой форме подавать исходный материал, но и указывает, по каким виртуальным кнопкам щелкать мышкой, а также задает большинство начальных условий «по умолчанию». Поэтому, между прочим, в публикациях последних лет при использовании, например, иерархических схем кластер-анализа дендрограммы строят часто методом одиночного присоединения («ближнего соседа»), а в качестве метрики берут евклидово расстояние, так как именно это предлагает по умолчанию соответствующая программа (в частности, в очень популярном пакете STATISTICA). Между тем, выбор того или иного способа кластеризации и подходящей к случаю меры сходства (или метрики, что очень часто одно и то же) является проблемой, не имеющей единственного решения, поскольку этот выбор в значительной мере определяется задачей исследования и особенностями исходного материала. Посвященная этому вопросу литература чрезвычайно обширна и мы ограничимся лишь указанием на подробный анализ проблемы в отнюдь не устаревшей книге Ю.А. Песенко (1982) и на конструктивное обсуждение тех же вопросов в недавней книге В.К. Шитикова, Г.С. Розенберга и Т.Д. Зинченко (2005). Внимательное ознакомление с многочисленными статьями, в которых авторы предлагают свои (обязательно!) собственные индексы сходства или меры расстояния (метрики), убеждает в том, что все разли 3
чия этих индексов отражают в первую очередь разнообразие представлений их авторов о том, каково содержание понятия «сходство». Характерно, что, по крайней мере, в известных нам работах такого рода (мы не претендуем на исчерпывающее знакомство со всеми публикациями — это в настоящее время совершенно немыслимо) авторы не дают определения этого понятия, а начинают сразу либо с предложения некоей математической конструкции, либо с формулировки некоторого «джентльменского набора» аксиом, которым почему-то должна удовлетворять математически благонадежная мера сходства. Конечно, чисто теоретически некий набор аксиом вполне можно рассматривать, как эквивалент определения, подобно тому, как аксиоматика Колмогорова для многих математиков является как раз таким (на все времена!) определением понятия «вероятность». Но рискнем утверждать, что большинство экспериментаторов, во-первых, не подозревают о существовании этой аксиоматики, а во-вторых, в своей практической деятельности они ориентируются чаще всего на общепринятое мнение, что 5%-ный уровень значимости вполне приемлем для суждения о достоверности различий, обнаруженных в ходе исследований. Точно так же, не будучи профессиональными математиками, мы не в состоянии оценить преимущества одной из мер сходства перед другой на том основании, к примеру, что одна из них является метрикой, а другая — нет. Совсем не очевидно, между прочим, что некоторая математическая формула, которую ее авторы интерпретируют, как расстояние (по-научному — метрику) в пространстве признаков, исчерпывающим образом отражает содержание понятия сходства. Точно так же весьма любопытно, что такая сверхпопулярная мера сходства, как индекс Жаккара, предложенная без всякого математического обоснования более 100 лет назад, как выяснилось впоследствии, представляет собой пересечение множеств. Но это вовсе не убеждает в том, что ее и только ее надо использовать. Отметим и еще одно любопытное обстоятельство: традиционный алгоритм иерархического кластер-анализа предусматривает анализ матрицы расстояний, которая в англоязычной литературе обычно именуется матрицей несходства — “dissimilarity matrix”. В уже упомянутом пакете STATISTICA даже оговаривается, что соответствующий программный модуль не предназначен для анализа матриц сходства — “similarity matrix” и предлагается анализировать их с помощью модуля «Многомерное шкалирование». Впрочем в других программах (в частности в не менее популярных пакетах SPSS и SYSTAT) меры сходства, если они принимают значения от 0 до 1, без особых сомнений превращают в меры различия простым преобразованием: dissimilarity = 1 - similarity. 4
При этом, правда, получается конфуз с таким общеизвестным показателем, как пирсоновский коэффициент корреляции. Слово «корреляция», опять-таки на интуитивном уровне, воспринимается почти как синоним слова «сходство», максимум которого соответствует коэффициенту корреляции г = 1, и для измерения несходства кажется на первый взгляд вполне естественным использовать величину 1-г. Но тогда получается, что при полном отсутствии корреляции между двумя совокупностями чисел (векторами), т.е. при г = 0, различие (несходство) этих совокупностей (так как «расстояние» d=1-r=1) вовсе не максимально, а составляет всего 50% от максимального, равного 1- (-1) = 2. И тут для некоторых исследователей, не отягощенных избытком математических знаний, их интуитивные представления о сходстве и корреляции вступают в такое острое противоречие, что вместо преобразования 1-г они предлагают использовать 1 - г², не задумываясь над тем, что при этом сходство двух противоположно направленных векторов оказывается больше, чем сходство векторов ортогональных . И, наконец, поскольку разные индексы отличаются способами расчета, это значит, что для любой пары проб конкретная величина сходства их видового состава будет различна даже на шкале, нормированной, скажем, от 0 до 1. Пусть, например мы определили по вышеупомянутому индексу Жаккара (JCR), что видовой состав растительности на двух пробных площадках сходен на 45%. До сих пор в литературе можно встретить утверждение, что для надежного вывода о сходстве растительности двух изучаемых фитоценозов нужно, чтобы оно было больше 50%. Согласимся с этим и заключим, что сходство наших проб недостаточно велико для подобного вывода. Вспомним, однако, что в настоящее время не меньшей популярностью пользуется индекс Серенсена (SRN), известный также, как индекс Дайса (Dice), или как индекс Брея-Кёртиса. Любители мер несходства предпочитают (по аналогии с коэффициентом корреляции) индекс Ланса-Вильямса, равный 1 - SRN. Некоторые даже считают почему-то, что индекс Серенсена более «правильный», так как при его вычислении рассчитывается доля общих видов от среднего числа видов, а не от общего числа видов в пробах, как по Жаккару. Но поскольку между этими индексами существует простая связь: SRN = 2JCR/(1+JCR), то нетрудно убедиться, что любая пара проб с 45%-ным сходством по Жаккару (т.е. меньше, чем 50%) всегда будет иметь 62% сходства по Серенсену (т.е. больше 50%). Ну и какое решение прикажете принимать — по Жаккару или по Серенсену, Дайсу, Брею и Кертису, а также по Лансу и Вильямсу? 5
Многообразие описанных в литературе методов измерения сходства или различия экологических описаний (списков видов в пробах) связано, по-видимому, с тем, что само понятие сходства (так же как и различия), кажущееся совершенно ясным на интуитивном уровне, не поддается однозначному определению при попытке предложить для него математически обоснованную (скорее, осмысленную!) меру. Возникает вопрос: стоит ли вообще обсуждать преимущество одной меры перед другой, ориентируясь на способ ее вычисления, если мы не очень ясно представляем себе, что именно мы измеряем? В руководствах по многомерному анализу в экологии обычно после описания индексов сходства, основанных на бинарных данных, т.е. учитывающих только наличие или отсутствие вида в пробе, отмечается, что более полное представление о сходстве (или различии) проб дают индексы, при расчете которых принимают во внимание обилие каждого вида. В действительности разница этих индексов заключается в том, что первые оценивают сходство проб по видовому составу, а вторые — по видовой структуре. Поэтому, кстати, возможна ситуация, когда при полном совпадении видового состава (т.е. когда в двух пробах обнаружены одни и те же виды) сходство, измеренное индексом второго типа, будет невелико из-за различий в распределении видов по обилию. Нетрудно придумать и другие варианты сходства - по составу и относительному обилию жизненных форм, по соотношению размерных групп, по вкладу видов в энергетический обмен сообщества и т.д. С практической точки зрения более важен, однако, вопрос, возникающий при сравнении списков видов в двух пробах: можно ли считать обнаруженные различия в этих списках указанием на то, что данные пробы взяты из разных сообществ, в разные сезоны, в биотопах с разным уровнем загрязнения и т.п., или эти различия связаны только с погрешностями при отборе проб и с ошибками при оценке обилия (подсчёте численности) каждого из видов. При анализе экспериментальных данных эту проблему обычно формулируют в терминах математической статистики и задают вопрос: с каким уровнем значимости можно отбросить 0-гипотезу об отсутствии различий между пробами на основе имеющихся выборочных значений их характеристик. Подобная задача в литературе о методах классификации обсуждается чрезвычайно редко. Скорее всего, это объясняется тем, что большинство этих методов по сути своей не являются статистическими, т.е. ни в теоретических разработках, ни в программной реализации соответствующих алгоритмов 0-гипотезы не формулируются, а признаки классифицируемых объектов, даже если они измерены в шкале 6
отношений или абсолютной шкале, рассматриваются, как детерминированные величины. Закон их распределения, как случайных величин, не обсуждается и во внимание не принимается. В самом общем виде для оценки достоверности различия двух многомерных объектов рекомендуется использовать расстояние Махала-нобиса, значимость отличия которого от 0 проверяется по критерию Хотеллинга. Связанные с этим довольно громоздкие вычисления в настоящее время не представляют, конечно, особых затруднений для «продвинутых юзеров» (см., например, Шитиков и др., 2005, с. 142— 145). К сожалению, как всякая параметрическая статистика, данный критерий должен быть чувствителен к отклонению исходных данных от гауссовского распределения, а каждому экологу должно быть известно, что численности видов в пробах, как правило, распределены как угодно, только не по Гауссу. Кроме того, как раз большинство экологов (особенно практикующих полевых исследователей) к числу «продвинутых пользователей» не относятся, а в известных нам пакетах прикладных программ мы не встречали примеры использования статистики Хотеллинга при решении задач классификации, в частности в программах кластер-анализа и многомерного шкалирования.
ЧАСТЬ 1 1.1. Эталон сходства. Основные представления В данной работе мы предлагаем способ решения данной проблемы, который можно назвать экспериментально-математическим, поскольку при его разработке мы не использовали строгие математические доказательства, а опирались на многолетний опыт сбора и анализа экологических данных. А именно: предлагается ввести понятие эталона сходства, при сравнении с которым для любой меры сходства или меры различия можно установить пределы, выход за которые следует считать указанием на отсутствие сходства или, соответственно, отсутствие различия. И если, скажем, таким пределом для индекса Жаккара окажется 0,45, то все пробы, у которых сходство по Жаккару меньше 45%, мы будем вправе считать принадлежащими сообществам, разным по видовому составу. Но при этом, выбрав вместо индекса Жаккара индекс Серенсена (по каким-то очень важным теоретическим соображениям!), мы заранее будем знать, что тот же вывод — об отличии видового состава—будет сделан, если индекс Серенсена окажется меньше 65%. Конечно, из-за отсутствия четкого определения того, что такое сходство, вряд ли можно предложить эталон этого самого сходства, пригодный на все случаи жизни. Правда, в повседневном обиходе мы такой эталон, не задумываясь, применяем постоянно, говоря: «...похожи, как две капли воды», а для противоположного понятия такой же эталон предложил уже довольно давно А.С. Пушкин: «. стихи и проза, лёд и пламень не так различны меж собой.». Вряд ли, однако, эти эталоны могут послужить основой для метрологической поверки мер сходства и метрик, подобной поверке приборов для измерения физических величин. Зато для такой конкретной задачи, как сравнение видового состава сообществ, эталон сходства был предложен лет 25 тому назад, и мы позволим себе привести цитату из публикации, которая, к нашему сожалению, осталась не замеченной широкой научной общественностью: «.предположим, что у нас имеются две пробы, взятые в одно и то же время на одной и той же точке (станции). Теоретически следует ожидать, что видовой состав обеих проб должен быть полностью идентичен, а поэтому и значение индекса сходства, рассчитан 8
ное для этих проб, должно быть в точности равно тому предельному значению данного индекса, которое он принимает при полном сходстве сравниваемых описаний. Однако очевидно, что вследствие случайных погрешностей при отборе проб, их обработке и при подсчете количества организмов и числа видов в пробе мы не получим абсолютного совпадения двух списков видов и их численностей для двух параллельных проб. Но тогда и рассчитанное эмпирическое значение индекса сходства не совпадёт с теоретически ожидаемым предельным значением... отклонение его значения от теоретически ожидаемого, связанное со случайными ошибками в определении видового состава, можно рассматривать, как своего рода статистическую погрешность. Легко видеть, что любая совокупность параллельных проб может служить эталоном сходства, поскольку каждая из этих проб должна быть похожа на другую, «как две капли воды» (Максимов, 1984). К сказанному уместно добавить некоторые рассуждения о содержании понятия «погрешность» в приложении к оценке числа видов и их обилия. Обычно в литературе, посвященной статистическим методам анализа экспериментальных данных, термины «ошибка», «погрешность» употребляются неизменно в сочетании со словом «измерение». Но измерение физической величины заключается в сравнении этой величины с некоторой величиной того же рода, принятой за единицу, а ошибкой измерения называют разницу между результатом измерения и истинным значением измеряемой величины. Это истинное значение неизвестно (иначе незачем было производить измерение), но любой экспериментатор твердо верит в то, что оно существует. Речь идет, конечно, о статике: динамические величины, т.е. скорости в полном соответствии с апорием Зенона не измеряют, а вычисляют, и у них нет «истинного значения», а есть либо «средняя скорость», либо «мгновенная скорость» (исключение составляет прямолинейное равномерное движение, которого в природе не бывает). К сожалению, в отличие от физических величин, ни число особей в пробе, ни, тем более, число видов — никакого «истинного» значения не имеет. Да и сам процесс определения этих чисел — подсчет числа особей — нельзя назвать измерением в строгом смысле, поскольку в физической системе мер отсутствует такая единица измерения, как «штука» и более наукообразные термины «экземпляр» или «особь». Не случайно для такой величины, как плотность популяции, принимают размерность L ² или L ². Положение усугубляется еще и тем, что процесс отбора пробы практически всегда производит нарушения в изучаемом объекте. Из-за этого, невозможно, скажем, взять повторную пробу почвы для определения количества населяющих ее беспоз 9