Генофонд Европы
Покупка
Издательство:
КМК
Автор:
Балановский Олег Павлович
Год издания: 2015
Кол-во страниц: 354
Дополнительно
Вид издания:
Монография
Уровень образования:
Профессиональное образование
ISBN: 978-5-9907157-0-7
Артикул: 817544.01.99
Монография посвящена генофонду народонаселения Европы - исследованию его пространственной изменчивости и его истории. Исследования генофондов бурно развиваются благодаря использованию митохондриальной ДНК. Y-хромосомы и полногеномных панелей маркеров. Но обобщающие работы по мтДНК н Y-хромосоме в Европе устарели, поскольку опубликованы более десятилетия назад до выхода основной массы частных научных публикаций. Поэтому в книге проанализированы как собственные данные автора, так и литературные: созданные базы данных включили более 130 тысяч образцов по мтДНК и более 140 тысяч - по Y-хромосоме. Параллельное изучение генофонда Европы по маркерам Y-хромосомы, мтДНК и полногеномным панелям обеспечило синтез результатов этих трех генетических систем. Такой синтез актуален не только для генетиков, но и для смежных наук - антропологии, археологии, лингвистики, истории, все активнее включающих данные генетики в комплексные исследования этногенеза. В книге рассмотрены и данные по древней ДНК, позволяющие - эпоха за эпохой - проследить историю генофонда Европы. А совместный анализ количественных лингвистических и генетических данных выявляет непростую связь языков и генофондов. Особую актуальность для российской науки имеют исследования славянских и северокавказских народов, которым посвящены отдельные главы.
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 06.03.01: Биология
- ВО - Магистратура
- 06.04.01: Биология
- Ординатура
- 31.08.30: Генетика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
О.П. Балановский ГЕНОФОНД ЕВРОПЫ Товарищество научных изданий КМК Москва 2015
Балановский О.П. Генофонд Европы. М.: Тов-во научн. изданий КМК. 2015. 354 с. Монография посвящена генофонду народонаселения Европы – исследованию его пространственной изменчивости и его истории. Исследования генофондов бурно развиваются благодаря использованию митохондриальной ДНК, Y-хромосомы и полногеномных панелей маркеров. Но обобщающие работы по мтДНК и Y-хромосоме в Европе устарели, поскольку опубликованы более десятилетия назад до выхода основной массы частных научных публикаций. Поэтому в книге проанализированы как собственные данные автора, так и литературные: созданные базы данных включили более 130 тысяч образцов по мтДНК и более 140 тысяч – по Y-хромосоме. Параллельное изучение генофонда Европы по маркерам Y-хромосомы, мтДНК и полногеномным панелям обеспечило синтез результатов этих трех генетических систем. Такой синтез актуален не только для генетиков, но и для смежных наук – антропологии, археологии, лингвистики, истории, все активнее включающих данные генетики в комплексные исследования этногенеза. В книге рассмотрены и данные по древней ДНК, позволяющие – эпоха за эпохой – проследить историю генофонда Европы. А совместный анализ количественных лингвистических и генетических данных выявляет непростую связь языков и генофондов. Особую актуальность для российской науки имеют исследования славянских и северокавказских народов, которым посвящены отдельные главы. ISBN 978-5-9907157-0-7 © Балановский О.П. текст, 2015. © Т-во научных изданий КМК, 2015.
ПРЕДИСЛОВИЕ Генетическое изучение популяций человека уже сотню лет привлекает многих исследователей, среди которых виднейшие представители отечественной и мировой биологии: А.С. Серебровский, Н.К. Кольцов, В.В. Бунак, Г.Ф. Дебец, Ю.П. Алтухов, Ю.Г. Рычков, L.L. Cavalli-Sforza, W. Bodmer, а также представители смежных дисциплин – археологии, лингвистики, прикладной математики, палеогеографии. За свою долгую историю геногеография использовала самые разные маркеры – от групп крови до фамилий, от отдельных ДНК-маркеров до полных геномов – и обнаружила множество частных закономерностей, причем большинство из них проявлялись вновь и вновь при анализе каждого очередного типа маркеров. Кроме множества частных закономерностей, и в зарубежной, и в российской школах геногеографии был разработан и ряд общих концепций, включая теорию демической диффузии, концепцию обобщенного гена, принцип эквидистантности и ряд других. Предлагаемая книга продолжает традицию систематического геногеографического изучения отдельных регионов мира, и посвящена генофонду народонаселения Европы (для краткости – генофонду Европы). При этом генофонд Европы – и так самый подробно изученный среди всех регионов мира. Для европейской науки он стал полигоном для проверки всех главных генетических концепций и методов. Например, вопрос о палеолитическом или неолитическом времени формирования основных черт европейского генофонда является, пожалуй, наиболее широко обсуждаемым вопросом в популяционной генетике человека. Об этом свидетельствует и число статей на эту тему (в том числе в журналах Nature и Science), и авторитет их авторов [Ammerman, Cavalli-Sforza, 1984; Cavalli-Sforza et al., 1994; Richards et al., 1996; Richards et al., 2000; Semino et al., 2000; Barbujani, Bertorelle, 2001; Chikhi et al., 2002; Haak et al., 2005; Bramanti et al., 2009 и т.д.]. Да и по другим вопросам генетической структуры народов Европы написано столько работ, что их перечисление потребовало бы отдельной монографии. Так стоит ли снова писать о генофонде Европы? Стоит. Дело в том, что среди этого множества работ очень мало обобщающих. Например, работы, обобщающие изменчивость мтДНК и Y-хромосомы в Европе, последний раз проводились более десятилетия назад [Richards et al., 2000; Rosser et al., 2000; Semino et al., 2000; Richards et al., 2002]. Подавляющее большинство последовавших крупных работ ставило задачей изучение отдельных регионов Европы или по мтДНК [Helgason et al., 2001, 2003; Meinila et al., 2001; Malyarchuk et al., 2002, 2003, 2004, 2006, 2008; Бермишева и др., 2002; Orekhov et al., 1999; Pfeiffer et al., 1999; Pereira et al., 2004; Tambets et al., 2004; Goodacre et al., 2005; Falchi et al., 2006; Grzybowski et al., 2007; Lappalainen et al., 2008; Alvarez-Iglesias et al., 2009; Santos et al., 2003; Garcia et al., 2011; Karachanak et al., 2012], или по Yхромосоме [Behar et al., 2003; Харьков и др., 2004, 2005б; Cinnioglu et al., 2004; Di Giacomo et al., 2003; Brion et al., 2005; Flores et al., 2003, 2004; Tambets et al., 2004; Alonso et al., 2005; Goncalves et al., 2005; Kayser et al., 2005; Pericic et al., 2005; Capelli et al., 2006, 2007; Lappalainen et al., 2006, 2008; Adams et al., 2008; Balanovsky et al., 2008, 2011; Battaglia et al., 2009; Fechner et al., 2008; Varzari et al., 2009; King et al., 2011; Yunusbaev et al., 2012; многие другие работы]. Ряд работ был посвящен также отдельным гаплогруппам [Di Giacomo et al., 2004; Cruciani et al., 2007, 2010; Myres et al., 2011; Underhill et al., 2010; Mendez et al., 2011; Onofri et al., 2008; Derenko et al., 2006, 2007, 2010; Rootsi et al., 2007; Tofanelli et al., 2009 и другие работы]. Но обобщающий анализ в масштабе всей Европы после работ 2000–2002 годов не проводился. А за это время не только на порядок возрос объем данных о мтДНК и Y-хромосоме, но и появились данные по полногеномным панелям маркеров, стремительно рванулись вперед исследования древней ДНК, не стояли на месте и исследования смежников – например, лингвистов. Поэтому представляется своевременным данное исследование, в котором сделана попытка собрать воедино, проанализировать, подытожить и по возможности синтезировать наши сегодняшние знания о генофонде народонаселения Европы.
БЛАГОДАРНОСТИ Я глубоко признателен своим учителям Е.В. Балановской и Р. Виллемсу, которые ввели меня в область геногеографии и филогеографии; признателен В.В. Запорожченко, Р.С. Сычеву, А.С. Пшеничному, взявшим на себя труд наполнения баз данных по мтДНК и Y-хромосоме; рад случаю упомянуть своих прекрасных помощниц А.Т. Агджоян, М.И. Чухряеву, Р.А. Схаляхо, М.А. Кузнецову, Х.Д. Дибирову, О.А. Балаганскую, И.Э. Теучеж – результаты и их труда вошли в описанное исследование, а на плечи двух первых легла и часть работы непосредственно по книге; благодарю коллег W. Haak, S. Rootsi, А.В. Дыбо, О.А. Мудрака, С.М. Кошеля, О.М. Утевскую, Э.А. Почешхову, Л.А. Атраментову, М.Б. Лавряшину, Л.И. Тегако, М.И. Чурносова, C. Der Sarkisyan, А.С. Касьяна, Е.И. Кушнеревич, В.И. Хартановича, А.П. Бужилову, Л.М. Епископосяна и многих других, в сотрудничестве с которыми собирались образцы или разрабатывались вопросы их анализа. Мне очень помогло сообщество нашего междисциплинарного сайта генофонд.рф – его бессменный автор Н.В. Маркина и критический ум Л.С. Клейна. И сугубая благодарность – моим родителям П.Н. Ящуку и Е.В. Балановской, оказавшим огромную и разнообразную помощь при подготовке этой книги. Исследование проводилось более 10 лет, и разные его аспекты поддерживались в разное время более чем двадцатью грантами, включая международный The Genographic Project, грант РНФ 14-04-00827, грант РГНФ 06-06–00640, гранты Программ Президиума РАН «Динамика генофондов», «Фундаментальные науки – медицине». Благотворную роль в возникновении и развитии моей лаборатории сыграли директор ИОГен РАН член-корр. Н.К. Янковский и Программа Президиума РАН «Молекулярная и клеточная биология». Благодарю и лабораторию исторической генетики МФТИ, поддержавшую вместе с РНФ полногеномный анализ Y-хромосомы. А наиболее постоянная финансовая поддержка все эти годы приходила от РФФИ: за это время под моим руководством выполнены 4 инициативных (10-0401603, 07-04-00340, 04-04-49664-а, 13-04-01711), 8 экспедиционных и 3 стажерских проекта РФФИ, и конечно же, издательский грант на эту книгу 15-06-07016-д. Без помощи этих фондов и энтузиазма моих коллег эта книга, конечно же, не смогла бы состояться.
ГЛАВА 1. СОЗДАНИЕ БАЗ ДАННЫХ О ГЕНОФОНДАХ МИРА Наше исследование генофонда Европы в контексте мирового генофонда основывается на собственных и литературных данных по изменчивости в населении мира Y-хромосомы, митохондриальной ДНК и полногеномных панелей маркеров, объединенных в специально разработанных базах данных. В данной главе описываются созданные базы данных и дается характеристика собственным результатам (которые включены во все базы данных, но также во многих случаях анализируются и отдельно). Но этим содержание главы не исчерпывается – будет логичным еще до начала изложения результатов рассмотреть и самые необходимые аспекты методических вопросов – особенностей генотипирования Y-хромосомы, мтДНК и древней ДНК, методы статистического и филогеографического анализа, обсудить вопрос о генетических датировках и программное обеспечение для создания картографических атласов генофонда, занимающих важное место во всем исследовании. 1.1. БАЗА ДАННЫХ ПО Y-ХРОМОСОМЕ КРАТКАЯ ХАРАКТЕРИСТИКА Y-BASE ПРЕДНАЗНА ЧЕНИЕ И ИСТОРИЯ СОЗДАНИЯ За последние 15 лет изучение изменчивости Yхромосомы стало одним из основных направлений в русле популяционно-генетических, молекулярноантропологических и филогеографических исследований популяций человека. Поэтому многие научные коллективы остро нуждаются в быстром и свободном доступе ко всему массиву уже накопленной информации. Достижения молекулярной генетики получили широкое признание в смежных науках, изучающих историю человечества – в антропологии, археологии, лингвистике, истории, этнологии, палеоэкологии. Однако отсутствие удобной информационной системы, обеспечивающей простой доступ к генетическим данным, резко ограничивает комплексные исследования населения мира специалистами в разных областях естественных и гуманитарных наук. Поэтому мы поставили перед собой задачу объединить все доступные в литературе данные и обширные собственные архивы, несущие разнообразную информацию о полиморфизме Y-хромосомы в популяциях человека. База данных разрабатывалась под руководством автора в течение ряда лет (2006–2012 гг.) и продолжает совершенствоваться. В 2009–2012 годах создание этой базы данных являлось одним из важных направлений темы НИР «Анализ распространения гаплотипов митохондриальной ДНК и Y-хромосомы у народов мира на основе создания геоинфосистем», выполнявшейся в Медико-генетическом научном центре РАМН под руководством автора. В 2010–2012 годах создание базы данных было поддержано целевым грантом РФФИ, что позволило резко интенсифицировать работу над базой данных. Хотя эта многолетняя работа по созданию базы велась главным образом на чистом энтузиазме ее разработчиков, однако, одно время важна была также финансовая поддержка международного проекта «Genographic», и сейчас работа интенсивно продолжается все так же под руководством автора в Институте общей генетики РАН. Программирование выполнено Андреем Войсковским. В разработке алгоритмов важную роль сыграл Андрей Пшеничнов, основную часть работы по наполнению базы выполняли Роман Сычев и Андрей Пшеничнов, а в части подготовки собственных результатов нашего коллектива к вводу в базу данных – Хадижат Дибирова. Большую помощь в получении полнотекстовых версий статейисточников оказали Mark Haber и Wolfgang Haak. Окончательное редактирование таблиц популяций и их подготовка для картографирования (исключение одних и объединение других выборок в соответствии с разнообразными критериями) выполнены автором. В настоящее время одна из рабочих версий базы данных реализована в рамках онлайновой инфосистемы (отдельные разделы которой представлены на нашем сайте www.genofond.ru), и продолжение работы заключается в онлайн-реализации остальных разделов и наполнении базы данных новой публикуемой информацией. Основные характеристики базы данных, существующей на данный
Глава 1. Создание баз данных о генофондах мира Таблица 1.1. Характеристика двух ведущих баз данных по Y-хромосоме YHRD (основной зарубежный аналог) ПАРАМЕТР Y-base (создана под руководством автора) Объем (образцов) по SNP маркерам 144 464 17 502 Объем (образцов) по STR маркерам 32 054 143 044 Число популяций 2474 нет информации Число источников 238 нет информации Размещение www.genofond.ru www.yhrd.org момент и использованной для изучения генофонда Европы и других регионов мира, представлены в таблице 1.1. Важно отметить, что созданная нами база Ybase в соответствии с целями популяционно-генетических исследований посвящена в первую очередь SNP-маркерам, хотя содержит и STR-гаплотипы. Напротив, основной аналог – международная криминалистическая база данных YHRD – нацелена в первую очередь на STR-маркеры, хотя содержит также и SNP-маркеры. Теоретически, обе базы основываются в основном на литературных данных и поэтому могли бы перекрываться почти полностью. Но на деле основная направленность баз формирует и их объем: Y-base содержит данные по 144 тысячам образцов по SNP-маркерам, а YHRD – по 143 тысячам STR гаплотипов. Такая близость показателей хотя и случайна, но довольно выразительна. При этом показательно и на порядок меньшее в каждой базе число образцов с альтернативными маркерами: 32 тысячи образцов с STR маркерами в нашей базе и 17 тысяч образцов с SNP маркерами в YHRD. Это объясняется тем, что обязательным условием для включения данных в нашу базу было наличие SNP маркеров, а STR мы включали только в том случае, если они опубликованы для тех же образцов. А YHRD поступал наоборот: обязательным условием было только наличие STR маркеров. Поэтому можно считать, что эти две базы взаимно дополняют друг друга и в целом охватывают практически все опубликованные данные по населению мира. Все остальное содержание данного раздела посвящено техническим вопросам создания базы данных – подходам к сбору данных и к программной реализации базы, описанию двух важнейших модулей автоматической обработки данных, а также трех разделов базы, уже размещенных на нашем сайте www.genofond.ru. наиболее информативных и широко изучаемых генетических систем. Поэтому массив накопленных данных огромен и возрастает ежемесячно по мере появления новых публикаций. Задача сбора этих данных и создания электронной библиотеки теоретически проста – она хотя и трудоемка, но облегчается тем, что подавляющее большинство статей публикуются на английском языке и их аннотации, как правило, доступны в базе данных PubMed на сервере ncbi. Однако получение полнотекстовых версий статей, не имеющих бесплатного доступа, требует дополнительных усилий и времени. Тем не менее, в целом эта задача решается рутинно, и многие профильные лаборатории (в том числе и наш коллектив) располагают достаточно обширными электронными библиотеками. Намного более сложным оказывается шаг от «достаточно обширной» к почти исчерпывающей электронной библиотеке по данной тематике, поскольку этот необходимый этап подразумевает включение неанглоязычных статей (в первую очередь на китайском и русском языках), а также поиск многих статей, не индексируемых в PubMed и других центральных хранилищах, например, статьи в многочисленных сборниках, монографиях, трудах различных конференций. В отслеживании этих публикаций нашему коллективу способствуют налаженные связи с рядом ведущих международных генетических центров. В отношении российских, белорусских, украинских, казахстанских публикаций, часто несущих важные и нигде более не опубликованные сведения по популяциям этих стран, большую помощь оказывают наши коллеги в пределах бывшего СССР. В целом, наш коллектив находится в благоприятных условиях для создания подробной коллекции тематических публикаций по изменчивости Y-хромосомы в популяциях мира и имеет многолетний опыт создания подобных тематических библиотек. ОБИЛИЕ ДАННЫХ ПОТРЕБОВАЛО СОЗДАНИЯ ЭЛЕКТРОННОЙ БИБЛИОТЕКИ УНИФИЦИРОВАННАЯ ХАРАКТЕРИСТИКА ПОПУЛЯЦИЙ В обширной и бурно развивающейся области генетических исследований популяций мира маркеры Y-хромосомы являются сейчас одними из Однако самым сложным является не сбор информации, а задача ее объединения в единой базе данных. При решении этой задачи на первый план
1.1. База данных по Y-хромосоме выходят вопросы разработки наиболее полного «паспорта» данных и унификации их формата. Нашим коллективом разработан, пожалуй, наиболее детальный и выстраданный «паспорт» для каждой изученной популяции – набор параметров, по которым характеризуется популяция при внесении ее в базу данных. В этот набор полей включается не только условное название популяции из оригинальной публикации (чем зачастую ограничиваются составители большинства сводок), но и обязательное указание ее этнической принадлежности, страны и региона внутри страны, точных географических координат, стратегии формирования выборки и ее размер. Вся эта информация является чрезвычайно важной для последующей интерпретации данных и отбора популяций для каждого конкретного вида анализа. Важность такого подхода поясним примером – зачем, например, нужен такой, казалось бы третьестепенный, параметр как «стратегия формирования выборки». При изучении словацкой выборки была обнаружена высокая частота генетических вариантов, характерных для коренного населения Индии. Если бы эта выборка была обозначена в нашей базе данных как «Словакия» или тем более как «словаки», эти результаты были бы необъяснимы. Однако внесение в БД сведений, что стратегия формирования данной выборки была нацелена на создание представительной картины генофонда разных географических регионов Словакии, причем принципиально без учета этнической принадлежности обследуемых, позволило правильно интерпретировать этот на первый взгляд парадоксальный результат. Наличие «индийских» вариантов объяснялось тем, что в выборку попали не только словаки, но и цыгане Словакии: в ряде районов этой страны заметную долю населения составляют цыгане, в генофонде которых, по результатам многих исследований, сохраняется память об их индийском происхождении. УНИФИЦИРОВАННАЯ ХАРАКТЕРИСТИКА ГАПЛОГРУПП Но настоящие трудности, по нашему опыту, начинаются при попытке внесения в единую таблицу не данных о популяциях, а разнородной информации о генотипах, изученных авторами разных публикаций. Не говоря уже о том, что разными коллективами используются различные наборы SNP и STR маркеров, нередко используются разные обозначения для одного и того же маркера (названия которых стремительно эволюционируют в ходе открытия новых SNP маркеров), а главное, большинство авторов публикует данные в виде частот гаплогрупп. Эта особенность принципиальна, поскольку номенклатура гаплогрупп на протяжении последних лет неоднократно менялась, и простое объединение статей разных лет может привести не только к трудно сопоставимым, но и просто к неверным результатам. При создании первой рабочей версии БД был использован традиционный подход - единицей хранения в ней выступала частота той или иной гаплогруппы в каждой популяции. Если разные авторы использовали разные маркеры, но было известно, что эти маркеры синонимичны (определяют одну и ту же гаплогруппу), данные этих авторов классифицировались как частоты одной и той же гаплогруппы в соответствующих популяциях. К сожалению, данный подход оказался трудоемким, поскольку интеграция каждой новой статьи в базу данных требовала принятия решений по «приравниванию» гаплогрупп. И более того, он оказался бесперспективным – по мере уточнения филогенетического древа гаплогрупп оказывалось, что SNP маркеры, ранее рассматривавшиеся в литературе как синонимичные, в действительности находятся на разных иерархических уровнях ветвления филогенетического древа (один определяет ветвь, а другой – доминирующую субветвь той же ветви). С аналогичными трудностями, насколько нам известно, столкнулись и другие коллективы, составлявшие крупные сводки данных. В подавляющем большинстве случаев они создавались под конкретную задачу и через два-три года, после появления в научном обиходе новых SNP маркеров и изменений в обозначениях гаплогрупп, эти сводки становились малопригодны для пополнения и использования в других исследованиях. Чтобы избежать этих осложнений и создать универсальную долгосрочную автоматическую инфосистему (АИС), при разработке ее нынешней версии нами в основу положен принцип полного сохранения всей первичной информации о проанализированном образце. Это позволяет дальнейшую обработку проводить автоматически специальными программными средствами базы данных, и при необходимости перенастраивать и автоматически повторять обработку образцов, но уже по новым условиям игры. Поэтому единицей хранения в инфосистеме Ybase является отдельный проанализированный образец, а полями центральной таблицы служат все используемые в популяционных исследованиях SNP и STR маркеры (с возможностью добавления любых новых полей). Это означает, что инфосистема является, во-первых, не «популяционно-центричной», а «образец-центричной», а во-вторых, не «гаплогруппо-центричной», а «маркер-центричной». Эти два шага навстречу правильному построению инфосистемы (хранению максимально формализованных и первичных, а не производных данных) обеспечивают возможность анализа всех мировых данных о полиморфизме Y-хромосомы и долговременное использование инфосистемы вне
Глава 1. Создание баз данных о генофондах мира зависимости от возможных будущих изменений в номенклатуре гаплогрупп или топологии их иерархического древа. Такой подход потребовал создания и программной реализации алгоритма для автоматического преобразования исходных данных о генотипах образцов в частоты гаплогрупп в соответствии с текущей версией их номенклатуры. Y-BASE В ЭПОХУ ПОЛНОГО СЕКВЕНИРОВАНИЯ Y-ХРОМОСОМЫ С 2013 года исследования Y-хромосомы вступили в совершенно новую фазу. Использование технологий секвенирования следующего поколения позволило охарактеризовать всю Y-хромосому (точнее, ее участки, поддающиеся надежному секвенированию) для многих образцов. И поскольку каждая семья несет свои собственные уникальные мутации, секвенирование десятка новых образцов из разных семей автоматически означает открытие десятка новых гаплотипов, которые могут претендовать на звание новой гаплогруппы. Однако новая гаплогруппа получает полное признание лишь после того, когда она встречена хотя бы у двух неродственных индивидов. В результате были секвенированы сотни образцов и известное науке дерево Y-хромосомы за 3 последних года стало в 10 раз подробнее дерева, составленного за 10 предыдущих лет исследования. Понятно, что в этих условиях маркер-центричный принцип обозначения гаплогрупп является спасением – ведь буквенно-цифровые имена гаплогрупп могут измениться за один день. (Отметим в скобках, что в статье, обобщающей полногеномные исследования Y-хромосомы [Karmin et al., 2015] предложен способ стабилизировать и имена гаплогрупп – именовать только ключевые, распространенные ветви на основных иерархических уровнях, а промежуточные ветви и их группы обозначать через знак объединения именованных ветвей). Хотя Y-base может вобрать в себя информацию по частотам тысяч известных сейчас гаплогрупп и десяткам тысяч тех, которые будут несомненно открыты в ближайшие несколько лет, пока нужды в этом нет. Ведь для подавляющего большинства этих новых гаплогрупп их популяционные частоты неизвестны. Известно лишь, что гаплогруппа существует (данное сочетание SNP-маркеров встречено у пары образцов), но никто не изучал частоту этой гаплогруппы в популяциях. Тем самым все гаплогруппы резко делятся на два ранга: а) существующие лишь в виде ветви на дереве (частоты в популяциях не изучались); б) существующие и в виде ветви, и в виде географической карты частоты их распространения (частоты известны). И хотя раздел дерева Y-base может отражать все многообразие тысяч известных ветвей (ранг 1), ключевые разделы инфосистемы должны содержать данные лишь по тем гаплогруппам, для которых проведен популяционный скрининг и определены их частоты хотя бы в нескольких популяциях (ранг 2). В 2011 году – до эпохи полного секвенирования Y-хромосом – в мировой литературе мы обнаружили 242 такие гаплогруппы ранга 2. К 2015 году, насколько известно автору, в мировой копилке добавилось лишь около сотни новых открытых гаплогрупп (в основном в пределах «больших» гаплогрупп N, C, E, R1a, R1b), для которых проведен популяционный скрининг по новым субгаплогруппам. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ БД Y-BASE СТРУКТУРА ИНФОСИСТЕМЫ Y-BASE Логически работа с инфосистемой может быть разделена на два этапа: 1) ввод первичной информации (предусмотрены различные способы ввода); 2) проведение анализа хранимых данных для получения частот гаплогрупп Y-хромосомы в разных популяциях мира (предусмотрена возможность выбора и комбинирования различных критериев, формируемых пользователем системы). Пользователь системы имеет возможность автоматического расчета частот гаплогрупп в популяциях мира. Для анализа данных сторонними программными средствами, реализована функция экспорта данных, с которыми в данный момент работает пользователь, в заданный формат электронной таблицы. В качестве системы управления инфосистемы Y-base используется свободно распространяемая СУБД PostgreSQL. Инфосистема содержит такие основные разделы: – таблица генотипов для изученных образцов (значения SNP и STR маркеров); – таблица популяций (со справочниками народов, стран, регионов и др.), связанную с таблицей генотипов соотношением «один ко многим»; – иерархически упорядоченное дерево SNP маркеров; – справочник обозначений гаплогрупп и их соответствия одному или нескольким (синонимичным) SNP маркерам (номенклатура гаплогрупп); – первоисточники данных (электронную библиотеку).
1.1. База данных по Y-хромосоме ЛОГИКА ОБРАБОТКИ ДАННЫХ Основная сложность обработки данных состоит во взаимосвязи различных SNP маркеров, вытекающей из иерархической структуры «родословного древа» Y-хромосомы. Общепринято, что если для образца выявлено наличие определенного SNP маркера, то это однозначно доказывает принадлежность образца только к определенной ветви этого дерева. Одновременно это означает, что в образце заведомо отсутствуют SNP маркеры, специфичные для других крупных ветвей древа Y-хромосомы. Однако если выявленная ветвь Y-хромосомы имеет, например, пять субветвей, то каждая субветвь определяется еще и своим собственным SNP маркером. Поэтому допустим, что далее образец был проверен на SNP маркеры, специфичные только для трех из пяти известных субветвей данной ветви. Если оказалось, что он не относится ни к одной из трех проанализированных субветвей, то этот образец все еще может нести SNP маркеры на одну из двух оставшихся субветвей, но неизвестно, на какую именно. Однако – увы! – авторы исходных данных не генотипировали SNP-маркеры на оставшиеся две субветочки. Как поступать в этом случае? В этом случае при подсчете частоты встречаемости всех ветвей (и субветвей) Y-хромосомы: 1) данный образец входит в подсчет частоты своей «крупной» ветви ( «+» ); 2) входит с «отрицательным» значением «-» (как отсутствие данной ветви у данного образца) в подсчет частоты всех прочих ветвей-гаплогрупп; 3) входит с «отрицательным» значением «-» (как отсутствие данной субветви у данного образца) для тех трех субветвей своей ветви, к которым, как было выявлено, он не относится; 4) но этот образец никаким образом не входит в подсчет частоты двух оставшихся субветвей, о принадлежности его к которым из имеющихся данных нельзя ничего заключить ( «±» ). ЦЕНТРАЛЬНЫЙ МОДУЛЬ ОПРЕДЕЛЕНИЯ ГАПЛОГРУППЫ Описанная обработка одного образца относительно легко осуществляется вручную грамотным специалистом, но обработка даже нескольких сотен образцов весьма трудоемка и уже ненадежна. Поэтому в инфосистему интегрирован специализированный модуль, который, исходя из статуса тех SNP маркеров, которые известны для данного образца, и иерархической организации древа гаплогрупп, определяет, к какой именно ветви (гаплогруппе) или субветви относится данный образец. Приведем пример работы модуля. Например, пользователь задал запрос на частоты гаплогруппы G2 в разных популяциях мира. Модуль осуществит скрининг и сортировку всех записей (образцов) в отношении этого запроса на три типа. В первый тип («-») попадут образцы, не относящиеся к данной гаплогруппе, а именно те образцы, которые несут SNP маркеры, маркирующие другие гаплогруппы (ветви) иерархического древа гаплогрупп (SNP маркеров, исключающие их отнесение к гаплогруппе G2). Во второй тип («+») попадут образцы, несущие SNP маркер, обозначаемый P15, который маркирует искомую гаплогруппу G2. В этот же тип попадут образцы, не проанализированные на маркер Р15, но имеющие производный (derived) статус по SNP маркерам, подчиненным данному маркеру (маркирующие субветви в пределах ветви, маркируемой P15). В данном случае экспериментально подтвержденная принадлежность образца к субветви автоматически означает его принадлежность и к ветви в целом. В третий тип («±») попадут образцы, относящиеся к той же суперветви, что и маркируемые Р15, но положение которых внутри суперветви неизвестно. Для этих образцов нельзя вынести определенного суждения, относятся ли они к ветви G2 (P15) или нет. Наконец, следующий модуль (расчета частот гаплогрупп) подсчитывает для каждой популяции долю образцов второго типа от общего числа образцов в данной популяции, но для популяций, имеющих хотя бы один образец третьего типа, будет отмечено, что частота гаплогруппы G2 неопределима. Эта информация – частоты гаплогруппы G2 во всех популяциях, где ее можно определить из имеющихся данных, и указание на невозможность такого определения для остальных популяций – и будет результатом искомого запроса. Таким образом, применение модулей автоматического определения гаплогруппы и расчета частот гаплогрупп позволяет полностью автоматизировать наиболее трудоемкий и сложный этап обработки и преобразования первичных генотипических данных для решения каждой конкретной задачи. При этом возможность обновления дерева SNPгаплогрупп обеспечивает эффективную работу инфосистемы для максимально широкого круга популяций: система не зависит от открытия новых ветвей иерархического древа, введения в научный оборот новых SNP маркеров и даже реорганизации устоявшейся структуры иерархического древа, поскольку все эти изменения можно вносить в дерево гаплогрупп, не меняя сами данные и процедуры их обработки. Данный модуль инфосистемы является центральным в том смысле, что он преобразует первичную (экспериментально полученную) информацию о статусе SNP маркеров в данном образце в искомую информацию о том, к какой именно гаплог
Глава 1. Создание баз данных о генофондах мира руппе принадлежит образец. Таким образом, происходит автоматическая обработка экспериментальных данных и помещение образца в одну из известных гаплогрупп. Данный модуль инфосистемы позволяет для каждого образца указать аллельное состояние каждого SNP маркера из полного перечня и, соответственно, проставить принадлежность или непринадлежность образца к каждой из сотен известных на данный момент гаплогрупп. Крайне важный смысл этой операции состоит в том, что в таблице представлено аллельное состояние даже для тех SNP-маркеров, по которым данный образец не исследовался. Например, у образца, для которого установлено, что маркер M9 находится в состоянии derived (+), также можно предсказать состояние derived и по маркерам M89, SRY10831.1 и другим маркерам, предковым по отношению к мутации в маркере M9 (т.е. маркирующим более крупные ветви, на которых выросла эта более молодая ветвь), хотя в статье эти маркеры более крупных ветвей и не исследовались. Для сопоставления разных исследований, использующих разные панели маркеров и дифференцирующих ветви древа на разную глубину, такое указание маркеров для всех известных ветвей древа становится крайне полезным: мы можем автоматически отобрать для исследования любые более крупные ветви, даже если их маркеры не изучены в публикации и крупные гаплогруппы не указаны. Результатом работы этого центрального программного модуля является таблица, в которой для каждого образца проставлены аллельные состояния не для 5–20 SNP маркеров, по которым для данного образца имеются экспериментальные данные, но по всем 700 маркерам из перечня известного на момент разработки модуля SNP маркеров. Обновление дерева происходит в полуавтоматическом режиме, поэтому это число легко увеличивается до всех известных на данный момент маркеров. Конечно, разработка этого алгоритма программного модуля заняла месяцы, зато время обработки 1000 образцов тестовой программой, даже реализованной макросом MS Excel, заняло всего около 20 минут. Выполнение этой операции программой не только сокращает время работы на несколько порядков, но также исключает ошибки, вызванные человеческим фактором. частоты интересующей пользователя гаплогруппы в каждой из выбранных популяций? Задача, которую решает этот модуль программы – непосредственное получение частот гаплогрупп для всех внесённых в базу данных популяций (или только избранных пользователем популяций или регионов) с использованием таблицы отнесения/исключения каждого образца к каждой из известных гаплогрупп, полученной в результате работы центрального модуля. Алгоритм определения частоты гаплогруппы в популяции по очереди рассматривает каждую популяцию и каждый маркер, отдельно от других популяций и маркеров. Первый шаг – работа с «популяцией А», маркером 12f2.b, второй – с той же популяцией, но уже с маркером 12f2a, и т.д. пока программа не пройдёт все маркеры, выбранные для популяции А. Затем столько же шагов для популяции Б, столько же для В и т.д. Каждый шаг – это выполнение следующей процедуры: программа оценивает взвешенную долю записей «D» в данном столбце для данной популяции и записывает её в строку «всего в популяции». Это число – доля образцов в популяции, которые имеют в данном маркере производное (derived) аллельное состояние, то есть относятся к гаплогруппе, которую данный маркер определяет. Например, взвешенная доля записей, имеющих в данной популяции измененное состояние («D») в локусе P14 – это частота гаплогруппы F в популяции А. Однако, иногда вычислить эту долю невозможно: когда хотя бы одна запись в данном столбце у данной популяции содержит «U», то есть неизвестное аллельное состояние. В этом случае вместо частоты пишется знак «Н» - частота неопределима. После того как программа проходит по всем популяциям и маркерам, алгоритм оставляет только записи, указывающие для каждого сочетания «популяция-маркер» долю образцов в данной популяции, имеющих производное состояние данного маркера. Теперь вспомним, что одна и та же гаплогруппа может определяться многими маркерами. Поэтому далее модуль объединяет все маркеры для одной гаплогруппы в одну запись (значительно сокращая число столбцов в итоговой таблице). Таким образом, итоговая таблица содержит в строках записи о популяциях, а в столбцах – о гаплогруппах. На пересечениях строк и столбцов – частоты гаплогрупп либо запись о невозможности их определения. МОДУЛЬ РАСЧЕТА ЧАСТОТ ГАПЛОГРУПП ДЕРЕВО ГАПЛОГРУПП Y-ХРОМОСОМЫ Исходя из данных о принадлежности каждого образца к той или иной гаплогруппе, этот модуль базы данных рассчитывает частоты выбранных пользователем гаплогрупп в выбранных популяциях. Тем самым модуль дает прямой ответ на наиболее типичный запрос к инфосистеме – каковы На нашем сайте www.genofond.ru размещены три раздела базы данных: дерево гаплогрупп, электронная библиотека и БД среднеэтнических частот (остальные разделы пока доступны только разработчикам и дружественным пользователям по их запросу).