Генетика, 2024, № 7
научный журнал
Покупка
Новинка
Тематика:
Общая генетика. Общая цитология
Издательство:
Наука
Наименование: Генетика
Год издания: 2024
Кол-во страниц: 126
Дополнительно
Тематика:
ББК:
УДК:
ОКСО:
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Ɋɨɫɫɢɣɫɤɚɹɚɤɚɞɟɦɢɹɧɚɭɤ ȽȿɇȿɌɂɄȺ Ɍɨɦʋ7ɂɸɥɶ ɈɫɧɨɜɚɧɜɚɩɪɟɥɟU ISSN: ȿɠɟɦɟɫɹɱɧɵɣɠɭɪɧɚɥ ɀɭɪɧɚɥɢɡɞɚɟɬɫɹɩɨɞɪɭɤɨɜɨɞɫɬɜɨɦ ɈɬɞɟɥɟɧɢɹɛɢɨɥɨɝɢɱɟɫɤɢɯɧɚɭɤɊȺɇ Ƚɥɚɜɧɵɣɪɟɞɚɤɬɨɪ ɇɄəɧɤɨɜɫɤɢɣ Ɋɟɞɚɤɰɢɨɧɧɚɹɤɨɥɥɟɝɢɹ ȺɉɊɵɫɤɨɜɡɚɦɝɥɚɜɧɨɝɨɪɟɞɚɤɬɨɪɚɋɄ Ⱥɛɢɥɟɜɡɚɦɝɥɚɜɧɨɝɨɪɟɞɚɤɬɨɪɚ, ɋȺȻɪɭɫɤɢɧɨɬɜɟɬɫɬɜɟɧɧɵɣɫɟɤɪɟɬɚɪɶȺɆȻɨɪɨɧɢɧȺȼȼɚɫɢɥɶɟɜ ȼȺȽɜɨɡɞɟɜȿɄȽɢɧɬɟɪɌȺȿɠɨɜɚɂȺɁɚɯɚɪɨɜȽɟɡɟɯɭɫɋȽɂɧɝɟȼɟɱɬɨɦɨɜ ɇȺɄɨɥɱɚɧɨɜȺɆɄɭɞɪɹɜɰɟɜɅȺɅɭɬɨɜɚȺɋɆɢɪɨɧɨɜɇɋɆɸɝɟ ȾȼɉɨɥɢɬɨɜȼɉɉɭɡɵɪɟɜȺɘɊɠɟɰɤɢɣɋɒȺɇȻɊɭɛɰɨɜ ɆȼɏɨɥɨɞɨɜɚɗɄɏɭɫɧɭɬɞɢɧɨɜɚ Ɋɟɞɚɤɰɢɨɧɧɵɣɫɨɜɟɬ ȼȽȾɟɛɚɛɨɜȺȼɄɢɥɶɱɟɜɫɤɢɣȻɟɥɚɪɭɫɶɋȼɄɨɫɬɪɨɜ ɄɄɪɭɬɨɜɫɤɢɣȽɟɪɦɚɧɢɹɋȺɅɢɦɛɨɪɫɤɚɹɂȺɌɢɯɨɧɨɜɢɱ ȾɍɨɬɫɨɧɋɒȺɋȼɒɟɫɬɚɤɨɜȼɄɒɭɦɧɵɣ ɁɚɜɪɟɞɚɤɰɢɟɣȿȼɌɢɯɨɦɢɪɨɜɚ ȺɞɪɟɫɪɟɞɚɤɰɢɢȽɋɉɆɨɫɤɜɚɭɥȽɭɛɤɢɧɚɞ ɬɟɥ HPDLOJHQHWLND#YLJJUX ɋɚɣɬɠɭɪɧɚɥɚKWWSZZZYLJJUXJHQHWLND Ɇɨɫɤɜɚ ɎȽȻɍ©ɂɡɞɚɬɟɥɶɫɬɜɨ©ɇɚɭɤɚª Ɋɨɫɫɢɣɫɤɚɹɚɤɚɞɟɦɢɹɧɚɭɤ Ɋɟɞɤɨɥɥɟɝɢɹɠɭɪɧɚɥɚ©Ƚɟɧɟɬɢɤɚª ɫɨɫɬɚɜɢɬɟɥɶ
СОДЕРЖАНИЕ ТОМ 60, номер 7, 2024 Обзорные и теоретические статьи Искусственный интеллект и классические методы в генетике и селекции животных А. Д. Солошенков, Э. А. Солошенкова, М. Т. Семина, Н. Н. Спасская, В. Н. Воронкова, Ю. А. Столповский 3 Генетика микроорганизмов Роль различных субъединиц ремоделирующего комплекса INO80 в репарационной сборке хроматина у дрожжей Saccharomyces cerevisiae Т. А. Евстюхина, Е. А. Алексеева, И. И. Скобелева, В. Т. Пешехонов, В. Г. Королев 17 Генетика животных Генетическая структура популяций волка Северной Евразии: оценка влияния исключения из анализа родственных особей П. А. Казимиров, Ю. С. Белоконь, М. М. Белоконь, А. Я. Бондарев, А. В. Давыдов, Е. С. Захаров, С. В. Леонтьев, Д. В. Политов 31 «Эволюция» митохондриального генома пеночки-таловки (Phylloscopus borealis sensu lato) происходит в ее ядерном геноме Л. Н. Спиридонова, О. П. Вальчук, Я. А. Редькин 45 Генетическое разнообразие малого суслика Spermophilus pygmaeus Pallas, 1779 (Sciuridae, Rodentia) на Северном Кавказе Ф. А. Темботова, М. С. Гудова, А. Х. Амшокова, А. X. Халидов 62 Генетика человека Экспрессия гена β1-адренорецептора у пациентов с фибрилляцией предсердий до и после хирургического лечения В. О. Попова, Э. Ф. Муслимова, Т. Ю. Реброва, Е. А. Арчаков, Р. Е. Баталов, С. А. Афанасьев 75 Полиморфизм генов антиоксидантов и избыточный вес у детей М. А. Шкурат, Е. В. Машкина, Н. П. Милютина, Е. Д. Теплякова, Т. П. Шкурат 82 Математические модели и методы Реконструкция матрицы генотипических корреляций между вариантами внутри гена для совместного анализа импутированных и секвенированных данных Г. Р. Свищёва, А. В. Кириченко, Н. М. Белоногова, Е. Е. Елгаева, Я. А. Цепилов, И. В. Зоркольцева, Т. И. Аксенович 91
Краткие сообщения Разнонаправленное изменение уровня метилирования CpG-сайтов в 5' регионе гена TBX20 в восходящей аорте при атеросклерозе и аневризме Ю. А. Королёва, И. А. Гончарова, А. А. Зарубин, С. А. Шипулина, А. А. Слепцов, Д. С. Панфилов, Б. Н. Козлов, М. С. Назаренко 100 Кариотип и молекулярно-генетическая дифференциация 24-хромосомной формы серого хомячка Nothocricetulus migratorius из Тянь-Шаня О. В. Брандлер, А. В. Блехман 107 Профили экспрессии генов, вовлеченных в синтез лигнанов, в развивающихся семенах льна Е. Н. Пушкова, Е. М. Дворянинова, Л. В. Повхова, Т. А. Рожмина, Р. О. Новаковский, Е. А. Сигова, А. А. Дмитриев, Н. В. Мельникова 112 Секвенирование и аннотация хлоропластного генома Triticum timonovum Heslot et Ferrary А. Р. Кулуев, Р. Т. Матниязов, Б. Р. Кулуев, Л. Ю. Привалов, А. В. Чемерис 118
ГЕНЕТИКА, 2024, том 60, № 7, с. 3–16 ОБЗОРНЫЕ И ТЕОРЕТИЧЕСКИЕ СТАТЬИ УДК 575.174.015.3, 004.855.5 ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ И КЛАССИЧЕСКИЕ МЕТОДЫ В ГЕНЕТИКЕ И СЕЛЕКЦИИ ЖИВОТНЫХ © 2024 г. А. Д. Солошенков1 ,2, *, Э. А. Солошенкова1, М. Т. Семина1, Н. Н. Спасская3, В. Н. Воронкова1, Ю. А. Столповский1 1Институт общей генетики им. Н.И. Вавилова Российской академии наук, Москва, 119991 Россия 2Российский государственный аграрный университет – МСХА имени К.А. Тимирязева, Москва, 127434 Россия 3 Московский государственный университет имени М.В. Ломоносова, Научно-исследовательский Зоологический музей, Москва, 125009 Россия *e-mail: alesol@rgau-msha.ru Поступила в редакцию 29.11.2023 г. После доработки 07.03.2024 г. Принята к публикации 15.03.2024 г. В настоящей статье проведены обзор и анализ основных методов популяционной генетики и селекции животных, а также математических методов машинного обучения, используемых в животноводстве. На примере двух доместицированных видов – домашняя лошадь (Equus caballus) и северный олень (Rangife rtarandus) проведено обучение моделей библиотеки CatBoost. Для обучения модели на основе данных по одомашненным и диким северным оленям, европейским и российским породам лошадей использованы результаты, полученные с помощью микросателлитных панелей, соответственно локусов 16 и 17. Для определения успешности модели были рассчитаны стандартные показатели: Accuracy, Precision, Recall и F1, построены матрицы ошибок. Показаны новые возможности идентификации породной принадлежности животных. Ключевые слова: машинное обучение, нейронные сети, животноводство, лошадь, Equus caballus, северный олень, Rangifer tarandus, микросателлитный анализ, генетическое разнообразие. DOI: 10.31857/S0016675824070017 EDN: BIMRAP Современное развитие индустриального, органического, традиционного животноводства связано с анализом большого спектра хозяйственно-полезных признаков (экстерьера и интерьера животных), качественных и количественных показателей продуктивности, генетических маркеров, генов-кандидатов, данных о секвенировании геномов, в совокупности различных критериев отбора в зоотехнии и ветеринарии. Необходимость работы с большими массивами данных, а также новейшие возможности получения “цифровых фенотипов” определили интенсивное развитие цифровых технологий, математических методов анализа и интегрирование машинного обучения и нейросетей в практику животноводства, в том числе в глобальную проблему сохранения генетических ресурсов, уникального адаптивного потенциала редких локальных пород животных [1]. Классические методы биоинформационного анализа в генетике и селекции животных включают в себя оценку частот, число эффективных и уникальных аллелей, расчеты генетических дистанций, определение филогенеза, определение различных коэффициентов оценки уровня генетического разнообразия и т. д. Филогенетический анализ, изучение генетических и селекционных взаимоотношений между породными группами и популяциями проводятся с помощью построения дендрограмм. Наибольшее распространение получили методы UPGMA и Neighbor-joining, а также программа STRUCTURE, которая активно используется для исследования популяционной структуры методом байесовского анализа марковских цепей. Для оценки влияния генотипа на продуктивность животных применяются методы дисперсионного анализа, в частности BLUP (Best Linear Unbiased Prediction) и его подвиды, основанные на статистической модели, предложенной C.R. Henderson [2]. Широкое распространение нейросетей и искусственного интеллекта позволяет проводить исследования в биологии, генетике и животноводстве. В настоящее время машинное обучение используется для мониторинга состояния и благополучия животных при их содержании, в идентификации отдельных особей и других направлениях, например для предсказания корреляций нуклеотидных замен и продуктивности животных. Очевидно, что использование современных методов мониторинга, 3
СОЛОШЕНКОВ и др. оценки родословных, идентификации животных может значительно улучшить качество управления стадом, разведения и селекции животных. Одной из важных (насущных) проблем животноводства является идентификация породной принадлежности животных. В связи с этим в нашей работе на большом массиве данных по микросателлитным маркерам европейских и российских пород лошадей, а также домашних и диких северных оленей был использован один из методов машинного обучения (CatBoost) и проведено обучение модели с целью идентификации особей, популяций, пород. В настоящей статье описаны классические методы, которые используются в генетике и селекции животных, проведен анализ современных методов машинного обучения и их перспектив в животноводстве. вариабельностью и широкой представленностью в геноме. Панели, применяемые для идентификации животных, используют наиболее полиморфные локусы, которые при этом считаются условно нейтральными (не локализованы рядом с кодирующими участками ДНК, участвующими в отборе) [5]. Благодаря использованию SNP-маркеров в животноводстве возможно ускорение темпов селекции при привлечении таких смежных областей, как эмбриология, биоинформатика и математическая генетика [6]. Наиболее широко распространенными показателями при оценке генетического разнообразия являются: ожидаемая (He) и наблюдаемая (Ho) гетерозиготность. Данные параметры основаны на уравнении Харди – Вайнберга и позволяют выявить недостаток гетерозигот в популяции. Ожидаемая гетерозиготность (разнообразие по M. Nei) показывает вероятность гетерозиготности особи в популяции, рассчитывается по формуле: ПОПУЛЯЦИОННОГЕНЕТИЧЕСКИЕ ПАРАМЕТРЫ He = 1 – 1 Параметры, применяемые для оценки “генетического благополучия” породы или популяции, рассчитываются на основе генетических профилей животных и частот аллелей. Под “генетическим благополучием” мы подразумеваем определенную степень инбридинга и генетического разнообразия в породе или популяции. Оценка генетического разнообразия и филогенетический анализ, основанные на молекулярных маркерах, позволяют идентифицировать породные группы с низким уровнем аллельного разнообразия, которое может снижаться ввиду длительной изолированности популяции, влияния внешних факторов, а также жесткой системы подбора пар животных в племенном животноводстве [3]. Как правило, в племенных хозяйствах используются несколько выдающихся по продуктивности производителей на большом количестве особей маточного поголовья. Интенсивные методы селекционной работы, а также сокращение поголовья сельскохозяйственных животных в России, особенно в коневодстве, приводят к необходимости постоянного контроля за уровнем генетического разнообразия с целью нивелирования негативных эффектов инбридинга [4]. В настоящее время во всем мире для контроля происхождения и определения статуса пород основных доместицированных видов животных применяются микросателлитные (short tandem repeats) маркеры, которые рекомендованы ISAG (международное общество генетики животных https:// www.isag.us/). В то же время все интенсивнее используются подходы, связанные с детекциями однонуклеотидных замен (SNP, single nucleotide polymorphism), особенно ассоциированных с конкретными фенотипическими признаками. Микросателлитные маркеры отличаются высокой 2 i p ∑ i , где pi – частота i-го аллеля, ni – общее число аллелей во всех локусах. Значения для He и Ho варьируют от 0 (нет гетерозиготности) до практически 1. Ho – наблюдаемая гетерозиготность, т. е. фактическая доля гетерозиготных образцов. Так, при изучении генетического разнообразия пород лошадей России наибольший уровень гетерозиготности был идентифицирован для русской верховой породы лошадей (Ho = 0.71), в формировании которой участвуют несколько пород: чистокровная верховая, немецкие спортивные, ахалтекинская [7]. Также проводится расчет параметров инбридинга, в частности коэффициента Fis, с помощью которого измеряют внутрипопуляционный инбридинг, т. е. снижение гетерозиготности индивида по причине близкородственных скрещиваний, Fit – межпопуляционного коэффициента инбридинга, где учтены поправки на дифференциацию между популяциями [8]. Для оценки различий между популяциями используют методы расчетов генетических расстояний Fst от 0 – различий нет до 1 – максимальное различие. Fst также является коэффициентом инбридинга в популяциях в сравнении с общей выборкой. Подобные методы помогают установить дифференциацию популяций [9]. Так, низкий параметр Fst может наблюдаться для двух близкородственных пород, например как донская и буденновская породы лошадей (0.02). И напротив, высокий показатель наблюдается у пород, имеющих различное историческое происхождение (тяжеловозные и верховые породы лошадей – 0.15). Программная среда R, активно используемая для анализа генетических данных, позволяет ГЕНЕТИКА том 60 № 7 2024
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ И КЛАССИЧЕСКИЕ МЕТОДЫ В ГЕНЕТИКЕ 5 с панелью полиморфных микросателлитных локусов. Кроме того, изначально выбираются нейтральные маркеры, которые подчиняются закону Харди – Вайнберга. Это может являться причиной искажения результатов и смещения оценки ввиду утери части данных. КЛАСТЕРИЗАЦИЯ ПОПУЛЯЦИЙ визуализировать различные показатели. При использовании пакета PopGenReport частоты аллелей представляются в виде тепловых карт (рис. 1), по которым выявляются общие тренды и индивидуальные для каждой отдельной популяции [10]. Так, при анализе генетического разнообразия ценного промыслового вида – соболя было выявлено среднее число аллелей на популяцию от 7.73 до 10.73 (табл. 1). Так как соболь обладает высокой миграционной активностью, это позволило сделать выводы о его миграциях. Наименьшее количество аллелей наблюдалось на Камчатке (7.73), а наибольшие показатели – для популяций, находящихся на пересечении миграционных потоков и обогащающихся за счет этого новыми аллельными вариантами [11]. Как указывает ряд авторов [12], важно учитывать тот факт, что для анализа разнообразия изначально исследователями выбираются наиболее полиморфные локусы. В исследовании сравнили оценку нуклеотидного разнообразия и анализ по микросателлитным маркерам. Была выявлена положительная корреляция между данными показателями, однако гетерозиготность была выше в 1.4 раза для нуклеотидных замен в сравнении Исследования филогенеза пород одомашненных и популяций диких животных позволяют оценить микроэволюционные процессы и их историческое формирование [10]. Для кластерного анализа (рис. 2) используются программы STRUCTURE и Geneland, с применением алгоритма Монте-Карло по схеме марковских цепей (MCMC) для байесовской статистики. В программах задают предполагаемое количество популяций и число итераций, далее рассчитываются графики для каждого числа популяций по каждой итерации [13]. Для построения непосредственно филогенетических деревьев широкое распространение получили методы UPGMA и Neighbor-joining. Эти 1 0 52 14 5 3 25213 9156 2 1113020 1128912 24654 855 100 105 187 391 17122 341642164587662 19325 3 7 27 19 10 5 4 5 2 43 17 36 1 5 19 16 31 78 244341 40 49 15 1 16 0 0 9 1 1 9 6 1 8 5 1 3 1 6 6 1 7 2 8 1 1 1 0 8 2 9 3 5 5 8 6 5 0 1 3 5 1 6 0 2 7 4 1 7 3 3 7 6 8 1 3 7 8 9 1 6 3 0 1 5 3 0 1 0 3 1 1 3 7 1 2 1 1 1 1 1 4 1 3 17 14 7 11 3 31 41 11 6 40 6 21 34 147942723612 7827040 3917132161538483620 54 9 18 3 53 2 5 2 7 11682 25 2 2 2 1 11 2333 33 20 9 9 15 0 0 20 18 0 3 1 7 1 5 7 0 0 1 6 2 7 4 9 5 9 1 2 4 7 2 1 7 1 1 3 8 1 7 1 5 4 0 3 9 9 2 5 1 2 3 2 7 5 4 1 7 1 2 0 1 7 6 7 2 3 1 9 3 6 1 6 7 9 1 2 1 1 4 3 5 9 5 3 7 4 6 4 6 6 7 1 4 9 5 9 1 1 6 1 5 1 0 8 3 8 8 6 3 6 7 7 1 9 0 1 6 2 7 5 3 8 2 8 3 7 8 19 2 72 1 9 1 1 5 59 20 CAM LUS KON TIN IRI WEL1 DAR SHI SHE1 TEN AND FAL FEL CON WAR3 MIN STA APP ARA FJO HAC THO NEW WAR2 LIP SHE2 WEL2 WAR1 ICE DUT MER GRO HAF KAS RVP SovT RusT Shael Don Buden Wild silver Altai Tuvin Kushum Pechor Zabaikal MongolGobi Mezen Byriat MongDarhat TuvinBailak TuvinBaidag MongolTes Рис. 1. Тепловая карта частот аллелей для 54 пород лошадей. Цветом от желтого к красному обозначена частота встречаемости аллеля в популяции. Идентифицирован приват-аллель 14-го локуса HTG7 для русской верховой породы лошадей (RVP). ГЕНЕТИКА том 60 № 7 2024
СОЛОШЕНКОВ и др. Таблица 1. Показатели генетического разнообразия для различных популяций соболя Популяция/регион N A AR Ho He P Ванавара (Ц. Сибирь) 31 8.55 6.44 0.704 0.761 0.461 Ербогачен (Ц. Сибирь) 28 8.09 5.99 0.660 0.729 0.415 Братск (Ц. Сибирь) 23 8.18 6.43 0.675 0.770 0.277 Саяны 31 9.18 6.69 0.707 0.786 0.286 Сихотэ-Алинь (Приморье) 40 10.73 7.37 0.741 0.809 0.270 Северный Урал 71 9.36 6.17 0.695 0.733 0.471 Камчатка 37 7.73 5.29 0.713 0.706 0.926 Примечание. N – размер выборки; A – среднее число аллелей на локус; AR – обогащенность популяций аллелями (allelic richness), вычисленная как среднее число аллелей, нормированное на объем выборки N; Ho – наблюдаемая гетерозиготность; He – ожидаемая гетерозиготность; P – значение вероятности для теста Харди – Вайнберга с учетом всех локусов. 1.00 0.80 0.60 0.40 0.20 0 1(1) 3(1) 5(1) 7(1) 9(1) 11(1) 13(1) 15(1) 17 2 ( ) 19 2 ( ) 21 3 ( ) 23 3 ( ) 25 3 ( ) 27 3 ( ) 29 3 ( ) 31 3 ( ) 33 3 ( ) 35 3 ( ) 37 3 ( ) 39 3 ( ) 41 3 ( ) 43 3 ( ) 45 3 ( ) 47 3 ( ) 49 3 ( ) 2(1) 4(1) 6(1) 8(1) 10(1) 12(1) 14(1) 16 2 ( ) 18 2 ( ) 20 3 ( ) 22 3 ( ) 24 3 ( ) 26 3 ( ) 28 3 ( ) 30 3 ( ) 32 3 ( ) 34 3 ( ) 36 3 ( ) 38 3 ( ) 40 3 ( ) 42 3 ( ) 44 3 ( ) 46 3 ( ) 48 3 ( ) 50 3 ( ) 1.00 0.80 0.60 0.40 0.20 0 51 3 ( ) 53 3 ( ) 55 3 ( ) 57 3 ( ) 59 3 ( ) 61 3 ( ) 63 3 ( ) 65 3 ( ) 67 3 ( ) 69 3 ( ) 71 3 ( ) 73 3 ( ) 75 3 ( ) 77 3 ( ) 79 3 ( ) 81 3 ( ) 83 3 ( ) 85 3 ( ) 87 3 ( ) 89 3 ( ) 91 3 ( ) 93 3 ( ) 95 3 ( ) 97 3 ( ) 99 3 ( ) 52 3 ( ) 54 3 ( ) 56 3 ( ) 58 3 ( ) 60 3 ( ) 62 3 ( ) 64 3 ( ) 66 3 ( ) 68 3 ( ) 70 3 ( ) 72 3 ( ) 74 3 ( ) 76 3 ( ) 78 3 ( ) 80 3 ( ) 82 3 ( ) 84 3 ( ) 86 3 ( ) 88 3 ( ) 90 3 ( ) 92 3 ( ) 94 3 ( ) 96 3 ( ) 98 3 ( ) 100 3 ( ) 1.00 0.80 0.60 0.40 0.20 0 150 5 ( ) 148 5 ( ) 146 5 ( ) 144 5 ( ) 142 5 ( ) 140 5 ( ) 138 5 ( ) 136 5 ( ) 134 5 ( ) 132 5 ( ) 130 4 ( ) 128 4 ( ) 126 4 ( ) 124 4 ( ) 122 4 ( ) 120 4 ( ) 118 4 ( ) 116 3 ( ) 114 3 ( ) 112 3 ( ) 110 3 ( ) 108 3 ( ) 106 3 ( ) 104 3 ( ) 102 3 ( ) 149 5 ( ) 147 5 ( ) 145 5 ( ) 143 5 ( ) 141 5 ( ) 139 5 ( ) 137 5 ( ) 135 5 ( ) 133 5 ( ) 131 5 ( ) 129 4 ( ) 127 4 ( ) 125 4 ( ) 123 4 ( ) 121 4 ( ) 119 4 ( ) 117 4 ( ) 115 3 ( ) 113 3 ( ) 111 3 ( ) 109 3 ( ) 107 3 ( ) 105 3 ( ) 103 3 ( ) 101 3 ( ) 1.00 0.80 0.60 0.40 0.20 0 151 5 ( ) 153 5 ( )155 5 ( )157 5 ( )159 5 ( ) 161 5 ( ) 163 5 ( )165 5 ( ) 167 5 ( ) 169 5 ( ) 171 5 ( ) 173 6 ( ) 175 6 ( ) 177 6 ( ) 179 6 ( ) 181 6 ( ) 183 6 ( ) 185 6 ( ) 187 6 ( ) 189 6 ( ) 191 6 ( ) 193 7 ( ) 195 7 ( ) 197 7 ( ) 199 7 ( ) 152 5 ( )154 5 ( ) 156 5 ( )158 5 ( )160 5 ( )162 5 ( ) 164 5 ( ) 166 5 ( ) 168 5 ( ) 170 5 ( )172 6 ( ) 174 6 ( ) 176 6 ( ) 178 6 ( ) 180 6 ( ) 182 6 ( ) 184 6 ( ) 186 6 ( ) 188 6 ( ) 190 6 ( ) 192 7 ( ) 194 7 ( )196 7 ( ) 198 7 ( ) 200 7 ( ) 1.00 0.80 0.60 0.40 0.20 0 20 7 1( ) 203 7 ( ) 205 7 ( ) 202 7 ( ) 204 7 ( ) Рис. 2. Популяционная структура заводских пород лошадей. Оранжевый цвет - ахалтекинская, синий – буденновская, красный – одичавшие лошади о. Водный, голубой – донская, зеленый – русская тяжеловозная, розовый – русская верховая, желтый – советская тяжеловозная. распределения, возможно, при использовании метода главных компонент, позволяющего отойти от стандартной модели построения дендрограмм [15]. Метод главных компонент уменьшает размерность данных, преобразуя их в ковариационную матрицу – матрицу главных компонент. PCA (principal component analysis) отличается высокой степенью воспроизводимости результатов ввиду методы являются дистанционными, т. е. первоначальные данные рассчитываются в виде матрицы генетических расстояний, которая впоследствии преобразуется в дихотомичное дерево [14]. Основная идея бутстреп-процедуры по B. Efron состоит в том, чтобы методом статистических испытаний Монте-Карло многократно извлекать повторные выборки из эмпирического ГЕНЕТИКА том 60 № 7 2024
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ И КЛАССИЧЕСКИЕ МЕТОДЫ В ГЕНЕТИКЕ 7 отсутствия введения в расчеты различных поправок либо коэффициентов. Единственной мерой расчета является доля дисперсии данных [16]. Таким образом, при использовании метода возможно визуализировать данные в пространстве двух главных компонент (двухмерное пространство) и трех главных компонент (трехмерное пространство) [17]. Сотрудниками лаборатории сравнительной генетики животных был проведен анализ главных компонент для заводских пород лошадей (тяжеловозные и верховые породы) в сравнении с одичавшими лошадьми о. Водный, чей статус и происхождение остаются неуточненными [18]. Построенные методом UPGMA дендрограммы показали низкий уровень бутстреп-поддержки для верховых пород лошадей, что не позволяло достоверно разделить их на отдельные породы и сделать выводы о возникновении одичавшей популяции. Однако в пространстве двух главных компонент было обнаружено частичное перекрытие с буденновской и донской породами лошадей, что позволило сделать предположение о возникновении популяции одичавших лошадей от данных пород (рис. 3). В большинстве случаев анализ данных происходит существующими пакетами и библиотеками для R или Python. Так, библиотека poppr для R позволяет строить UPGMA и NJ деревья. Расчет происходит на основе генетических дистанций Nei (1972) [19]. Тем не менее авторами пакета указывается ряд моментов, которые необходимо учитывать при обсчетах: различные модели мутационных процессов (пошаговая мутация) либо отсутствие учета мутаций, а также проблемы с обсчетами для организмов с различной плоидностью [20]. Кроме того, как уже указывалось выше, деревья ограничены дихотомией, что приводит к неоднозначным результатам. Л.А. Животовским в книге “Генетика природных популяций” [8] наглядно проиллюстрированы неоднозначность сжатия матрицы генетических дистанций и дальнейшее построение деревьев (рис. 4). При построении дерева методом UPGMA наблюдается неоднозначность отнесения популяций 1 и 2 к различным кластерам. При включении обеих популяций или только одной из них наблюдаются три разных дерева с отнесением популяций 1 и 2 либо к отдельному кластеру, либо популяции 1 к кластеру А, а популяции 2 к кластеру В, что в дальнейшем объясняется распределением выборок в пространстве главных компонент. Тем не менее данные методы являются основными при наглядном представлении структуры выборок. Поэтому необходимо проводить расчеты различными методами с дальнейшим их глубоким анализом для понимания популяционных процессов в популяциях. Rustyazh Sovtyazh Shaelteke rvp2 Don Buden Wild Eigenvalues rvpstar rvp3 Рис. 3. Распределение верховых и тяжеловозных пород лошадей в пространстве двух главных компонент в сравнении с одичавшими лошадьми о. Водный для уточнения происхождения данной популяции. Wild – одичавшие лошади, Buden – буденновская порода; Shaelteke – ахалтекинские лошади завода “Шаэль”; Don – донская; rvp2, rvpstar, rvp3 – выборки русской верховой породы; Rustyazh – русская тяжеловозная; Sovtyazh – советская тяжеловозная порода. ГЕНЕТИКА том 60 № 7 2024
СОЛОШЕНКОВ и др. а б 19–26 B 5–9 5–9 5–9 2 3 3 3 4 4 4 2 A C 10 1 A A 13–18 1 2 3 2 1 2 я главная координата 2 B B B 10 10 10 11 11 11 12 12 12 3 4 5–9 A 13–18 13–18 13–18 1 я главная координата 19–26 19–26 19–26 Рис. 4. Построение дерева методом VPGVA. а – дихотомическая кластеризация выборок кеты; б – метод главных компонент. BLUP (BEST LINEAR UNBIASED PREDICTION) Для оценки проводимых селекционных программ традиционно использовались методы “матери – дочери”, “дочери – сверстницы”, основанные на расчете разницы средних величин продуктивности животных. Различия в эколого-географических условиях, рационе, условиях содержания животных являлись факторами смещения данных показателей. Для повышения эффективности оценки селекционных процессов был введен метод оценки BLUP (наилучший линейный несмещенный прогноз), позволяющий учитывать влияние как генотипических, так и паратипических факторов, таких как возраст, возраст отела, год, дата постановки на откорм, среднесуточный удой и прочие. В зависимости от целей селекции, отбора и подбора животных, а также наличия тех или иных данных используют различные виды данного метода. Данный метод был предложен C.R. Henderson в 1984 г. [21]. По данным П.И. Отраднова и соавт. приведено уравнение смешанной модели в матричном виде [22]: Матрицы X и Z являются матрицами дизайна для фиксированных (X) и рандомизированных (Z) эффектов. Соответственно X൏ и Z൏ – транспонированные матрицы, h2 – коэффициент наследуемости (его нет в данной формуле) оценивает отношение изменчивости, обусловленной генетическими факторами, к общей изменчивости (генетическая и паратипическая), из него рассчитывают λ обратная матрица родства). При использовании методов GWAS (GenomeWide Association Study) и наличии данных нуклеотидных замен возможно использование метода GBLUP (Genomic Best Linear Unbiased Prediction), при котором используется матрица геномного сходства G вместо матрицы родства. Так, при исследовании голштинизированного черно-пестрого скота Московской области с использованием моделей BLUP Sire Model (BLUP SM), GBLUP был выявлен среднегодовой генетический тренд +37 кг молока, +1.7 и +0.8 кг продукции молочного жира и белка, а в Ленинградской области – +84, +3.3 и +2.3 кг. Причем было доказано, что оценка по нуклеотидным заменам (GBLUP) достовернее, чем по быкам-производителям (Sire Model) [23]. BLUP удобно использовать в современных условиях автоматизации процессов животноводства, например при использовании откормочных станций, которые позволяют учитывать нахождение на кормовой станции, среднесуточное потребление корма, скорость потребления корма, его конверсию и ряд других показателей, которые затем возможно использовать в будущей модели. Так, при исследовании свиней породы дюрок в модель включались год и месяц рождения животных, дата постановки на откормочную станцию, данные кормовой станции, количество недель выращивания на ней. Помимо этого в анализ была включена матрица родства [24]. Одним из плюсов BLUP следует отметить несмещенность прогноза и отсутствие необходимости в нормальности распределения данных, так как учитываются многие факторы, как генетические, так и средовые. ГЕНЕТИКА том 60 № 7 2024
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ И КЛАССИЧЕСКИЕ МЕТОДЫ В ГЕНЕТИКЕ 9 МАШИННОЕ ОБУЧЕНИЕ Для каждой задачи используются свои метрики. В контексте задач классификации выделим Accuracy, Precision, Recall и F1. Для понимания концепции метрик качества необходимо сказать о матрице ошибок (confusion matrix). Матрица представляет таблицу, позволяющую проиллюстрировать качество обучения модели, как правило, контролируемого обучения (supervised learning). В случаях unsupervised learning ее называют матрицей соответствия (matching matrix) [27]. Разберем, как устроена матрица ошибок на примере задачи бинарной классификации. В таких задачах алгоритм учится предсказывать принадлежность объекта с определенным набором данных (features) к одному из двух классов. Матрица ошибок представлена на рис. 5. Здесь True class – истинная метка класса на этом объекте, то есть истинные значения классов, изначально содержащиеся в данных. Predicted class – это ответ алгоритма на объекте, т. е. значения классов, которые предсказывает обученная модель для элементов выборки. Если истинная метка класса для объекта 1 и модель отнесла ее к соответствующему классу (1 → 1), то предсказание учитывается в поле True Positive (TP). Если для объекта с истинным классом 0 модель отнесла его к нулю (0 → 0), то предсказание учитывается в True Negative (TN). В случае если объект с меткой 1 был отнесен к классу 0 (1 → 0), предсказание учитывается в поле False Negative (FN), а для меток 0, отнесенных к 1 (0 → 1), – в False Positive (FP). Таким образом, суммы правильных предсказаний классов записываются в True Positive и True Negative, а ошибки – в False Positive и False Negative. Например, мы обучили модель на данных, содержащих 100 объектов, разделенных на два класса поровну (50 объектов класса 0 и 50 объектов класса 1), но по различным причинам алгоритм не обучился распознавать классы со 100% точностью. Представим, что проверка модели дала следующие результаты: объектов класса 1 с правильно предсказанными метками было 40 единиц, объектов класса 0 – 30 единиц соответственно, объектов класса 1, отнесенных к классу 0, – 10 единиц, а объектов класса 0, отнесенных к классу 1, – 20 единиц. Матрица ошибок представлена на рис. 6. Метрика Accuracy (общая точность) – это метрика, которая характеризует долю правильных ответов алгоритма, т. е. то, насколько близок данный набор измерений (классов, наблюдений, показаний) к их истинному значению [28]: Развитие цифровых технологий и непосредственно технической составляющей современных компьютерных систем позволили ввести анализ больших данных в современное животноводство, генетику и селекцию [25]. Обучение искусственному интеллекту позволяет отойти от классических стандартов применения математических моделей. По данным базы PubMed (https://www. ncbi.nlm.nih.gov/) за 2023-й год опубликовано 110 статей по использованию машинного обучения в животноводстве. Машинное обучение (Machine Learning, ML) – класс методов искусственного интеллекта, основанный на статистических моделях и логических операциях, позволяющий автоматически улучшать вычислительные алгоритмы при отсутствии четких инструкций с использованием примеров данных или прошлого опыта [26]. Обучая программу (алгоритмы) на основе экспериментальных данных по генотипированию животных, мы получаем модель, которая может делать прогнозы (например, определить породу животного) на основе наблюдений (например, по генотипу и фенотипу). Если рассматривать информатику как предмет алгоритмов, то машинное обучение является предметом обучения алгоритмов. Модель может быть прогностической – моделирует данные в будущем, описательной – получает знания из существующих данных или комбинированной. Машинное обучение использует теорию статистики при построении математических моделей, поскольку основная задача – делать выводы на основе выборки. В классическом ML выделяют два основных способа: • “Обучение с учителем” (supervised learning) – такой вид обучения подразумевает наличие размеченных данных (обучающей выборки), потенциально связанных некоторой закономерностью. Модель обучается по принципу “стимул – реакция” и позволяет решать задачи классификации или регрессии, а качество модели определяется по тестовой (иногда валидационной) выборке. • “Обучение без учителя” или неконтролируемое обучение (unsupervised learning) – обучение на неразмеченных данных. В классических задачах unsupervised learning есть данные, но нет обучающей выборки (т. е. правильные ответы неизвестны). При таком обучении модель обучается выявлять скрытые взаимосвязи без контроля со стороны исследователя и позволяет решать задачи кластеризации, ассоциации и уменьшения размерности (обобщения). Для определения точности, полученной в ходе обучения модели, используются метрики качества. . ГЕНЕТИКА том 60 № 7 2024