Биоинформатика с Python: книга рецептов: Современные библиотеки и приложения Python для решения реальных задач вычислительной биологии
Покупка
Новинка
Тематика:
Программирование и алгоритмизация
Издательство:
ДМК Пресс
Автор:
Антао Тиаго
Перевод:
Люско И. Л.
Год издания: 2023
Кол-во страниц: 345
Дополнительно
Вид издания:
Практическое пособие
Уровень образования:
Дополнительное образование
ISBN: 978-5-93700-201-3
Артикул: 855981.01.99
Биоинформатика — активная область исследований, в которой используется ряд простых и сложных вычислений для извлечения ценной информации из биологических данных. Из книги вы узнаете, как управлять этими задачами с помощью языка Python.
Вы рассмотрите ключевые методы секвенирования нового поколения, анализа отдельных клеток, геномики, метагеномики, а также узнаете, как применяются алгоритмы машинного обучения в биоинформатике.
Книга предназначена для аналитиков в области биоинформатики, специалистов по данным, вычислительных биологов, исследователей и разработчиков Python.
- Полная коллекция по информатике и вычислительной технике
- ДМК Пресс. Информационные системы и технологии
- ДМК Пресс. ИТ-технологии для профессионалов
- Интермедиатор. Биология (сводная)
- Интермедиатор. Информационные системы и технологии (сводная)
- Интермедиатор. ИТ-технологии для профессионалов (сводная)
- Программирование и алгоритмизация
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 09.03.01: Информатика и вычислительная техника
- 09.03.02: Информационные системы и технологии
- 09.03.03: Прикладная информатика
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Тиаго Антао Биоинформатика с Python: книга рецептов
Bioinformatics with Python Cookbook Use modern Python libraries and applications to solve real-world computational biology problems Tiago Antao BIRMINGHAM—MUMBAI Third edition
Биоинформатика с Python: книга рецептов Современные библиотеки и приложения Python для решения реальных задач вычислительной биологии Тиаго Антао Москва, 2023 Третье издание
УДК 575.112 ББК 30.16 А72 Антао Т. А72 Биоинформатика с Python: книга рецептов: Современные библиотеки и приложения Python для решения реальных задач вычислительной биологии / пер. с англ. И. Л. Люско. – М.: ДМК Пресс, 2023. – 344 с.: ил. ISBN 978-5-93700-201-3 Биоинформатика – активная область исследований, в которой используется ряд простых и сложных вычислений для извлечения ценной информации из биологических данных. Из книги вы узнаете, как управлять этими задачами с помощью языка Python. Вы рассмотрите ключевые методы секвенирования нового поколения, анализа отдельных клеток, геномики, метагеномики, а также узнаете, как применяются алгоритмы машинного обучения в биоинформатике. Книга предназначена для аналитиков в области биоинформатики, специалистов по данным, вычислительных биологов, исследователей и разработчиков Python. УДК 575.112 ББК 30.16 First published in the English language under the title ‘Bioinformatics with Python Cookbook – Third Edition’ – (9781803236421) Все права защищены. Любая часть этой книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. Copyright © Packt Publishing 2022 © Оформление, издание, перевод, ДМК Пресс, 2023 ISBN (анг.) 978-1-80323-642-1 ISBN (рус.) 978-5-93700-201-3
Оглавление Об авторе............................................................................................................12 О рецензентах..................................................................................................13 От издательства...............................................................................................14 Предисловие.....................................................................................................15 Глава 1. Python и окружающее программное обеспечение....... 20 Установка необходимого базового программного обеспечения с помощью Anaconda.........................................................................................21 Подготовка.....................................................................................................21 Как это сделать..............................................................................................23 Дополнительно..............................................................................................25 Установка необходимого программного обеспечения с помощью Docker......26 Подготовка.....................................................................................................27 Как это сделать..............................................................................................27 Смотрите также.............................................................................................28 Взаимодействие с R через rpy2.........................................................................28 Подготовка.....................................................................................................28 Как это сделать..............................................................................................29 Дополнительно..............................................................................................35 Смотрите также.............................................................................................35 Демонстрация R magic с Jupyter.......................................................................36 Подготовка.....................................................................................................36 Как это сделать..............................................................................................36 Дополнительно..............................................................................................37 Смотрите также.............................................................................................38 Глава 2. Знакомство с NumPy, pandas, Arrow и Matplotlib........... 39 Использование pandas для обработки побочных эффектов вакцин.............40 Подготовка.....................................................................................................40 Как это сделать..............................................................................................40 Дополнительно..............................................................................................45 Смотрите также.............................................................................................45 Устранение подводных камней при использовании pandas DataFrames......46 Подготовка.....................................................................................................46 Как это сделать..............................................................................................47 Дополнительно..............................................................................................49 Уменьшение потребления памяти pandas DataFrames...................................49 Подготовка.....................................................................................................49
Как это сделать…...........................................................................................49 Смотрите также.............................................................................................52 Ускорение обработки pandas с помощью Apache Arrow.................................53 Подготовка.....................................................................................................53 Как это сделать..............................................................................................53 Дополнительно..............................................................................................55 NumPy как основа науки о данных и биоинформатики Python.....................56 Подготовка.....................................................................................................56 Как это сделать…...........................................................................................56 Смотрите также.............................................................................................59 Matplotlib как инструмент создания диаграмм...............................................59 Подготовка.....................................................................................................60 Как это сделать..............................................................................................60 Дополнительно..............................................................................................66 Смотрите также.............................................................................................67 Глава 3. Секвенирование следующего поколения....................... 68 Доступ в GenBank и перемещение по базам данных NCBI.............................69 Подготовка.....................................................................................................70 Как это сделать..............................................................................................70 Дополнительно..............................................................................................74 Смотрите также.............................................................................................75 Выполнение базового анализа последовательности......................................75 Подготовка.....................................................................................................75 Как это сделать..............................................................................................75 Дополнительно..............................................................................................77 Смотрите также.............................................................................................77 Работа с современными форматами последовательностей...........................77 Подготовка.....................................................................................................78 Как это сделать..............................................................................................79 Дополнительно..............................................................................................85 Смотрите также.............................................................................................86 Работа с данными выравнивания....................................................................86 Подготовка.....................................................................................................87 Как это сделать..............................................................................................87 Дополнительно..............................................................................................93 Смотрите также.............................................................................................93 Извлечение данных из файлов VCF..................................................................94 Подготовка.....................................................................................................94 Как это сделать..............................................................................................95 Дополнительно..............................................................................................96 Смотрите также.............................................................................................97 Изучение доступности генома и фильтрация данных SNP............................97 Подготовка.....................................................................................................97 Как это сделать..............................................................................................99 Дополнительно............................................................................................109 Смотрите также...........................................................................................109 6 Оглавление
Обработка данных NGS с помощью HTSeq....................................................110 Подготовка...................................................................................................110 Как это сделать............................................................................................111 Дополнительно............................................................................................113 Глава 4. Продвинутый процессинг данных NGS.........................114 Подготовка массива данных для анализа......................................................114 Подготовка...................................................................................................115 Как это сделать….........................................................................................115 Использование информации о менделевских ошибках для контроля качества.....................................................................................121 Как это сделать….........................................................................................121 Дополнительно….........................................................................................125 Анализ данных с помощью стандартной статистики...................................125 Как это сделать….........................................................................................126 Дополнительно….........................................................................................130 Поиск геномных особенностей из аннотаций секвенирования..................131 Как это сделать….........................................................................................131 Дополнительно….........................................................................................133 Метагеномика с QIIME 2 Python API..............................................................133 Подготовка...................................................................................................134 Как это сделать............................................................................................135 Дополнительно............................................................................................138 Глава 5. Работа с геномами............................................................139 Технические требования.................................................................................139 Работа с высококачественными референсными геномами.........................139 Подготовка...................................................................................................140 Как это сделать............................................................................................140 Дополнительно............................................................................................145 Смотрите также...........................................................................................145 Работа с референсными геномами низкого качества..................................146 Подготовка...................................................................................................146 Как это сделать............................................................................................147 Дополнительно............................................................................................151 Смотрите также...........................................................................................152 Перебор аннотаций генома............................................................................152 Подготовка...................................................................................................152 Как это сделать............................................................................................152 Дополнительно............................................................................................154 Смотрите также...........................................................................................155 Извлечение генов из референса с помощью аннотаций..............................155 Подготовка...................................................................................................155 Как это сделать............................................................................................155 Дополнительно............................................................................................158 Смотрите также...........................................................................................158 Поиск ортологов с помощью Ensembl REST API............................................159 Подготовка...................................................................................................159 Оглавление 7
Как это сделать............................................................................................159 Дополнительно............................................................................................162 Получение информации об онтологии генов из Ensembl............................162 Подготовка...................................................................................................162 Как это сделать............................................................................................163 Дополнительно............................................................................................166 Смотрите также...........................................................................................167 Глава 6. Популяционная генетика.................................................168 Управление наборами данных с помощью PLINK........................................169 Подготовка...................................................................................................170 Как это сделать............................................................................................171 Дополнительно............................................................................................175 Смотрите также...........................................................................................176 Использование sgkit для генетического анализа популяции с помощью xarray.............................................................................................176 Подготовка...................................................................................................176 Как это сделать............................................................................................176 Дополнительно............................................................................................180 Изучение набора данных с помощью sgkit....................................................180 Подготовка...................................................................................................180 Как это сделать............................................................................................180 Дополнительно............................................................................................184 Смотрите также...........................................................................................184 Анализ структуры популяции........................................................................184 Подготовка...................................................................................................184 Как это сделать............................................................................................185 Смотрите также...........................................................................................191 Выполнение PCA..............................................................................................191 Подготовка...................................................................................................191 Как это сделать............................................................................................192 Дополнительно............................................................................................194 Смотрите также...........................................................................................194 Исследование структуры популяции с admixture..........................................194 Подготовка...................................................................................................194 Как это сделать............................................................................................195 Дополнительно............................................................................................199 Глава 7. Филогенетика.....................................................................200 Подготовка набора данных для филогенетического анализа......................200 Подготовка...................................................................................................200 Как это сделать............................................................................................201 Дополнительно............................................................................................206 Смотрите также...........................................................................................206 Выравнивание генетических и геномных данных.......................................207 Подготовка...................................................................................................207 Как это сделать............................................................................................207 8 Оглавление
Сравнение последовательностей...................................................................209 Подготовка...................................................................................................209 Как это сделать............................................................................................209 Дополнительно............................................................................................214 Реконструкция филогенетических деревьев.................................................214 Подготовка...................................................................................................214 Как это сделать............................................................................................215 Дополнительно............................................................................................218 Рекурсивная игра с деревьями.......................................................................219 Подготовка...................................................................................................219 Как это сделать............................................................................................219 Дополнительно............................................................................................224 Визуализация филогенетических данных.....................................................224 Подготовка...................................................................................................224 Как это сделать............................................................................................224 Дополнительно............................................................................................229 Глава 8. Использование Protein Data Bank..................................230 Поиск белка во множественных базах данных..............................................231 Подготовка...................................................................................................231 Как это сделать............................................................................................231 Дополнительно............................................................................................235 Представляем Bio.PDB.....................................................................................235 Подготовка...................................................................................................236 Как это сделать............................................................................................236 Дополнительно............................................................................................240 Извлечение дополнительной информации из файла PDB...........................240 Подготовка...................................................................................................240 Как это сделать............................................................................................240 Вычисление молекулярных расстояний в файле PDB...................................244 Подготовка...................................................................................................244 Как это сделать............................................................................................245 Выполнение геометрических операций........................................................249 Подготовка...................................................................................................249 Как это сделать............................................................................................249 Дополнительно............................................................................................252 Анимация с PyMOL..........................................................................................252 Подготовка...................................................................................................252 Как это сделать............................................................................................253 Дополнительно............................................................................................258 Парсинг файлов mmCIF с помощью Biopython.............................................258 Подготовка...................................................................................................259 Как это сделать............................................................................................259 Дополнительно............................................................................................260 Глава 9. Конвейеры биоинформатики..........................................261 Представляем серверы Galaxy........................................................................262 Оглавление 9
Подготовка...................................................................................................262 Как это сделать….........................................................................................262 Дополнительно............................................................................................264 Доступ к Galaxy с помощью API......................................................................264 Подготовка...................................................................................................264 Как это сделать….........................................................................................266 Развертывание конвейера анализа вариантов с помощью Snakemake.......272 Подготовка...................................................................................................272 Как это сделать….........................................................................................273 Дополнительно............................................................................................277 Развертывание конвейера анализа вариантов с помощью Nextflow...........278 Подготовка...................................................................................................279 Как это сделать….........................................................................................279 Дополнительно............................................................................................283 Глава 10. Машинное обучение в биоинформатике....................284 Знакомство со scikit-learn на примере PCA...................................................285 Подготовка...................................................................................................285 Как это сделать............................................................................................285 Дополнительно............................................................................................287 Использование кластеризации по PCA для классификации образцов........287 Подготовка...................................................................................................288 Как это сделать............................................................................................288 Дополнительно............................................................................................293 Изучение признаков рака молочной железы с помощью деревьев принятий решений..........................................................................................293 Подготовка...................................................................................................294 Как это сделать............................................................................................294 Прогнозирование диагностики рака молочной железы с использованием методов случайного леса.................................................297 Подготовка...................................................................................................297 Как это сделать….............................................................................................297 Дополнительно............................................................................................299 Глава 11. Параллельная обработка с Dask и Zarr.......................300 Чтение геномных данных с помощью Zarr....................................................301 Подготовка...................................................................................................301 Как это сделать............................................................................................301 Дополнительно............................................................................................306 Смотрите также...........................................................................................306 Параллельная обработка данных с использованием многопроцессорности Python.........................................................................306 Подготовка...................................................................................................307 Как это сделать............................................................................................307 Дополнительно............................................................................................308 Смотрите также...........................................................................................309 10 Оглавление