Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Математика и загадочный генетический код

Покупка
Основная коллекция
Артикул: 233700.05.01
Доступ онлайн
от 352 ₽
В корзину
Монография посвящена актуальным проблемам современной генетики и вопросам анализа и распознавания генетического кода. В области генетики остается много неизвестного и неисследованного, особенно в системе генетического кодирования. В книге проведен сравнительный анализ методов распознавания. Отмечается, что байесовский подход является основой процедур индуктивного вывода, как оптимальный для всего класса задач распознавания и может быть широко использован для решения задач в различных отраслях науки, в том числе в биологии и генетике. Приведен пример байесовской процедуры распознавания для прогнозирования вторичной структуры белка на основе булевых функций. Для научных работников, студентов биологических специальностей и математиков, а также для широкого круга читателей, интересующихся проблемами статистической теории машинного обучения, биоинформатики и генетики
31
Гупал, В. М. Математика и загадочный генетический код : монография / В.М. Гупал. — 2-е изд. — Москва : РИОР : ИНФРА-М, 2023. — 288 с. — (Научная мысль). — https://doi.org/10.12737/6032. - ISBN 978-5-369-01404-2. - Текст : электронный. - URL: https://znanium.com/catalog/product/1913981 (дата обращения: 22.11.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов
В.М. Г
упал
МАТЕМАТИКА И ЗАГАДОЧНЫЙ 
МАТЕМАТИКА И ЗАГАДОЧНЫЙ 
ГЕНЕТИЧЕСКИЙ КОД
ГЕНЕТИЧЕСКИЙ КОД
Монография
Монография
Второе издание
Второе издание
Москва 
РИОР
ИНФРА-М


ФЗ 
№ 436-ФЗ
Издание не подлежит маркировке 
в соответствии с п. 1 ч. 2 ст. 1
УДК 519.1:575(075.4)
ББК 22.1:28.04
         Г93
А в т о р :
Гупал В.М. — профессиональный преподаватель и военнослужащий, 
закончил Житомирское военное училище войск ПВО и дважды военную инженерную академию им. Ф.Э. Дзержинского (инженерный 
и командный факультеты). В течение 10 лет работал в военном представительстве, осуществляя приемку приборов командно-измерительных комплексов систем дальнего космоса «Марс», «Венера» и спутников связи «Молния». Последние годы службы — в центральном 
аппарате Министерства обороны.
Круг интересов — исследования в области сложных систем с использованием теории вероятностей и математической статистики.
Автор монографий по методам распознавания сложных систем, 
математическим методам анализа и распознавания генетической информации и статей в журналах «Приборы и системы. Управление, контроль, диагностика», «Компетентность».
Гупал В.М.
Г93
Математика и загадочный генетический код : монография / В.М. Г
упал. — 2-е изд. — Москва : РИОР : ИНФРА-М, 2023. — 288 с. — (Научная мысль). — DOI: https://doi.org/10.12737/6032
ISBN 978-5-369-01404-2 (РИОР)
ISBN 978-5-16-010519-2 (ИНФРА-М, print)
ISBN 978-5-16-102538-3 (ИНФРА-М, online)
Монография посвящена актуальным проблемам современной генетики и 
вопросам анализа и распознавания генетического кода. В области генетики 
остается много неизвестного и неисследованного, особенно в системе генетического кодирования. В книге проведен сравнительный анализ методов распознавания. Отмечается, что байесовский подход является основой процедур 
индуктивного вывода, как оптимальный для всего класса задач распознавания 
и может быть широко использован для решения задач в различных отраслях 
науки, в том числе в биологии и генетике. Приведен пример байесовской процедуры распознавания для прогнозирования вторичной структуры белка на 
основе булевых функций.
Для научных работников, студентов биологических специальностей и математиков, а также для широкого круга читателей, интересующихся проблемами статистической теории машинного обучения, биоинформатики и генетики.
УДК 519.1:575(075.4)
ББК 22.1:28.04
ISBN 978-5-369-01404-2 (РИОР)
ISBN 978-5-16-010519-2 (ИНФРА-М, print)
ISBN 978-5-16-102538-3 (ИНФРА-М, online)
© Гупал В.М.


ПРЕДИСЛОВИЕ
Предлагаемая читателю книга посвящена математическим методам
распознавания в области генетики. Цель книги привлечь внимание
людей к этой науке, учитывая, что в основной массе население России
продолжает оставаться генетически неграмотным. Не случайно академик Константин Георгиевич Скрябин отмечал, что: «Кто владеет
генетической информацией, будет владеть миром» [1].
Генетика продолжает оставаться наукой, хранящей в себе множество тайн,  особенно загадочным является ее генетический код.
Становится все более очевидным, что генетика как раздел биологии не сможет обойтись без такой точной науки как математика.
Научное и практическое направления исследований в области генетики сформировались в конце XIX ² начале XX в. В 1953 г. Д. Уотсон и Ф. Крик опубликовали открытие, которое инициировало целую
эпоху исследований в области науки о жизни. Это было открытие
двойной спирали структуры ДНК.
Практическая медицинская генетика начала активно развиваться в
мире и в России сравнительно недавно, в конце 80-х ² начале 90-х гг.
ХХ в., когда стартовал глобальный международный проект «Геном
человека». За это время в науке произошел грандиозный прорыв, оказавший заметное влияние на медицину. Однако в России используются далеко не все возможности, предоставленные современной наукой
[2].
В 2013 г. исполнилось 10 лет с момента объявления о завершении
секвенирования генома человека.
Результатом проекта «Геном человека» явилась разработка новых,
более совершенных, методов исследований, в которых основная масса
процессов полностью автоматизирована. Участие в проекте «Геном
человека» значительного числа специалистов США, Китая, Франции,
Германии, Великобритании и Японии  предусматривало, что расшифровка нуклеотидной последовательности ДНК, секвенирование и полное картирование (выяснение локализации) всех генов человека смогут решить фундаментальные проблемы генетики. Финансирование
этих работ в нашей стране было урезано, и реального участия в секвенировании Россия не принимала. Программа геномных исследований
в нашей стране была полностью перестроена и сконцентрирована на
новой области ² биоинформатике, которая пытается с помощью математических методов понять и осмыслить все, что уже расшифровано. Целью программы «Геном человека» являлось в первую очередь
изучение строения генома Homo Sapiens. Проект также был направлен
на изучение геномов других организмов, являющихся модельными
объектами биологических экспериментов. Кроме секвенирования и
картирования целями проекта являлись также:
3


1) создание банка и баз данных полноразмерных, клонированных
ДНК;
2) исследование функций некодирующих последовательностей;
3) изучение пространственно-временных параметров генной экспрессии;
4) изучение мутагенеза;
5) изучение экспрессии генов на уровне продукта;
6) развитие технологий, ускоряющих и удешевляющих анализ [3].
В 2004 г. исследователи из Международного Консорциума по секвенированию человеческого генома проекта «Геном человека» огласили число генов в человеческом геноме ²  от 20  до 25  тыс.  Ранее
предсказывалось от 3 до 40 тыс., а в начале проекта эта цифра доходила до 2 млн.
Реализация проекта «Геном человека» способствовала прогрессу
молекулярной биологии и генетики в целом. Были усовершенствованы методическая и приборная база науки. Проект способствовал развитию таких направлений генетики, как геномика и протеомика.
С самого начала работ по геномному проекту страны-участники договорились о доступности всей получаемой информации, независимо от
их вклада и государственной принадлежности. В настоящее время
существуют мощные базы данных, доступных любому пользователю.
Сейчас в базах данных находится несколько миллиардов нуклеотидных пар человеческого генома и геномов других живых организмов.
В 2003 г. было объявлено о «расшифровке» «Генома человека».
Однако понятие «расшифрован» следует считать неполным, так как
наука не выяснила все загадки генетического кода. Расшифровать это
значит понять смысл генетической информации. На самом деле под
расшифровкой в данном случае понимают определение, какие конкретные нуклеотиды и в каком порядоке формируют гены и, следовательно, какие именно белки (с какой последовательностью аминокислот) кодируют эти гены. Причем пока прояснилась кодирующая часть
генома (и то не вся), а некодирующая часть остается загадкой или почти загадкой. Существует значительный разрыв между успехами в
области структурного анализа и функциональными результатами.
Ученые понимают, что это всего лишь первый этап, который получил
название «структурный». Поэтому неизбежно должен последовать
второй, более важный этап ² «функциональный» ² этап по изучению функции генов.
Сколько времени займет подлинная расшифровка генома человека,
пока неизвестно. Остается невыясненным происхождение 20-ти аминокислот. Имеется и ряд других вопросов, на которые сейчас практически никто не может ответить:
x
Почему генетический код универсален"
x
Почему алфавит генетического языка четырехбуквенный"
x
Почему генетический код имеет триплетную структуру"
4


x
Почему существуют именно такие набор и размеры аминокислот, а не иные"
x
Зачем в белках присутствуют два типа аминокислот ² полярные и неполярные"
x
Почему код наделен именно такой системой вырожденности"
x
Почему генетический код неперекрывающийся, т.е. почему
трансляционный аппарат клетки, считывающий информацию,
имеет дискрету, равную трем, а не единице"
x
Случайно или закономерно появление диалектов (михондрийной версии)"
Попытка найти адекватный подход к этой проблеме ² насущная
потребность ученых.
Исследователям еще предстоит большая работа по описанию (аннотации) генома ² выявлению всех генов, установлению их функций,
характеристик состояний генов, выявлению болезнетворных  мутаций. Необходимо детально разобраться в том, каким образом и когда
гены активируются, как содержащиеся в них инструкции определяют
свойства белков. Для такого описания необходима более высокая точность определения последовательности. В настоящее время ошибки
при непосредственном прочтении данного фрагмента составляют
примерно 0,05-2 в зависимости от разных факторов. Благодаря высокой скорости анализа данная последовательность может быть прочитана много раз и, таким образом, ошибки прочтения снижены. При
этом точность определения последовательности в конечном варианте
может составлять одну ошибку на 100 000 пар оснований. Это вполне
сопоставимо с точностью, достигаемой при использовании классических методов. Однако когда речь идет о таком громадном геноме, как
геном человека, 3 млрд пар оснований, то такая частота ошибок означает, что следует ожидать 30 000 ошибок просто от неверных прочтений [4].
Самая большая проблема, с которой столкнулись ученые, ² это
огромные неизвестные участки в ДНК. Это участки, которые не содержат генов, а значит, не кодируют белков. Было непонятно, для чего
они нужны. Одни генетики называли их «мусором», другие не соглашались с этим и считали, что эволюция, наоборот, избавляется от
«мусора», а не копит его. Существует мнение, что наличие большого
количества некодирующих ДНК стабилизировало геном в плане мутаций (снизилась частота «попадания» мутации на действующий ген).
По другой из версий, некодирующая белок ДНК, по крайней мере частично, используется при производстве различных видов.
Однако чем больших достижений добиваются исследователи, тем
все сложнее им получить новые результаты и тем больше возникает
вопросов, на которые предстоит ответить.
5


Неудивительно, что руководитель проекта «Геном человека»
Френсис Коллинз, заменивший в апреле 1993 г. Джеймса Уотсона,
назвал завершение секвенирования ДНК лишь «концом начала».
Однако не следует и приуменьшать значение «структурного» этапа
в изучении генома человека. Почти все цели, которые ставил перед
исследователями проект, были достигнуты.
При расшифровке генома человека были использованы два научных подхода, в основе которых лежит анализ последовательностей
нуклеотидных оснований. Каждый из этих подходов имеет свои преимущества и недостатки. Они дополняют друг друга и свидетельствуют об их достоверности.
Были разработаны компьютерные программы для анализа данных,
так как сами данные без таких программ интерпретировать практически невозможно. Пройден еще один этап на пути к завершению проекта «Геном человека». В 2007 г. высшей мировой научной награды
удостоились американские и английские ученые за изобретение методики, позволяющей вносить изменения в гены живых клеток.
Еще несколько лет назад у ученых были проблемы с выделением
из образца ткани необходимой цепочки. Ускорить процесс распознавания нужных участков ДНК помогла закономерность, которая ранее
не была замечена учеными: вместо того, чтобы выделять геном из
ядра клетки, можно выделить меньшую цепочку из митохондрии ²
одного из компонентов клетки. Это связано с тем, что структура девиантных кодов (кодов, отклоненных от стандартной структуры) способна уменьшать размер всего генома. Подобными кодами записаны,
как правило, митохондриальные ДНК. Такая цепочка практически не
будет содержать «пассивных» участков, наличие которых существенно замедляет процесс идентификации ДНК.
В 2012 г. лауреатами Нобелевской премии по медицине и физиологии стали специалисты по клеточной биологии британец Джон Гердон и японец Синья Яманака, чьи работы касаются перепрограммирования генетической информации, управляющей развитием живых
клеток.
Человек создает своими руками и разумом новые формы живых
организмов, которые нередко не только не уступают созданным природой, но и превосходят их. Сбываются пророческие слова И.В. Мичурина: «Человек может и должен делать лучше природы».
Академик Н.П. Дубинин писал: «Решить задачу получения
направленных наследственных изменений ² значит научиться управлять жизнью. Это наиболее увлекательная и самая насущная задача
современного естествознания. Такая задача будет решена совместными усилиями генетики, цитологии, химии, физики, кибернетики и
других наук. Решение этой задачи отдаст жизнь в руки человечества».
Современную математику следует считать объединением дедуктивного и индуктивного подходов.
6


Ключевым моментом обоснования процедур распознавания или
индуктивного вывода является наличие всех классов в выборке и
усреднение погрешности по множеству обучающих выборок [5].
На первый взгляд кажется, что методы биологического исследования (поскольку с их помощью осуществляется опытное познание) могут быть исключительно индуктивными. Так, именно они рассматривались в свое время «всеиндуктивистами», по поводу которых Энгельс метко заметил, что эти люди «увязли в противоположности
между индукцией и дедукцией» [6].
Дедуктивное построение биологической теории с помощью аксиоматического метода предполагает,  что из всей совокупности научных
знаний можно вычленить ряд таких положений, истинность которых
принимается без доказательства.
В современной науке фундаментальную роль играют такие понятия, как структура, симметрия и пропорция, прежде возникшие в математике.
Математике удавалось успешно справляться с задачами, которые
ставила перед нею жизнь. Математика сыграла свою особую роль и в
процессе генетических исследований. Большая заслуга Г. Менделя
заключалась в том, что он смог найти удивительно простой способ
выразить наблюдавшиеся в скрещивании гороха типы наследственных форм и их числовые отношения в математических формулах.
Однако процесс развития математики не всегда проходил гладко.
Были периоды спада и подъема математической мысли.
И все же сочетание сложнейшей внутренней структуры математики с реальными прикладными задачами и есть та сила, которая движет
вперед эту науку.
В поисках методов моделирования сложных систем исследователи
обращаются к различным разделам математики. Методологическим
ориентиром их действий служит теорема К. Гёделя о неполноте, свидетельствующая о невозможности полной формализации знаний, что
приводит к необходимости применения сочетания не только математических, но и эвристических методов в ходе проведения системных
исследований [7].
В настоящее время обретают подъем в биологии и генетике цепи
Маркова и наряду с другими видами математических моделей занимают вполне достойное место. Проведенные числовые расчеты на
основе информации из Всемирного банка белковых структур подтвердили высокую эффективность байесовских процедур распознавания на моделях цепей Маркова в задачах распознавания вторичной
структуры белков.
В дальнейших исследованиях существенным прорывом должно
стать создание действующей полной математической модели живой
клетки, так как это будет предсказательная модель. Для создания такой модели необходимы самые современные математические методы
7


и в первую очередь методы оптимальным образом распознающие и
перерабатывающие информацию.
Первую в мире полную компьютерную модель живого организма
уже удалось создать Маркусу Коверту и его коллегам по Стэнфорду.
Образцом для создания такой модели стала бактерия Mycoplasma
genitalium ² обладатель одного из самых коротких геномов. В модель
было включено почти 2000 установленных экспериментально связей,
реакций и прочих свойств, характерных для этой бактерии на разных
стадиях ее жизненного цикла. Многие явления в живых организмах
оказываются результатом взаимодействия сотен и тысяч  генов. В будущем CAD-моделирование живых организмов может стать одним из
самых масштабных проектов в науке [8].
Основой при написании книги послужили математические методы
диагностики  технических систем и генетической информации с использованием байесовской процедуры распознавания, изложенные в
монографиях [9, 10] и статьях в журналах [11, 12].
В силу дискретного характера генетического кода естественно использовать его с позиций современной теории дискретных сигналов.
Содержание излагаемого материала знакомит читателя с математическими и логическими методами анализа и распознавания. Описание
этих методов ведется в терминах булевой алгебры.
Полагаɸ, что призыв к глубокому продуктивному изучению в области генетики будет услышан. Вероятнее всего, со временем будущее генетики будет понятным населению многих стран, а самое главное ² доступным, так как стоимость генетического тестирования
уменьшится во много раз. Тогда генетика осуществит прорыв в массы ² так же как это сделали в последние годы информационные технологии. Возможно, что через два ² три десятка лет у большинства
людей будет собственный генетический паспорт.
Выражаю благодарность членам семьи ² дочери Елене Витальевне, внуку Максиму Андреевичу Крупским и жене Екатерине Алексеевне Гупал за активное участие в издании монографии и правке рукописи.


ГЛАВА 1. СОВРЕМЕННАЯ МАТЕМАТИКА
КАК ОБЪЕДИНЕНИЕ ДЕДУКТИВНОГО
И ИНДУКТИВНОГО ПОДХОДОВ
1.1. Аксиоматический метод
Аксиоматический метод построения научной теории заключается в
том, что некоторые исходные положения, называемые аксиомами,
принимаются «без доказательства», а все утверждения этой теории
выводятся из них путем рассуждений.
Аксиоматический метод в математике впервые был применен Евклидом в его книге «Начала», где были изложены основы элементарной геометрии, теории чисел, алгебры и других разделов античной
математики.
Некоторые определения в «Началах» Евклида являются простым
описаниями исходных понятий. Например: «Точка есть то, что не
имеет частей», «Линия же длина без ширины», «Прямая линия есть та,
которая равно расположена по отношению к точкам на ней».
Очевидно, что такие «определения» вряд ли могут быть использованы в математических доказательствах. Однако наряду с ними имеются определения, являющиеся таковыми и в современном смысле.
Например: «Параллельные суть прямые, которые, находясь в одной
плоскости, и будучи неограниченно продолжены в обе стороны, ни с
той, ни с другой стороны между собой не встречаются».
Вслед за определениями идут постулаты, в которых утверждается
возможность выполнения элементарных построений.
За постулатами в «Началах» Евклида приводятся аксиомы ²
предложения о свойствах отношений равенства и неравенства.
На основе определений, постулатов и аксиом путем доказательства
выводятся новые геометрические утверждения ² теоремы.
Поскольку предполагалось, что геометрия есть описание реального
физического пространства, вполне естественно, что Евклид полагал
значение таких понятий, как «точка», «прямая», достаточно ясным, а
относящиеся к ним постулаты и аксиомы считал «самоочевидными
истинами».
Построение моделей геометрии Лобачевского имело принципиальное значение для развития аксиоматического метода, поскольку
оно привело к осознанию возможности рассматривать аксиоматическую теорию чисто формально, т.е. не предполагая заранее какое-либо
определенное значение основных понятий. Более того, мы можем выбирать значения этих понятий каким угодно образом, лишь бы при
этом оказывались истинными данные аксиомы.
В XIX в. аксиоматический метод получил широкое распространение в математике. Д. Пеано (1891) предложил аксиоматику для нату9


рального ряда. Были построены аксиоматические теории для действительных чисел. Наконец, была выработана система аксиом для теории
множеств. Особенно широкое распространение формальные аксиоматики получили в современной алгебре, где система аксиом по существу выступает в роли определения той или иной алгебраической
структуры [13].
1.2. Обоснования индуктивного метода
Нельзя сказать, что аксиоматически-дедуктивный метод был единственным подходом в изучении явлений и процессов реального мира.
Альтернативой ему, является индуктивный подход, как способ рассуждений от частного к общему.
«Матерь заблуждений и бедствий всех наук, ² писал Ф. Бэкон, ²
есть тот способ открытия и проверки, когда сначала строятся самые
общие основания, а потом к ним приспосабливаются и посредством
их проверяются средние аксиомы». Согласно Бэкону, истинный путь
науки ² это путь, который «выводит аксиомы из ощущений и частностей, и, поднимаясь непрерывно и постепенно, пока, наконец, не
приходит к наиболее общим аксиомам. Это путь истинный, но не испытанный». Бэкон выдвигает и обосновывает образ новой «истинной»
науки. Ее основу должны составить систематические наблюдения и
эксперимент, а ее метод есть «построение понятий и аксиом через истинную индукцию».
Ф. Бэкон видит главную задачу в разработке таких правил, которые позволяли бы ученому, опираясь на результаты наблюдения, открывать законы природы. Именно в них, а не в поисках последних
оснований природы, заключается, по Бэкону, «вся польза и пригодность практики».
Ссылка на интеллектуальную интуицию как на способ усмотрения
истины в геометрии и тем более в других науках была сильно ослаблена. В самом деле, постулат Лобачевского о том, что через точку,
лежащую вне прямой, можно провести бесконечное количество прямых, параллельных данной, противоречит всякой наглядной очевидности. Тем более что постулат параллельности в частной римановой
геометрии утверждал прямо противоположное именно, что через точку, лежащую вне данной прямой, нельзя провести ни одной прямой,
параллельной данной [5].
Существовало несколько основных альтернативных подходов к
обоснованию индукции. Это многообразие подходов вызвано как
неоднозначностью понимания природы индукции, так и различием аргументов, выдвигающихся в защиту надежности индукции как определенного типа вывода.
Заключения индуктивных выводов всегда утверждают больше, чем
позволяют посылки сами по себе. Поэтому об индуктивном выводе
10


Доступ онлайн
от 352 ₽
В корзину