Книжная полка Сохранить
Размер шрифта:
А
А
А
|  Шрифт:
Arial
Times
|  Интервал:
Стандартный
Средний
Большой
|  Цвет сайта:
Ц
Ц
Ц
Ц
Ц

Математические методы анализа дискретных структур генетического кода

Покупка
Основная коллекция
Артикул: 392100.01.99
Доступ онлайн
от 404 ₽
В корзину
Монография посвящена актуальным проблемам современной генетики и вопросам анализа и распознавания дискретных структур генетического кода. В области генетики остается много неизвестного и неисследованного, особенно в системе генетического кодирования. В книге проведен сравнительный анализ методов распознавания. Анализируется теория статистического оценивания дискретных процедур распознавания. Отмечается, что байесовский подход является основой процедур индуктивного вывода, как оптимальный для всего класса задач распознавания, и может быть широко использован для решения задач в различных отраслях науки, в том числе в биологии и генетике. Обсуждается применение байесовской процедуры распознавания для предсказания вторичной структуры белков. Представлен взгляд автора на механизм формирования генетического кода. Для научных работников, студентов биологических специальностей и направлений подготовки, математиков, а также для широкого круга читателей, интересующихся проблемами генетики.
Гупал, В. М. Математические методы анализа дискретных структур генетического кода : монография / В. М. Гупал. - Москва : ИЦ РИОР, НИЦ ИНФРА-М, 2015. - 334 с. (Научная мысль). - ISBN 978-5-369-01462-2. - Текст : электронный. - URL: https://znanium.com/catalog/product/516085 (дата обращения: 24.07.2024). – Режим доступа: по подписке.
Фрагмент текстового слоя документа размещен для индексирующих роботов. Для полноценной работы с документом, пожалуйста, перейдите в ридер.
В.М. Гупал

МАТЕМАТИЧЕСКИЕ 
МЕТОДЫ  АНАЛИЗА

ДИСКРЕТНЫХ  СТРУКТУР
ГЕНЕТИЧЕСКОГО  КОДА

Монография

Москва 
РИОР
ИНФРА-М

УДК 519.1:575(075.4)
ББК 22.1:28.04
          Г93

УДК 519.1:575(075.4)
ББК 22.1:28.04

Гупал В.М.
Математические методы анализа дискретных структур генетического 
кода: Монография [Электронный ресурс]. — М.: РиоР: иНФРА-М, 
2015. — 334 с. — (Научная мысль). — www.dx.doi.org/10.12737/5849.

ISBN 978-5-369-01462-2 (РиоР)
ISBN 978-5-16-103512-2 (иНФРА-М, online)

Монография посвящена актуальным проблемам современной генетики и 
вопросам анализа и распознавания дискретных структур генетического кода.  
В области генетики остается много неизвестного и неисследованного, особенно 
в системе генетического кодирования. В книге проведен сравнительный анализ 
методов распознавания. Анализируется теория статистического оценивания дискретных процедур распознавания. отмечается, что байесовский подход является 
основой процедур индуктивного вывода, как оптимальный для всего класса задач 
распознавания, и может быть широко использован для решения задач в различных отраслях науки, в том числе в биологии и генетике. обсуждается применение 
байесовской процедуры распознавания для предсказания вторичной структуры 
белков. Представлен взгляд автора на механизм формирования генетического 
кода.
Для научных работников, студентов биологических специальностей и направлений подготовки, математиков, а также для широкого круга читателей, 
интересующихся проблемами генетики.

ISBN 978-5-369-01462-2 (РиоР)
ISBN 978-5-16-103512-2 (иНФРА-М, online)
© Гупал В.М., 2015

Г93

ТК 392100 — 516085

А в т о р :
Гупал В.М. — профессиональный преподаватель и военнослужащий. 
Закончил военное училище войск ПВо и дважды военную инженерную 
академию им. Ф.Э. Дзержинского (инженерный и командный факультеты). 
В течение 10 лет работал в военном представительстве, осуществляя приемку 
приборов командно-измерительных комплексов систем дальнего космоса 
«Марс», «Венера», «Прогноз» и спутников связи «Молния». Последние годы 
служил в центральном аппарате Министерства обороны.
Круг интересов — исследования в области сложных систем с использованием 
теории вероятностей и математической статистики.
Занимаясь космической тематикой, проявил интерес к происхождению 
жизни и генетического кода и желанию оценить существующие в науке 
представления, касающиеся этой проблемы. 
Автор трех монографий по методам распознавания сложных систем, 
математическим методам анализа и распознавания генетической информации 
и статей в журналах «Приборы и системы. Управление, контроль, диагностика», 
«Компетентность».

ФЗ 
№ 436-ФЗ
Издание не подлежит маркировке 
в соответствии с п. 1 ч. 2 ст. 1

ПРЕДИСЛОВИЕ 
 
                                                                  Не смейтесь надо мной деленьем шкал, 
                                                                                            Естествоиспытателя приборы! 
                                                                                            Я, как ключи к замку, вас подбирал, 
                                                                                            Но у природы крепкие затворы. 

                                                                                                     Гете «Фауст»,  
                                                                                              (Перевод Б. Пастернака)   

     Человек не успокоится, пока не решит проблему своего происхож- 
дения. Одной из ступеней на этом пути является  решение проблемы 
происхождения жизни и формирования генетического кода.   
     Предлагаемая читателю книга посвящена вопросам анализа дискретных структур генетического кода и актуальным проблемам современной генетики. Цель книги привлечь внимание к этой науке, учитывая, что в основной массе население России продолжает оставаться 
генетически неграмотным [1]. 
     Генетика одна из самых новых наук – она хранит в себе множество 
тайн, особенно загадочным является ее генетический код.  
     Генетика влияет на физиологические и функциональные особенности человека, на его здоровье и продолжительность жизни. 
      В 1953 г. Д. Уотсон и Ф. Крик опубликовали открытие, которое 
инициировало целую эпоху исследований в области науки о жизни. 
Это было открытие двойной спирали структуры ДНК. 
      В 2013 г. исполнилось 10 лет с момента объявления о завершении 
проекта « Генома человека». За это время в науке произошел грандиозный прорыв, оказавший заметное влияние на медицину. Однако, в 
России используются далеко не все возможности, предоставленные 
современной наукой [2]. 
     Целью программы «Геном человека» являлось в первую очередь 
изучение строения генома Homo Sapiens. Проект также был направлен 
на изучение геномов других организмов. Кроме секвенирования и 
картирования, целями проекта являлись также: создание банка и баз 
данных полноразмерных, клонированных ДНК; исследование функций некодирующих последовательностей; изучение пространственновременных параметров генной экспрессии; изучение мутагенеза;     
изучение экспрессии генов на уровне продукта; развитие технологий, 
ускоряющих и удешевляющих анализ [3].  
      Результатом проекта «Геном человека» явилась разработка новых, 
более совершенных, методов исследований, в которых основная масса 
процессов полностью автоматизирована. Предусматривалось, что расшифровка нуклеотидной последовательности ДНК, секвенирование и 
полное картирование всех генов человека смогут решить фундаментальные проблемы генетики.  Программа геномных исследований в 
нашей стране была сконцентрирована на  биоинформатике, которая 

пытается с помощью математических методов понять и осмыслить 
все, что уже расшифровано.   
   В 2004 г. исследователи из Международного Консорциума по секвенированию человеческого генома проекта «Геном человека» огласили  число генов в человеческом геноме – от 20 до 25 тыс. Ранее 
предсказывалось от 3 до 40 тыс.  
  С самого начала работ по геномному проекту страны-участники 
договорились о доступности всей получаемой информации, независимо от их вклада и государственной принадлежности. В настоящее 
время существуют мощные базы данных, открытые любому пользователю. 
  Проект «Геном человека»  это всего лишь первый  этап, который 
получил название «структурный». Поэтому неизбежно должен последовать второй,  более  важный  этап   –   «функциональный» – этап  по  
изучению функции генов. В этом направлении уже сделаны шаги. 
Так, международный консорциум ученых из 20 стран рапортовал на 
страницах Nature о завершении очередного этапа проекта FANTOM, 
цель которого – составить карту генов, работающих в различных тканях и клетках млекопитающих, в первую очередь человека. В результате масштабных исследований такую карту составили: теперь можно 
увидеть не только где и какие гены работают, но и как они регулируются – то есть понять, как те или иные клетки образуют свою индивидуальность. Составленный атлас имеет огромный потенциал как 
для исследований, так и для развития индивидуальной регенеративной медицыны. 
      Однако  пока неизвестно как возник матричный синтез белков? 
Имеется и ряд других вопросов, на которые сейчас практически никто 
не может ответить: почему генетический код универсален?; почему 
алфавит генетического языка четырёхбуквенный?; почему генетический код имеет триплетную структуру?; почему существует именно 
такой набор и размеры аминокислот, а не иные?; зачем в белках присутствуют два типа аминокислот - полярные и неполярные?; почему 
код наделен именно такой системой вырожденности?; почему 
генетический код неперекрывающийся, т.е. почему трансляционный 
аппарат клетки, считывающий информацию, имеет дискрету, равную 
трем, а не единице?;  Случайно или закономерно появление диалектов 
(михондрийной версии)?  
  Из примерно 30 миллионов видов существующих сейчас на Земле, 
обнаружен один и тот же генетический код. Но лишь один вид − человек обладает разумом, самосознанием, речью и  это тоже загадка. 
  Попытка найти адекватный подход к этой проблеме – насущная 
потребность ученых. 
  Исследователям еще предстоит большая работа по описанию (аннотации) генома — выявлению всех генов, установлению их функций, 
характеристик состояний генов, выявлению болезнетворных  мута
ций. Необходимо детально разобраться в том, каким образом и когда 
гены активируются, как содержащиеся в них инструкции определяют 
свойства белков. Для такого описания необходима более высокая точность определения последовательности. В настоящее время ошибки 
при непосредственном прочтении данного фрагмента составляют 
примерно 0,05 – 2% в зависимости от разных факторов. Благодаря высокой скорости анализа данная последовательность может быть прочитана много раз и, таким образом, ошибки прочтения снижены. При 
этом точность определения последовательности в конечном варианте 
может составлять одну ошибку на 100000 пар оснований. Это вполне 
сопоставимо с точностью, достигаемой при использовании классических методов. Однако, когда речь идет о таком громадном геноме, как 
геном человека, 3 миллиарда пар оснований, то  такая частота ошибок означает, что следует ожидать 30000 ошибок просто от неверных 
прочтений [4]. 
     Чем больших достижений добиваются исследователи, тем все сложнее  им  получить новые результаты и тем больше возникает вопросов, на которые предстоит ответить.  
    Однако, не следует и приуменьшать значение «структурного» этапа 
в изучении генома человека. Почти все цели, которые ставил перед 
исследователями проект, были достигнуты. 
     При расшифровке генома человека, были использованы разные 
научные подходы, в основе которых лежит анализ последовательностей нуклеотидных оснований. Были разработаны компьютерные 
программы для анализа данных, так как сами данные без таких программ интерпретировать практически невозможно.  
Еще несколько лет назад у ученых были проблемы с выделением 
из образца ткани необходимой цепочки. Ускорить процесс распознавания нужных участков ДНК помогла закономерность, которая ранее 
не была замечена учеными: вместо того, чтобы выделять геном из 
ядра клетки, можно выделить меньшую цепочку из митохондрии — 
одного из компонентов клетки. Это связано с тем, что структура девиантных кодов (кодов, отклоненных от стандартной структуры) 
способна уменьшать размер всего генома. Подобными кодами записаны, как правило, митохондриальные ДНК. Такая цепочка практически 
не будет содержать «пассивных» участков, наличие которых существенно замедляет процесс идентификации ДНК.  
 В 2012 году лауреатами Нобелевской премии по медицине и физиологии стали специалисты по клеточной биологии британец Джон 
Гердон и японец Синья Яманака, чьи работы касаются перепрограммирования генетической информации, управляющей развитием живых клеток.  
      Становится все более очевидным, что генетика, как раздел   биоло- 
гии, не сможет обойтись без такой точной науки как математика. Современную математику следует считать объединением дедуктивного и 

индуктивного подходов. Ключевым моментом обоснования процедур 
распознавания или индуктивного вывода является наличие всех 
классов в выборке и усреднение погрешности по множеству обучающих выборок [5].  
На первый взгляд кажется, что методы биологического исследования могут быть исключительно индуктивные. Так именно они рассматривались в свое время «всеиндуктивистами», по поводу которых 
Энгельс метко заметил, что эти люди «увязли в противоположности 
между индукцией и дедукцией» [6]. 
     Математике удавалось успешно справляться с задачами, которые 
ставила перед нею жизнь. Математика сыграла свою особую роль и в 
процессе генетических исследований. Большая заслуга Г. Менделя 
заключалась в том, что он смог найти удивительно простой способ 
выразить наблюдавшиеся в скрещивании гороха типы наследственных форм и их числовые отношения в математических формулах. 
     Однако процесс развития математики не всегда проходил гладко. 
Были периоды спада и подъема математической мысли. 
     И всё же сочетание сложнейшей внутренней структуры  математики с реальными прикладными задачами и есть та сила, которая движет 
вперед эту науку. 
     В поисках методов моделирования сложных систем исследователи 
обращаются к различным разделам математики.  Методологическим 
ориентиром их действий служит теорема К. Гёделя о неполноте, свидетельствующая о невозможности полной формализации знаний, что 
приводит к необходимости применения сочетания не только математических, но и эвристических методов в ходе проведения системных 
исследований [7]. 
      В настоящее время обретают подъем в биологии и генетике цепи 
Маркова и наряду с другими видами математических моделей занимают вполне достойное место. Проведенные числовые расчеты на 
основе информации из Всемирного банка белковых структур подтвердили высокую эффективность байесовских процедур распознавания на моделях цепей Маркова в задачах распознавания вторичной 
структуры белков. 
В дальнейших исследованиях существенным прорывом должно 
стать создание действующей полной математической модели живой 
клетки, так как это будет предсказательная модель. Для создания такой модели необходимы самые современные математические методы 
и в первую очередь методы оптимальным образом распознающие и 
перерабатывающие информацию. 
Первую в мире полную компьютерную модель живого организма 
уже удалось создать Маркусу Коверту и его коллегам по Стэнфорду. 
Образцом для создания такой модели стала бактерия Mycoplasma 
genitalium – обладатель одного из самых коротких геномов. В модель 
было включено почти 2000 установленных экспериментально связей, 

реакций и прочих свойств, характерных для этой бактерии на разных 
стадиях ее жизненного цикла. Многие явления в живых организмах 
оказываются результатом взаимодействия сотен и тысяч  генов. В будущем CAD – моделирование живых организмов может стать одним  
из самых масштабных проектов в науке [8]. 
     Эволюция – закономерный органический процесс, как и все законы 
природы, носит исключительно вероятностный характер, поэтому 
автор при анализе генетической информации делает упор на вероятностные системы: формулу Байеса,  цепи Маркова и др. 
      В силу дискретного характера генетического кода естественно исследовать его с позиций современной теории дискретных сигналов. 
Содержание излагаемого материала знакомит читателя с математическими и логическими методами анализа и распознавания. Описание 
этих методов ведется в терминах булевой алгебры. 
      Эта книга развивает содержание предыдущих монографий автора 
[1, 9, 10]. Так, содержание главы 1 монографии [1] дополнено понятиями континуума, меры нуль, непрерывной и дискретной математики. 
     Ряд выдающихся ученых разделяли идею множественности обитаемых миров. В связи с этим поиск жизни и разума следует осуществлять с момента зарождения Вселенной. В главе 2 достаточно внимания уделено теории Большого взрыва, теории относительности А.Эйнштейна и роли космических исследований в познании живой природы. В глае 3 дополнительно внесены разделы искусственного интеллекта и нейронных сетей. В вопросах о происхождении жизни одним 
из загадочных остается факт наличия абсолютной хиральной чистоты 
органической среды. В связи с этим, в главе 6, раскрывается понятие 
хиральности. Дополнительно внесена глава 9: Генная инженерия, в 
которой освещаются понятия генетического оружия и математического прогнозирования биолого-социальных чрезвычайных ситуаций.  
      Книга может служить дополнительным учебным пособием для 
студентов биологических и биоматематических специальностей. 
Можно ознакомиться со статьями автора в журналах [11, 12]. 
       Полагаю, что призыв к глубокому продуктивному изучению в области генетики будет услышан. Вероятнее всего, со временем будущее генетики будет понятным населению многих стран, а самое главное – доступным, т.к. стоимость генетического тестирования уменьшится во много раз. Тогда генетика осуществит прорыв в массы – так 
же как это сделали в последние годы информационные технологии. 
Возможно, что через два – три десятка лет у большинства людей будет собственный генетический паспорт. 
      Выражаю благодарность членам семьи - дочери Елене Витальевне, 
внуку–кандидату философских наук Максиму Андреевичу Крупскому, и жене Екатерине Алексеевне Гупал за активное участие в издании монографии и правке рукописи. 

ГЛАВА 1. НЕПРЕРЫВНАЯ И ДИСКРЕТНАЯ МАТЕМАТИКА.  
                    ПОНЯТИЯ  КОНТИНУУМА, МНОЖЕСТВА И МЕРЫ  
                                                    НУЛЬ. 
 
     Все те объекты, переменные которых могут принимать несчетное 
множество сколь угодно близких друг к другу значений называются 
непрерывными или континуальными. 
     В непрерывном мире значительное место занимают дискретные 
понятия.  
    Жизнь целостна (непрерывна) и в то же время дискретна как в плане структуры, так и функции. Например, субстракт жизни целостен, 
т.к. представлен нуклеопротеидами, но в то же время дискретен, т.к. 
состоит из нуклеиновой кислоты и белка. Нуклеиновые кислоты и 
белки являются целостными соединениями, однако тоже дискретны, 
состоя из нуклеотидов и аминокислот (соответственно). Репликация 
молекул ДНК является непрерывным процессом, однако она дискретна в пространстве и во времени, т.к. в ней принимают участие 
различные генетические структуры и ферменты. Процесс передачи 
наследственной информации тоже является непрерывным, но он дискретен, т.к. состоит из транскрипции и трансляции, которые из-за ряда 
различий между собой определяют непрерывность реализации наследственной информации в пространстве и во времени. Органический 
мир также целостен, поскольку существование одних организмов зависит от других, но в то же время он дискретен, состоя из отдельных 
организмов [14]. Генетический код дискретен, но управляет непрерывными процессами. Для исследования управления такими процессами в генных сетях можно использовать методы дискретной и непрерывной математики, теории алгоритмов, логики, объединенных в рамках гибридного подхода. 
     Построения и выводы в современной математике выполняются, как 
правило, на непрерывном вещественном пространстве (континууме). 
Континуум (от лат. continuum – непрерывное) в математике, непрерывная совокупность всех точек отрезка, на прямой, или всех точек 
прямой, эквивалентная совокупности всех действительных чисел [13].   
     Дискретная математика занимается изучением свойств объектов 
конечного характера, как то: множества, графы, алгоритмы и т.п. При 
этом, наличие дискретной математики предполагает существование 
противоположного раздела, а именно: непрерывной математики.  
     В принципе к непрерывной математике следовало бы отнести все, 
что базируется на понятии непрерывной функции. 
     Решение математической проблемы континуума акцентировала 
внимание на необходимости ввода в числовую математику принципа 
непрерывности, которая уже давно определена в философии. Тем более, что природа едина, и не могут принципы философии и принципы 

математики по одной и той же проблеме противоречить друг другу.  
Однако французский историк и социогол Ларюэль отмечает: «философ математики остается философом, а не математиком. Другими словами, если не существует возможности настоящего прорыва в математике (которого мы, конечно от него не ждем), не существует также и 
возможности преодоления границ философии». 
    Важно уяснить различие между непрерывным, последовательным и 
смежным. 
    Непрерывность, по Аристотелю, это определенный тип связи элементов системы, отличающихся от других типов связи – последовательности и смежности. Последовательность, или следование по порядку, – условие смежности, а смежность – условие непрерывности. 
Если предметы соприкасаются, но при этом сохраняют каждый свои 
края, так что соприкасающиеся границы не сливаются в одну общую, 
то мы имеем дело со смежностью; если же граница двух предметов 
(отрезков линии, «частей» времени и т.д.) оказывается общей, то тут 
речь идет о непрерывности. «Я говорю о непрерывности, - пишет 
Аристотель, - когда граница, по которой соприкасаются оба следующих друг за другом предмета, становятся для обоих одной и той же и, 
как показывает название, не прерывается…» [6.,V,226-227 –
Аристотель. Собр.соч. Физика. М; Наука.1981]. Непрерывное по 
Аристотелю, - это то, что делится на части, всегда делимое. А это значит, что непрерывное не может быть составлено из неделимых. 
     Аристотель пользуется только понятием потенциально бесконечного, т.е. бесконечного делимого, которое, «будучи» проходимым по 
природе, не имеет конца прохождения, или предела. 
     В отличие от Аристотеля теория множеств Г.Кантора основана на 
концепции актуальной бесконечности.  
     Множеством называется совокупность каких-либо объектов, обладающих общим для всех характеристическим свойством. 
      В середине ХХ в. канторовская теория множеств, была объявлена 
«наивной». В ХIХ –ХХ вв. появилось значительное число логиков и 
математиков, которые получили серию выдающихся результатов, основанных именно на использовании концепции актуальной бесконечности.  
      Вся классическая математика основана на аксиоме Аристотеля: 
«Все бесконечные множества являются множествами потенциально – 
бесконечными». Вся современная «ненаивная» аксиоматическая теория множеств основана на аксиоме Кантора: «Все бесконечные множества являются множествами актуально – бесконечными». Современная аксиоматическая теория множеств позаимствовала теорему о 
несчетности континуума, доказательство которой основано на использовании очевидно – противоречивого понятия актуальной бесконечности. С понятием бесконечности и с различием актуальной и потенциальной бесконечности связана Проблема континуума.  

Георг Кантор в своей работе, посвященной анализу математического континуума подчеркивал, что невозможно определить континуум, 
если исходить из представлений о времени или пространстве, потому 
что сами эти  представления могут быть объяснены только с помощью 
понятия континуума, которое должно быть исходным и простым и не 
должно зависеть в своем содержании от других понятий [Кантор Г. 
Основы общего учения о многообразных//Новые идеи в математике.С-Пб., 1914. Вып 6].  
      Континуальное множество состоит из вещественных (т.е. рациональных и иррациональных) чисел. Известно, что множество рациональных чисел счетно, и что любое бесконечное множество содержит 
подмножество, т.е. счетные множества самые «маленькие» из бесконечных множеств.  
      Ни один интервал на прямой не является счетным множеством. Если мы возьмем числовую прямую, на которой нанесены начало и все 
рациональные точки (см. Рис.1.1), то основное положение, на котором 
покоится это применение, гласит: каждому рациональному или иррациональному числу отвечает точка, имеющая это число своей координатой, каждой точке на прямой отвечает в качестве координаты рациональное или иррациональное число. 

Рис.1.1. Числовая ось 
     Одномерная континуальная числовая ось не дает доказательного  
  представления о N – мерном пространстве; нужны N–таких осей. И в 
то же время N дискретизированных числовых осей описывают «сеточное пространство» в котором потенциально доказуемы сущности и явления, имеющие место лишь в узлах «сетки», но не внутри её ячеек. 
Если дискурсивная «сетка» вносит регулятивное начало во входной 
поток высказываний в рамках дедуктивной системы доказательств, то 
очевидно, часть высказываний будет упущена сквозь дыры «сеточной» дискретности, как упускаются рыбные мальки сквозь крупноячеистую рыбную сеть, предназначенную для крупной рыбы[15]. 
     История логики и оснований математики дает достаточно материала для размышления при построении модели исследования того 
или иного процесса в природе. Обратимся, например, к трудностям 
осмысления иррационального числа, связанного с понятием континуума. Для рациональных чисел и  некоторых иррациональных чисел: е, 
π существуют конечные правила определения десятичных знаков. Ир
Доступ онлайн
от 404 ₽
В корзину