Математические методы анализа и распознавания генетической информации
Покупка
Основная коллекция
Издательство:
РИОР
Автор:
Гупал Виталий Михайлович
Год издания: 2012
Кол-во страниц: 154
Дополнительно
Вид издания:
Монография
Уровень образования:
Дополнительное профессиональное образование
ISBN: 978-5-369-01075-4
Артикул: 183850.01.01
Тематика:
ББК:
УДК:
ОКСО:
- ВО - Бакалавриат
- 01.03.01: Математика
- 01.03.02: Прикладная математика и информатика
- 01.03.04: Прикладная математика
- 06.03.01: Биология
- 19.03.01: Биотехнология
- ВО - Магистратура
- 01.04.01: Математика
- 06.04.01: Биология
- 19.04.01: Биотехнология
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Â.Ì. ÃÓÏÀË МАТЕМАТИЧЕСКИЕ МАТЕМАТИЧЕСКИЕ МЕТОДЫ АНАЛИЗА МЕТОДЫ АНАЛИЗА И РАСПОЗНАВАНИЯ И РАСПОЗНАВАНИЯ ГЕНЕТИЧЕСКОЙ ГЕНЕТИЧЕСКОЙ ИНФОРМАЦИИ ИНФОРМАЦИИ Монография Монография Москва РИОР ИНФРА-М
УДК 519.1:575(075.4) ББК 22.1:28.04 Г53 А в т о р : Гупал В.М. — профессиональный преподаватель и военнослужащий. Закончил Житомирское военное училище войск ПВО и дважды военную инженерную академию им. Ф.Э. Дзержинского (инженерный и командный факультеты). В течение 10 лет работал в военном представительстве, осуществляя приемку приборов командно-измерительных комплексов систем дальнего космоса «Марс», «Венера» и спутников связи «Молния». Круг интересов — исследования в области сложных систем с использованием теории вероятностей и математической статистики. Автор монографии по методам распознавания сложных систем и статей в журналах: «Приборы и системы. Управление, контроль, диагностика», «Компетентность». Г53 Гупал. В.М. Математические методы анализа и распознавания генетической информации: Монография. — М.: РИОР: ИНФРА-М, 2012. — 154 с. — (Научная мысль). ISBN 978-5-369-01075-4 (РИОР) ISBN 978-5-16-005671-5 (ИНФРА-М) Монография посвящена математическим методам анализа и распознавания в области генетики. В этой области научных знаний остается много неизвестного и неисследованного. Население России продолжает оставаться генетически неграмотным. Цель книги — привлечь внимание всех, кто интересуется этой проблемой. Опираяся на опыт изучения сложных технических и природных систем, автор использует в расчетах байесовскую процедуру, оптимальным образом решающую задачи распознавания. Книга может быть полезна исследователям-биологам и ма-тематикам, а также инженерам и тем, кто хочет расширить свои познания в области методов математического анализа и прогнозирования. УДК 519.1:575(075.4) ББК 22.1:28.04 Издается в авторской редакции ISBN 978-5-369-01075-4 (РИОР) ISBN 978-5-16-005671-5 (ИНФРА-М) © Гупал В.М., 2012
ПРЕДИСЛОВИЕ Предлагаемая читателю книга посвящена методам распознавания в области генетики. Цель книги привлечь внимание людей к этой науке, учитывая, что в основной массе население России продолжает оставаться генетически неграмотным. Не случайно академик Константин Скрябин отмечал, что: «Кто владеет генетической информацией, будет владеть миром» [1]. Во всеобщей генетической неграмотности на самом деле нет ничего постыдного. Практическая медицинская генетика начала активно развиваться в мире и в России сравнительно недавно, в конце 80-х — начале 90-х гг., когда стартовал глобальный международный проект «Геном человека». За это время в науке произошел грандиозный прорыв, оказавший заметное влияние на медицину. Правда, из-за той же неинформированности в России используются далеко не все возможности, предоставленные современной наукой [2]. Содержание излагаемого материала знакомит читателя с математическими и логическими методами анализа и распознавания. Описание этих методов ведется в терминах булевой алгебры. Материал излагается на доступном уровне для любого читателя, обладающего знаниями в объеме средней школы. За основу при издании книги послужили математические методы диагностики технических систем с использованием байесовской процедуры распознавания, изложенные в монографии [3] и статьях в журналах [4, 5]. Чтобы плавно перейти к практическим исследованиям в книге довольно подробно излагается ряд основных понятий и определений, таких как: информация, сложная система, методы распознавания и их классификация, индуктивный подход, байесовская процедура, цепи Маркова, интеллектуальные и экспертные системы, трудно решаемые задачи, основы генетики и другие. Научное и практическое направления исследований в области генетики нашли свое отражение в конце XIX — начале XX в. В 1953 г. Д. Уотсон и Ф. Крик сформулировали открытие, которое инициировало целую эпоху исследований в области науки о жизни. Это было открытие двойной спирали структуры ДНК. В 2003 г. было объявлено о «расшифровке» «Генома человека». Важным результатом проекта «Геном человека» является разработка новых, более совершенных, методов исследований, в которых основная масса процессов полностью автоматизирована. Участие в проекте «Геном человека» значительного числа специалистов предусматривало, что расшифровка нуклеотидной последовательности ДНК, секвенирование и полное картирование (выяснение локализации) всех генов человека смогут решить фундаментальные проблемы генетики. Кроме секвенирования и картирования, целями проекта являлись также: 1) создание банка и 3
баз данных полноразмерных, клонированных ДНК; 2) исследование функций некодирующих последовательностей; 3) изучение пространственно-временных параметров генной экспрессии; 4) изучение мутагенеза; 5) изучение экспрессии генов на уровне продукта; 6) развитие технологий, ускоряющих и удешевляющих анализ [6]. В 2004 г. исследователи из Международного Консорциума по секвенированию человеческого генома проекта «Геном человека» огласили оценку числа генов в человеческом геноме состоящую от 20 до 25 тыс. Ранее предсказывалось от 3 до 40 тыс., а в начале проекта эта цифра доходила до 2 млн. Исследователям еще предстоит большая работа по описанию (аннотации) генома — выявлению всех генов, установлению их функций, характеристик состояний генов, выявлению болезнетворных мутаций. Для такого описания необходима на порядок более высокая точность определения последовательности. В настоящее время точность определения последовательности составляет одну ошибку на 1000 пар нуклеотидов. Необходимая точность — не более одной ошибки на 10 тыс. пар нуклеотидов еще не достигнута [7]. Самая большая проблема, с которой столкнулись ученые, — это огромные неизвестные участки в ДНК. Никто до сих пор не может понять, для чего они нужны? Одни генетики называют их «мусором», другие не соглашаются с этим и считают, что эволюция, наоборот, избавляется от «мусора», а не копит его. Еще несколько лет назад у ученых были проблемы с выделением из образца ткани необходимой цепочки. Ускорить процесс распознавания нужных участков ДНК помогла закономерность, которая ранее не была замечена учеными: вместо того, чтобы выделять геном из ядра клетки, можно выделить меньшую цепочку из митохондрии — одного из компонентов клетки. Такая цепочка практически не будет содержать «пассивных» участков, наличие которых существенно замедляет процесс идентификации ДНК. В дальнейших исследованиях существенным прорывом должно стать создание действующей полной математической модели живой клетки, так как это будет предсказательная модель. Для создания такой модели необходимы самые современные математические методы и в первую очередь методы оптимальным образом распознающие и перерабатывающие информацию. Современная математика развивается на основе дедуктивноаксиоматического подхода. Однако дедуктивный подход не привел к построению прочного фундамента математики. Упал интерес к теоретическим исследованиям в области чистой математики. Известно, что индуктивный подход — основа изучения объектов в естественных науках. Однако в математике он широко не использовался, поскольку до последнего времени не имел убедительного обоснования. Со времен Лапласа делались попытки показать, что истинность индуктивного вывода вытекает из математической теории веро4
ятностей. Однако Лаплас и другие исследователи пользовались неудачным определением индукции, из которого следовало, что наблюдаемые объекты принадлежали только одному классу. Поэтому ключевым моментом обоснования процедур распознавания или индуктивного вывода является наличие всех классов в выборке и усреднение погрешности по множеству обучающих выборок [8]. Исследуемый класс объектов в целом можно представить как множество точек, распределение которых в булевом пространстве признаков (так в теории распознавания принято называть свойства объектов) подчиняется некоторым закономерностям. На основе имеющейся ограниченной информации требуется составить представление о классе в целом, а значит выявить присущие ему закономерности. В этом и заключается индуктивный этап распознавания. Большое участие при создании этой книги оказали члены моей семьи. Выражаю благодарность дочери Елене Витальевне и внуку Максиму Андреевичу Крупским за правку рукописи. Книга может быть полезна широкому кругу читателей, а также, надеюсь, тем, кто интересуется основами генетики и методами анализа и прогнозирования в этой области науки и, возможно, вызовет интерес к излагаемым проблемам.
ГЛАВА 1. ОСНОВЫ ТЕОРИИ СЛОЖНЫХ СИСТЕМ 1.1. РОЛЬ ИНФОРМАЦИИ В СОВРЕМЕННОМ МИРЕ Минувший ХХ в. и первое десятилетие нынешнего века как период в истории человечества на основе достижения им определенного уровня развития называют по-разному: периодом электричества, атомной энергии, кибернетики, генетики, и др. Однако наиболее правильным было бы назвать его как «информационный период». Это обусловлено тем, что по темпам развития основных потоков информации: интернет, мобильные и интеллектуальные системы, электронные вычислительные машины, системы управления опередили остальные характеристики минувшего периода. Запуски спутников связи в 60-е гг. прошлого столетия открыли эру глобальных коммуникаций. По сравнению с первым поколением ЭВМ сегодняшние компьютеры работают в несколько десятков раз быстрее, обладают более емкой памятью, в тысячи раз более надежны и стоят в тысячи раз дешевле. Область их применения охватывает практически все виды деятельности, связанные с информацией: проведение различного рода исследований, в том числе и в области генетики, статистический анализ, всякого рода проектирование, управление и т.д. Компьютерные системы действуют в области биологии, здравоохранения, помогая диагностировать и лечить заболевания, обеспечивая врачам незамедлительный доступ к обширным источникам медицинской информации. Информация как воздух необходима тем, кто ведет научные исследования, внедряет и оценивает новые достижения. Россия обогнала США по производству стали, цемента, электроэнергии, добыче нефти и т.д., однако существенно отстает в сфере информационных технологий и информации. Наш исторический опыт показывает, что при наличии продуманной государственной политики и экономики, мы сможем превратиться в передовую информационную державу. Гонка за новой технологией убыстряет темп, время от начала научного открытия до его практического внедрения сокращается. Мировой экономический кризис несколько затормозил этот процесс. Однако будем надеяться, что он не вечен и с его преодолением у нас появятся все возможности быть свидетелями внедрения в жизнь новых достижений в области науки и информационных технологий. В нынешней гонке средств информации участвуют правительства и крупнейшие монополии. Огромные достижения последних десятилетий наложили свой отпечаток на новейшую историю и в большей мере формируют сейчас будущее общество и определяют человеческое существование. Идет ли речь о производственной технике, о биологической инженерии и биотехнологиях, о новых материалах, о новых медицинских инструментах, об исследованиях в области генетики — 6
не один вид человеческой деятельности не оказывается вне влияния науки или техники. Познание разнообразных свойств объекта связано с получением информации об этих свойствах в процессе натурного (когда определяются измеренные свойства) или вычислительного (когда определяются смоделированные свойства) экспериментов. В результате таких экспериментов появляется возможность информационного описания познаваемого объекта. При этом важно понимание информации как меры порядка, организованности, т.е. информации как характеристики структуры системы. Исследователи использовали слово «информация», не придавая особого значения ее роли. Лишь в начале ХХ в., в связи с возрастанием роли информации в общественной деятельности, возрос интерес к содержанию данного понятия. В настоящее время понятие «информация» используется в двух значениях — качественном (конкретном) и количественном (абстрактном) [9]. Современная информационная технология все чаще обращается к биологическим системам, используя их для поиска резервов для построения более совершенных компьютерных устройств. Тот, кто будет контролировать революцию в области информации, по существу будет осуществлять геополитический контроль над миром в той или иной форме. Для этого необходимо направить усилия в область наиболее важных направлений, чтобы с меньшими затратами и в кратчайшие сроки получить результаты. В последние годы стали широко применяться модели распознавания с использованием систем искусственного интеллекта, экспертных систем и модели, основанные на использовании алгебры логики. Каждая разновидность систем распознавания имеет свои особенности, что делает ее наиболее пригодной для решения одного класса задач и менее пригодной для решения другого. Модели распознавания используют математический и логический аппарат. Математика на протяжении многих столетий использовала метод дедуктивных выводов из небольшого числа принципов, называемых аксиомами. Однако работа в процессе дедуктивного вывода ведется только на одном классе истинных утверждений, ложные утверждения не используются. Нельзя сказать, что аксиоматически-дедуктивный метод был единственным подходом в изучении явлений и процессов реального мира. Альтернативой ему, как это давно было известно математикам и философам, является индуктивный подход как способ рассуждений от частного к общему. Кроме того, известно, что индуктивный подход — основа изучения объектов в естественных науках. В истории известно немало случаев, когда идеи ученых возрождаются в более поздние периоды и определяют тенденцию развития различных отраслей знаний. Аналогичный случай происходит и с работами Т. Байеса по теории вероятностей. Результаты его исследований были опубликованы более 245 лет назад, но настоящий расцвет байе7
совских методов начался лишь в 90-е гг. прошлого века и совпал с компьютерной революцией. Формула Байеса лежит в основе индуктивного подхода к распознаванию. Следует отметить, что если в обучающей выборке отсутствует один из классов объектов, то любая процедура распознавания работает плохо. Ключевым моментом обоснования процедур распознавания индуктивного вывода является наличие всех классов в выборке и усреднение погрешности по множеству обучающих выборок. Поэтому попытки оценить процедуры индуктивного вывода без учета таких вопросов не приводят к положительным результатам. Байевская процедура обладает замечательными особенностями: она оптимальна, имеет полиномиальные оценки погрешности от входа задачи, ее погрешность достаточно быстро стремится к нулю при возрастании размеров обучающих выборок. Таким образом, есть все основания считать, что именно индуктивные процедуры играют важную роль в тех механизмах, которые отвечают за модификацию и изменение функциональных свойств генов. 1.2. ПОНЯТИЕ СЛОЖНОСТИ СИСТЕМ И ОСНОВАНИЯ СИСТЕМНОГО ПОДХОДА В ПРОЦЕССЕ ИССЛЕДОВАНИЯ ОБЪЕКТОВ Одно из первых определений сложной системы было дано в 1973 г. Н.П. Бусленко в [10]. Он писал, что систему надо считать сложной, если она состоит из большого числа взаимосвязанных и взаимодействующих между собой элементов, и что сложная система способна выполнять сложную функцию. Позднее в работе [11] им было дано определение, характеризующее некоторые основные свойства подобных систем: «Сложная система является многоуровневой конструкцией из взаимодействующих элементов, объединяемых в подсистемы различных уровней», а математическая модель сложной системы «состоит из математических моделей элементов и математической модели взаимодействия между элементами». В качестве примеров сложных систем можно привести такие: энергетические комплексы, телефонные сети крупных городов, информационные системы, отраслевые автоматизированные системы управления и, несомненно, структуры живых организмов. Живые организмы непрерывно и в разной форме получают из внешней среды информацию и преобразуют ее так, что в организме происходят нужные весьма разнообразные реакции. В клетках организма ежеминутно выполняются миллионы химических реакций, и в зависимости от концентрации определенных регуляторных белков происходит переключение генов, ответственных за производство нужных белков [12]. Живые организмы имеют дело с неточно вводимой информацией. Это 8
может быть меняющаяся в течение дня освещенность, соленость воды, концентрация белков и др. Заранее охарактеризовать подобную информацию в виде аналитических зависимостей или численно невозможно, точно так же как нельзя предсказать в следующий момент времени состояние всей системы организма в целом. Живая природа развивается на основе индуктивных механизмов (путем проб и ошибок), которые по своей сути являются приближенными. Эволюционные процессы также индуктивны, они протекают в реальном масштабе времени и невозможны без проведения широкомасштабных экспериментов. В природе не задействованы в полной мере оптимизационные механизмы, т.е. получение точного переборного (или оптимального) решения, поскольку такие процессы относятся к NP-полным задачам [13]. Основными свойствами сложных систем являются: x большое число взаимосвязанных и взаимодействующих элементов; x сложность выполнения функции для достижения цели функционирования; x иерархическая структура, возможность деления систем на подсистемы; x наличие управления, интенсивных потоков информации в разветвленной информационной сети; x взаимодействие с внешней средой и функционирование в условиях воздействия случайных факторов [10, 11]. Первое свойство не требует пояснений. Второе свойство определяет основную особенность системы. В сложной системе выполняются задачи, которые обеспечивают достижение промежуточных и конечных целей функционирования. При проектировании сложных систем необходимо прогнозировать ее поведение по выполнению этих задач. Так как на реальные системы воздействует большое число случайных факторов, для прогнозирования поведения сложной системы необходимо использовать теорию вероятностей. Таким образом, параметры моделей прогноза могут быть охарактеризованы законами распределения. Случайные отклонения системы от нормальных режимов функционирования определяются возмущающими факторами внешней среды и возмущающими факторами, возникающими внутри системы. Внутренними факторами являются ошибки измерительных приборов в пределах допусков, ошибки людей, работающих в системе, ошибки в управлении информацией, сбои вычислительных устройств. Случайные возмущения иногда могут привести к вынужденному изменению структуры системы. Учет случайных факторов при исследовании сложных систем и определение их эффективности играет большую роль. Третье свойство заключается в том, что сложная система обладает свойством иерархичности. 9
Это значит, что система может разбиваться на подсистемы. Цели функционирования подсистем подчинены общей цели функционирования всей системы. Следовательно, сложной системе присуще еще и обобщающее свойство целостности. Данное свойство означает, что изменения, происшедшие с ее элементами, влияют на другие элементы или подсистемы и оказывают влияние на функционирование всей системы. Таким образом, сложная система состоит из отдельных подсистем и в то же время является объектом целостным, отдельные части которого функционируют во взаимодействии. Четвертое свойство говорит о наличии управления в сложной системе. Процесс управления в общем случае включает получение исходной информации о системе и окружающей среде, переработку и преобразование этой информации, выработку управляющего решения системы и контроль исполнения. Существуют системы управления, в которых осуществляется принцип самоорганизации. Характерной чертой управления системой является самонастройка и самообучение. Наиболее ответственной частью управления является прогнозирование поведения системы в зависимости от различных условий функционирования. На основе прогноза составляется план функционирования системы. Пятое свойство заключается во взаимодействии с внешней средой и функционировании в условиях воздействия случайных факторов. Это свойство подчеркивает то обстоятельство, что сложные системы, в отличие от абстрактных моделей, функционируют в реальных условиях, когда на них воздействует большое число случайных факторов, возникающих как вследствие воздействия внешней среды, так и в результате возмущений внутри самой системы. Свойство целостности системы означает, что изменения, происшедшие с ее элементами, влияют на другие элементы или подсистемы и оказывают влияние на функционирование всей системы. Значит, при изучении сложных систем необходим системный подход, т.е. исследуя какую-то подсистему, мы обязаны учитывать цели функционирования всей сложной системы. Системный подход — методологическое направление в науке, основная задача которого состоит в разработке методов исследования сложноорганизованных объектов-систем различных типов и классов. Наиболее широкое применение методы системного подхода находят при исследовании сложных развивающихся объектов — иерархических, как правило, самоорганизующихся биологических и т.д. Существенное значение в системном подходе придается выявлению вероятностного характера поведения исследуемых объектов. Структурнофункциональный принцип и соответствующий ему структурнофункциональный анализ пронизывают все виды системных исследований. Ни один элемент системы не может измениться без того, чтобы то или иное изменение не претерпела бы и вся система в целом. 10