Компьютерное представление химической информации
Покупка
Тематика:
Органическая химия
Издательство:
Издательство Уральского университета
Под ред.:
Костерина Мария Федоровна
Год издания: 2020
Кол-во страниц: 142
Дополнительно
Вид издания:
Учебное пособие
Уровень образования:
ВО - Бакалавриат
ISBN: 978-5-7996-3018-8
Артикул: 800223.01.99
В учебном пособии рассмотрены основные типы представления органических молекул в компьютерном виде: линейные нотации WLN, ROSDAL, SMILES, SLN, InChI и табличные представления — Z-матрицы, MOL-, SDF- и RDF-форматы. Системное изложение материала позволит студентам самостоятельно подготовиться к занятиям и сдаче зачетов и экзаменов. Для студентов бакалавриата, осваивающих дисциплины «Основы квантовой химии и хемоинформатики», «Компьютерные информационные системы в биотехнологии» и «Компьютерное моделирование состава продуктов питания», а также для студентов магистратуры, аспирантов и научных работников.
Тематика:
ББК:
УДК:
- 004: Информационные технологии. Вычислительная техника...
- 54: Химия. Кристаллография. Минералогия. Минераловедение
ОКСО:
- ВО - Бакалавриат
- 18.03.01: Химическая технология
- 19.03.01: Биотехнология
ГРНТИ:
Скопировать запись
Фрагмент текстового слоя документа размещен для индексирующих роботов
Екатеринбург Издательство Уральского университета 2020 МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ УРАЛЬСКИЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ ИМЕНИ ПЕРВОГО ПРЕЗИДЕНТА РОССИИ Б. Н. ЕЛЬЦИНА Ю. И. Нейн, М. Н. Иванцова КОМПЬЮТЕРНОЕ ПРЕДСТАВЛЕНИЕ ХИМИЧЕСКОЙ ИНФОРМАЦИИ Учебное пособие Рекомендовано методическим советом Уральского федерального университета в качестве учебного пособия для студентов вуза, обучающихся по направлениям подготовки 18.03.01 «Химическая технология», 19.03.01 «Биотехнология»
© Уральский федеральный университет, 2020 Под общей редакцией М. Ф. Костериной Р е ц е н з е н т ы: кафедра химии и процессов горения Уральского института Государственной противопожарной службы МЧС России (и. о. начальника кафедры кандидат химических наук капитан внутренней службы А. В. Кокшаров); Е. В. Щегольков, кандидат химических наук, старший научный сотрудник лаборатории фторорганических соединений Института органического синтеза УрО РАН УДК 54:004(075.8) ББК 4+30.2-5-05я73 Н46 Нейн, Ю. И. Компьютерное представление химической информации : учебное пособие / Ю. И. Нейн, М. Н. Иванцова ; под общ. ред. М. Ф. Костериной ; Министерство науки и высшего образования Российской Федерации, Уральский федеральный университет. — Екатеринбург : Изд-во Урал. ун-та, 2020. — 142 с. : ил. — Библиогр.: с. 141. — 30 экз. — ISBN 978-5-7996-3018-8. — Текст : непосредственный. ISBN 978-5-7996-3018-8 В учебном пособии рассмотрены основные типы представления органических молекул в компьютерном виде: линейные нотации WLN, ROSDAL, SMILES, SLN, InChI и табличные представления — Z-матрицы, MOL-, SDF- и RDF-форматы. Системное изложение материала позволит студентам самостоятельно подготовиться к занятиям и сдаче зачетов и экзаменов. Для студентов бакалавриата, осваивающих дисциплины «Основы квантовой химии и хемоинформатики», «Компьютерные информационные системы в биотехнологии» и «Компьютерное моделирование состава продуктов питания», а также для студентов магистратуры, аспирантов и научных работников. Н46 УДК 54:004(075.8) ББК 4+30.2-5-05я73 ISBN 978-5-7996-3018-8
ÎÃËÀÂËÅÍÈÅ Предисловие ..........................................................................................................5 Введение ......................................................................................................... 6 1. ПРЕДСТАВЛЕНИЕ ИНФОРМАЦИИ В КОМПЬЮТЕРНОМ ВИДЕ ............. 9 1.1. Единицы измерения информации ..................................................... 9 1.2. Информационно-поисковые языки ................................................. 13 1.3. Представление органических молекул в компьютерном виде ..... 18 2. ЛИНЕЙНЫЕ НОТАЦИИ ............................................................................. 19 2.1. Линейная нотация Висвессера (WLN)............................................ 19 2.2. Представление органических структур в формате ROSDAL ....... 30 2.3. Cпецификация упрощенного представления молекул в строке ввода (SMILES) ......................................................................... 31 2.4. Линейная нотация сибил (SLN) ...................................................... 43 3. ТАБЛИЧНЫЕ ПРЕДСТАВЛЕНИЯ .............................................................. 45 3.1. Представление 3D-структур ............................................................ 45 3.2. Продолжающиеся таблицы (таблицы соединений) ...................... 48 3.3. Мол-файл (Mol-fi le) .......................................................................... 54 3.4. Pdb-файлы (база данных по белкам) ............................................... 58 3.5. Z-матрица .......................................................................................... 60 3.6. Теория графов (диаграммы графов) ............................................... 66 3.6.1. Матрица смежности ................................................................... 68 3.6.2. Матрица расстояний ................................................................... 70 3.6.3. Матрица понижения ................................................................... 71 3.6.4. Матрица связей ........................................................................... 72 3.6.5. Матрица «связь — электрон» (BE-матрица) ............................ 75 3.7. Представление матрицы химических реакций .............................. 77 3.7.1. SD-файлы .................................................................................... 77 3.7.2. RXN-файлы (реакционные файлы) ........................................... 77 3.7.3. RD-файлы (файлы «реакция — данные») ................................ 80 3.7.4. CML (химический язык разметки) ............................................ 81 4. НУМЕРАЦИЯ АТОМОВ ............................................................................. 83 4.1. Алгоритм Моргана ........................................................................... 83
4.2. CANGEN-алгоритм .......................................................................... 86 5. МЕЖДУНАРОДНЫЙ ХИМИЧЕСКИЙ ИДЕНТИФИКАТОР (InChI) .......... 90 5.1. Правила InChI ................................................................................... 93 5.1.1. Нумерация атомов (Color List) .................................................. 94 5.1.2. Записи основных слоев .............................................................. 98 5.2. Inchikey — ключ для поиска структуры ....................................... 104 ЗАДАЧИ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ ........................................... 108 БИБЛИОГРАФИЧЕСКИЙ СПИСОК ............................................................. 141
Возникновение и развитие информационных справочных изданий по химическим структурам резко увеличило поток новой информации, поиск, просмотр и анализ которой в настоящее время немыслим без применения автоматизированных информационнопоисковых технологий. В вопросах разработки таких технологий одной из важнейших задач является составление алгоритма ввода структурных формул органических соединений, позволяющих однозначно представлять двухмерную структурную формулу соединения набором строк символов, удобных для ввода в память ЭВМ. Предлагаемая книга не претендует на исчерпывающую полноту описания всех возможных вариантов представлений молекул в компьютерном виде. Цель пособия — познакомить студентов с основными наиболее распространенными кодировками и научить самостоятельно кодировать и расшифровывать структуры химических соединений. В учебном пособии рассмотрены основные типы представления органических молекул в компьютерном виде: линейные нотации WLN, ROSDAL, SMILES, SLN, InChI и табличные представления — Z-матрицы, MOL-, SDF- и RDF-форматы. Книга содержит теоретический и практический материал. В заключительном разделе пособия приводятся варианты контрольных заданий, которые могут быть использованы преподавателем для проведения как текущей, так и итоговой аттестации студентов. Дается список литературы для более углубленного изучения линейных и табличных нотаций. Данное учебное пособие представляет собой коллективный труд преподавателей кафедры технологии органического синтеза химико-технологического института Уральского федерального университета. Авторы выражают глубокую признательность Ю. Ю. Моржерину за ряд ценных советов, данных им при подготовке пособия. ÏÐÅÄÈÑËÎÂÈÅ
Хемоинформатика — это научная дисциплина, возникшая в последние 50 лет в пограничной области между химией и вычислительной математикой. Во второй половине XX в. стало ясно, что во многих областях химии огромный объем информации, накопленный в ходе химических исследований, может быть обработан и проанализирован только с помощью компьютеров. Более того, многие из проблем в химии настолько сложны, что для их решения требуются новые подходы, основанные на применении методов информатики. Исходя из этого были разработаны методы для построения баз данных по химическим соединениям и реакциям для прогнозирования физических, химических и биологических свойств соединений и материалов, для поиска новых лекарственных препаратов, анализа спектральной информации, для предсказания хода химических реакций и планирования органического синтеза. Современное понятие «химическая структура» весьма разноплановое и многоаспектное, однако графические плоские изображения молекул — их структурные формулы до сих пор остаются основным способом выражения информации о строении химических соединений. Именно эти «картинки» являются естественным языком химиков, именно с них начинается обсуждение тех или иных свойств конкретного вещества. По образному выражению академика Н. С. Зефирова, «структурная формула — это геном свойств химического соединения». Фактически это означает, что, имея в своем распоряжении адекватные способы параметризации двухмерной структурной формулы и методы извлечения содержащейся в ней информации, исследователь может получить до 90 % сведений о свойствах изучаемого вещества из структурной формулы. Традиционно используемая и по сей день классическая фрагментация структурных формул соединений по функциональным группам, кратным связям, циклам, ароматическим или конденсированным системам лежала в основе большинства ранних работ ÂÂÅÄÅÍÈÅ
по исследованию соотношений «структура — биологическая активность». Она позволяет выявлять умозрительные эмпирические закономерности, например, такого типа: соединения, содержащие короткие ненасыщенные цепи, более активны, чем подобные им насыщенные соединения; введение алкильных радикалов в положения 1 или 3 уменьшает длительность действия соединений и наделяет их возбуждающим действием. Формирование во второй половине XX в. научного направления QSAR как самостоятельного раздела науки потребовало разработки унифицированных способов кодирования структурных формул соединений совокупностью подструктурных фрагментов, удобных для использования в задачах вычислительного прогноза биологических и небиологических свойств веществ. В хемоинформатике для внутреннего представления структур химических соединений обычно используются молекулярные графы, которые могут быть при необходимости дополнены информацией о трехмерных координатах атомов, а также о динамике их изменения во времени. Долговременное хранение химической информации и обмен ею между приложениями осуществляется при помощи файлов, организованных в соответствии с типами внешнего представления химической информации. Простейшим типом внешнего представления структур химических соединений являются линейные нотации в виде строки символов. Исторически первым видом линейных нотаций явилась линейная нотация Висвессера (WLN). В настоящее время наиболее распространенным видом линейных нотаций являются строки SMILES. Кроме того, применяются линейные нотации SLN (Sybyl Line Notation, Tripos, Inc.; содержит также возможность спецификации структур Маркуша), SMARTS (расширение SMILES для поисковых запросов к химическим базам данных), ROSDAL. Для унификации кодировки химических структур в 2005 г. ИЮПАК (Международный союз теоретической и прикладной химии, IUPAC) принял универсальную линейную нотацию InChI и InChIKey. Второй тип внешнего представления структур химических соединений и реакций между ними основан на непосредственном кодировании матрицы смежности молекулярного графа. Такие распространенные форматы, как MOL, SDF и RDF, которые в настоящее
время являются общепринятыми стандартными для обмена химической информацией, можно считать способами представления в виде текстового файла матрицы смежности молекулярного графа. Этой же цели служат и специфические форматы MOL2, HIN, PCM и др., предназначенные для работы с распространенными программами по молекулярному моделированию. Наконец, третий тип внешнего представления структур химических соединений основан на технологии XML. Наиболее распространенным языком описания химической информации, опирающимся на эти принципы, является CML.
1.1. ЕДИНИЦЫ ИЗМЕРЕНИЯ ИНФОРМАЦИИ Обычно информация представляет собой последовательность символов. Каждый символ имеет каноническое изображение, которое позволяет однозначно идентифицировать данный символ. Варианты начертания символов задают разные шрифты. В вычислительных машинах для представления информации используются цепочки байтов. Поэтому для перевода информации из машинного представления в понятный для человека вид необходимы таблицы кодировки символов — таблицы соответствия между символами определенного языка и кодами символов. Их еще называют кодовыми страницами или применяют английский термин character set (который иногда сокращают до charset). В ЭВМ применяется двоичная система, т. е. все числа в компьютере представляются с помощью нулей и единиц, поэтому компьютер может обрабатывать только информацию, представленную в цифровой форме. Для преобразования числовой, текстовой, графической, звуковой информации в цифровую необходимо применить кодирование. Кодирование — это преобразование данных одного типа через данные другого типа. В ЭВМ применяется система двоичного кодирования, основанная на представлении данных последовательностью двух знаков: 1 и 0, которые называются двоичными цифрами (binary digit — сокращенно bit). Таким образом, единицей информации в компьютере является один бит, т. е. двоичный разряд, который может принимать значение 0 или 1. Восемь последовательных битов составляют байт. В одном байте можно закодировать значение одного символа из 256 возможных (256 = 2 в степени 8). Более крупной единицей информации является килобайт (Кбайт), равный 1024 байтам (1024 = 2 в степени 10). Еще более крупные единицы измерения данных: мегабайт, 1. ÏÐÅÄÑÒÀÂËÅÍÈÅ ÈÍÔÎÐÌÀÖÈÈ Â ÊÎÌÏÜÞÒÅÐÍÎÌ ÂÈÄÅ
гигабайт, терабайт (1 Мбайт = 1024 Кбайт; 1 Гбайт = 1024 Мбайт; 1 Тбайт = 1024 Гбайт). Целые числа кодируются двоичным кодом довольно просто (путем деления числа на два). Для кодирования нечисловой информации используется следующий алгоритм: все возможные значения кодируемой информации нумеруются и эти номера кодируются с помощью двоичного кода. Например, для представления текстовой информации используется таблица нумерации символов или таблица кодировки символов, в которой каждому символу соответствует целое число (порядковый номер). Восемь двоичных разрядов могут закодировать 256 различных символов. Самой известной таблицей кодировки является код ASCII (Американский стандартный код для обмена информацией). Первоначально он был разработан для передачи текстов по телеграфу, причем в то время он был 7-битовым, т. е. для кодирования символов английского языка, служебных и управляющих символов использовались только 128 7-битовых комбинаций (табл. 1). Таблица 1 Первые 128 значений кодировочной таблицы ASCII .0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A .B .C .D .E .F 0. NUL SOH STX ETX EOT ENQ ACK BEL BS TAB LF VT FF CR SO SI 1. DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US 2. ! " # $ % & ′ ( ) * + , . / 3. 0 1 2 3 4 5 6 7 8 9 : ; < = > ? 4. @ A B C D E F G H I J K L M N O 5. P Q R S T U V W X Y Z [ \ ] ^ _ 6. ` a b c d e f g h i j k l m n o 7. p q r s t u v w x y z { | } ~ DEL При этом первые 32 комбинации (кода) служили для кодирования управляющих сигналов (начало текста, конец строки, перевод каретки, звонок, конец текста и т. д.). При разработке первых