КОНЦЕПТУАЛЬНЫЙ ПОДХОД К КЛАССИФИКАЦИИ МУТАЦИЙ В ГОМОЛОГИЧНЫХ БЕЛКАХ
Б. В. Чавчанидзе, К. С. Квинихидзе
Институт систем управления АН Грузии, Тбилиси
Анализ первичных структур гомологичных белков дает представление об области макромолекулы, необходимой для осуществления ее основной функции, и содержит сведения о путях биологической эволюции. Введение понятия «концепт-белок», а так-же описание процесса точечных мутаций на языке алгебры логики позволили создать алгоритм классификации мутаций в гомологичных белках и выявить так называемые «дополнительные полипептиды», которые либо еще не обнаружены, либо' уже не су-ществуют, либо по каким-то причинам не могут существовать.
Введение.
Как известно, гомологичные белки - это белки, выполняющие сходные невидоспецифические функции в различных организмах незави-симо от сложности внутреннего строения этих организмов и принадлеж-ности к одному биологическому виду или даже классу.Степень структурной близости гомологичных белков определяет их принадлежность к родственным видам, а степень .различия в структуре и характер этих различий могут, по-видимому, свидетельствовать о пути, которым шла эволюция видов. Изменения в первичной структуре белков, в результате которых могут возникать новые виды, эволюционировать или исчезать старые, явились результатом спонтанных мутаций, порож-дающих вставки, делеции или замещения' аминокислот. Изучение вопро-са о том, какие из этих изменений были закреплены в процессе эволю-ции, что повлекли за собой в организме как целостной системе, чем они вызваны и как отражаются на матричном Уровне в структуре нуклеино-вых кислот,-все эти вопросы представляют большой интерес не только как способ познания истины, но и как средство, которое может быть ис-пользовано в последующем для целенаправленного изменения свойств организмов. Этому могут послужить средства генной инженерии, полу-чившие широкое распространение в последнее время.
Хорошо известно также, что как при спонтанном мутационном про-цессе, так и при индуцированном мутагенезе генные или точечные му-тации способны затрагивать область из одной или нескольких пар осно-ваний. Эти мутации могут быть следствием замены, вставок или делений пар оснований в структурной части гена, в результате чего образуется аномальный белок либо с заменой аминокислотных остатков, либо с на-рушенной их последовательностью. Причиной точечных 'мутаций также могут быть транзиции, трансверсии, делеции или вставки на нуклеотид-ном уровне, происходящие спонтанно или вызванные химическими му-тагенами, в частности, HN0, ЛСД или коротковолновым излучением- ультрафиолетовым, рентгеновским, γ-лучами.
В настоящей работе рассматриваются точечные мутации, порожда-ющие только транзиции и трансверсии, и предлагается способ (метод) классификации таких мутаций в зависимости от того, на каком месте в триплете произошла мутация.
Концептуальный подход. При построении моделей различных объек-тов молекулярной генетики нами используются концепция и подходы, развитые в работах по искусственному концептуальному интеллекту [1, 2], а также модели и гипотезы по использованию идей концептуализа-ции, разработанные в целях построения так называемых «концепт-бел-ков» [3-6].
Согласно этому подходу, понятие об объекте исследования может быть обобщено в отношении целостного восприятия одновременно не-скольких объектов одного класса, и этот класс объектов, объединенных общими свойствами, рассмотрен как концепт-объект, как некий соби-рательный образ, который можно назвать «супергомобелок».
Для построения концепт-объекта гомологичных неспецифических белков у разных видов необходима формализация знаний. Так, для по-строения концепт-объектов белка и нуклеиновых кислот были использо-ваны методы формальной логики и теории предикатов [7, 8]. В этих работах свойства нуклеотидов, входящих в состав ДНК, представляют-ся следующим образом: P-свойства пуринов (А, G) быть длинными, т. е. иметь длину 0,7 нм; -свойство пиримидинов (С, T (U)) -быть короткими, т. е. иметь длину 0,5 нм. Свойства нуклеотидов в двойной спирали образовывать три водородные связи - Р, таким «свойством» обладают G и С; свойство же - присуще тем нуклеотидам, которые соединены в двойной спирали ДНК двумя водородными связями. Это А и Т. То же свойство приписывается основанию U. Введение такого обобщения свойств нуклеотидов позволяет формализовать запись пяти оснований следующим образом:
G- P1P2=Q1; C- P=Q3;
A-P Р=Q
2; T(U) - P Р=Q4Каждое основание представляется в виде двухместного предиката Q
i, i=. Используя эти обозначения, можем представить первичную структуру нуклеиновых кислот в виде конъюнкции предикатов:Q&Q& Q& Q& Q…,
образованной четырьмя структурными единицами.^ аналогичной форме может быть представлена и первичная структура белка с той лишь раз-ницей, что структурных единиц будет двадцать:
В*&Н&Р&М&М&М&F&К...,
где каждой аминокислоте соответствует один или несколько вектор-столб-цов
(Qi), i, j, k =
(Q)j
(Qk)
Вырожденность генетического кода будет изображаться дизъюнк-цией вектор-матриц соответствующих триплетов, т. е. объединением три-плетов, являющихся кодом для данной аминокислоты [3].
Учитывая свойство коммутативности дизъюнкций, результат объ-единения элементов матрицы можно записать так:
QVQ=P QVQ=R RV=
QVQ= QV Q= QVQ2VQ3VQ4=
Q1VQ3=P2 PV= QmVQnVQp=-QI
Q2 VQ4= P2 V= m,n,p,i=; mnpi.
Соответственно, триплеты оснований будут иметь вид:
QI P1 P2 R
Qj, , R, P1…,
Qk
Согласно введенному выше определению, концепт-белок представ-ляет собой конъюнкцию «обобщенных аминокислот», описываемую «обобщенными триплетами». Обобщенным триплетом мы называем объ-единение (логическую сумму) тех триплетов, которые кодируют всю со-вокупность аминокислот, расположенных в данной позиции (локусе) в белке.
Очевидно, что на каждом уровне обобщенного триплета может на-ходиться один или несколько нуклеотидов. Число нуклеотидов, входящих в состав обобщенного триплета, является логической суммой степени вырожденности триплетов, кодирующих всю совокупность аминокислот, входящих в состав обобщенной аминокислоты.
При вычислении обобщенного триплета, соответствующего обобщен-ной аминокислоте, для п гомологичных белков (п - мерный концепт-белок), руководствовались следующими правилами [3]. .
1. Элемент каждой строки обобщенного триплета является объеди-нением (логической суммой) соответствующих элементов триплетов, ко-дирующих каждую из аминокислот, расположенных в данной позиции рассматриваемого семейства гомологичных белков.
2. Триплеты, входящие в состав обобщенного триплета, но не явля-ющиеся кодом ни для одной из аминокислот, расположенных в данной позиции рассматриваемого семейства гомологичных белков, называются дополнительными триплетами. Обобщенный триплет может и не содер-жать дополнительных триплетов.
3. Аминокислоты, которые кодируются дополнительными триплета-ми, называются дополнительными аминокислотами данной обобщенной аминокислоты. Обобщенная аминокислота может и не содержать допол-нительных аминокислот.
Таким образом, концепт-белок не только содержит каждый из со-ставляющих его гомологичных белков в качестве «траектории» или «ре-ализации» в пространстве концепта, но и так называемые «дополнитель-ные белки», которые либо еще не найдены, либо уже не существуют, .либо по каким-то причинам не могут существовать.
Результаты и обсуждение. Приведенные нами алгоритмы и формы представления знаний позволили получить интересный биологический результат-осуществить классификацию точечных, т. е. изменяющих только одно основание в триплете, мутаций в гомологичных белках (табл. I): а) молчащая мутация либо не вызывает изменения смысла .кодирования, либо приводит к замещению одной аминокислоты другой, отличающейся основанием, расположенным на III месте (уровне) в триплете.
В этом случае обобщенный триплет имеет вид: Q
i, где Z=, , ,Qj
Z
(-Qk) или ; k=;
б) простая точечная мутация, приводящая к замещению аминокислоты и возникающая в результате замещения нуклео-тидов, расположенных на первом или втором месте в триплете. Обобщен ный триплет в этом
x Qi
случае имеет вид: Q
j или y, где x==, , , (-Qj) или , y==, ,Q Q
, (-Qi) или ; i,j=;
в) сложная мута-дия, т. е. мутация, которая также приводит к замене аминокислот в белке, однако причиной сложной мутации является одновременное изменение-нуклеотидов, расположенных на первом и втором уровнях в триплете, Обобщенный триплет в сложной мутации
x
может иметь вид: y
Изучаемые нами объекты молекулярной биологии являются резуль-татом исследований, проводимых традиционно специалистами различ-' ных направлений физики, химии, биологии. Нами создана программа,, позволяющая классифицировать основные причины изменений в пер-вичной структуре белка, т. е. определить точечные мутации как «мол чащие», «простые» и «сложные». Банк данных содержит
сведения о 10 гомологичных белках: инсулине, цитохромах, гемоглобине (α-, β-, γ-цепи) и др.Реализованы алгоритмы, позволяющие получать обобщенный белок,. обобщенную аминокислоту, дополнительные аминокислоты (табл. 2).
Создана программа, дающая возможность оценивать частоту встреч тех или иных аминокислот в данной позиции, т. е. получать данные о. «наиболее» и «наименее» вероятных составах полипептидов для данно-го семейства гомологичных белков, относящихся к данному «суперго-мобелку» как к своему «концепт
-белку». Что же касается проблемы ин-терпретации обобщенного набора свойств конкретного «супергомобел-ка», то это предмет экспериментальных и теоретических исследований будущего. Граница различия и отождествления тех элементов, которые организуют и обеспечивают неспецифические гомологичные белковые структуры, останется непостижимой, пока не будет решена задача иден-тификации, распознавания и классификации материальных белковых структур лабильно-устойчивой природы. Индивидуальность и коллек-тивность проявляются уже на уровне белков и особенно гомологичных.
Т а бл и ц а 1
Классификация мутаций гомологичных белкоз
Белок Число гомологичных белков, n Длина поли-пептидной цепи пробелы Молчащие мутации Точечные мутации Сложные мутации
Изменяющие амино-кислоту Не изменяю-щие амино-кислоту транзиции трансвер-сии Транзиции и трансвер-си
Аномальные гемоглобины
человека 4 148 - 2 56 19 (15) 18(13) 7(7) 46Цитохромы С 26 112 - 2 37 5 (4) 4 (1) 5(5) 59
Цитохром С
последова-тельности общих предков 17 119 - 2 70 5(5) 5 (4) 5 (4) 32Цитохром С2
из Rhodospirillum rubrum 9 123 16 2 25 9(6) 11 (6) 7(7) 53-
Цифры в скобках соответствуют изменениям, расположенным на 1-м месте в триплете.
Таблица2 Дополнительные аминокислоты локусов 11-16 цитохрома
C2 из Rhodospirillum rubrumЛокус Амино-кислоты Обобщенные триплеты Дополнитель-ные триплеты Допол нительные амино-кислоты Обобщенные аминокислоты Классифика-ция мутаций
11 VIA Q2 Q2 Q4 Q3 Q1
MT Сложная12 ЕК
Q2 __ __ Точечная (транзиция)13 G Qi __ __ G
Молчащая14 КА P
1 R Q Q2 Q1 Q2 Q3 Q2 Q2 TEDN TEDN Сложная.15 КТ Q
2 R Q2 Q2 N KTN Точечная" (трансвер-сия)16 IL -Q1 Q4 Q2 Q4 Q4 Q4 Q1 MF ILMF
Точечная (транзиция и трансвер-сия)
* Использовано общепринятое в настоящее время однобуквенное обозначение амино-кислот.
СПИСОК ЛИТЕРАТУРЫ
1.Чавчанидзе В. В. К теории естественного и искусственного концептуального ин-теллекта // Материалы IV МОКИИ.- Тбилиси, 1976.- С. 7-17.
2. Chavchanidze V. V. Towards the general theory of conceptual systems // Kybernetes-1972-3, №l -P.17-25.
3.Квинихидзе К. С. Использование концептуального подхода для выявления допол-нительных аминокислотных последовательностей //Сообщ. АН ГССР-1985.- 118, № 1.С. 57-60.
4. Квинихидзе К. С., Чавчанидзе В. В. Концептуальный подход к описанию эволюции белковых структур // Там же.- 1976.- 84, № 2.- С. 337-340.
5. Kvinikhidze К. S., Chavchanidze V. V. Application of conceptual approach to describe the evolution of protein structure // Rep. at 8-th Int. Congr. on Cyberne-tics-Namur, 1976-P. 839-847.
6. Chavchanidze V. V., Kvinikhidze К. S. Biological structures computer modelling// Междунар. симпоз. «Физико-химия ДНК» : Тез. докл.-Тбилиси, 1987.-С. 223.
7. Carnap R. The logical foundation of probability.- Chicago : Univ. Chicago press, 1950.-P. 122-126.
8. Чавчанидзе В. В. К вопросу о расшифровке кода ДНК (РНК) и биологические соединения включения//Сообщ. АН ГССР.-1966.-44, № 1.-С. 19-26.
9. Чавчанидзе В. В., Квинихидзе К. С. О создании вычислимого понятия «концепт-объект» // Теория и устройства систем автомат, управления.- Тбилиси : Мецниереба, 1989.-С. 156-162.
10. Dayhoff М. О. Atlas on protein sequences and structure.-New York: Silver Spring Md., 1969- P. D8-D96.