reforef.ru 1
База данных для быстрой классификации белков


по данным рентгеновского малоулового рассеяния.

Анна В. Соколова1,2, Владимир В. Волков2, Дмитрий И. Свергун1,2
1 Европейская лаборатория молекулярной биологии, Гамбург, Германия

Notkestrasse 85, D-22603, Hamburg, Germany

2 Институт Кристаллографии РАН, Москва, Россия

Ленинский проспект, 59, 117533, Москва, Россия

e-mail: anna.sokolova@embl-hamburg.de

Одним из наиболее быстрых способов классификации белков является поиск аналогов в пространственной структуре и/или в аминокислотной последовательности. Сходство в трехмерной структуре белка, если таковая известна, должно больше коррелировать с биохимическими функциями молекул, чем одно лишь сходство первичной структуры. В тех случаях, когда атомная модель белка неизвестна, структурная информация о частице может быть получена методом малоуглового рассеяния (МУР). Современные методы анализа данных МУР позволяют восстановливать структуру молекулы ab initio с пространственным разрешением 1-2 нм, но требуют существенных затрат компьютерного времени. В данной работе описан метод быстрой характеризации белков, основанный на сравнении экспериментальных данных МУР с базой данных, содержащей около1500 кривых рассеяния известными структурами. Возможности метода иллюстрируются его применением к анализу экспериментальных данных рассеяния миоглобином кашалота.
Введение.

Определение связи между функцией и структурой биологических макромолекул является одной из фундаментальных задач современной молекулярной биологии. Белки с похожими пространствеными структурами с большей вероятностью выполняют похожие функции, чем белки, похожие только лишь по первичной последовательности. Поэтому разработаные в последнее десятилетие для анализа связи "структура - функция" базы данных (такие как SCOP [1] и CATH [2]) используют алгоритмы, главной задачей которых является поиск гомологий в пространственной упаковке цепей аминокислотных остатков в структурах высокого разрешения. Такой подход позволяет получать больше информации о возможных функциях белков, чем анализ схожести только первичных последовательностей, но, очевидно, не может применяться для молекул, атомная структура которых неизвестна. В настоящей работе предлагается метод классификации белков с неизвестной атомной структурой по данным рентгеновского МУР от растворов.


Интенсивность МУР I(s) разбавленными монодисперсными растворами частиц преставляет собой гладкую убывающую функцию модуля вектора рассеяния , где θ - угол рассеяния и λ - длина волны рентгеновского излучения. Пространственное разрешение экспериментальных данных D связано с величиной вектора рассеяния s следующем соотношением: , и интенсивность в диапазоне векторов рассеяния от 0 до 9 нм-1 соответствует разрешению до 0.7 нм. Из-за хаотической ориентации частиц в растворе функции I(s) изотропны и при более высоком разрешении кривые рассеяния различными белками практически неотличимы друг от друга [3]. Информация о четвертичной структуре молекулы (разрешение примерно до 4 нм) содержится в диапазоне s от 0 до 1.5 нм-1, информация o внутренней (вторичной и третичной) структуре (разрешение от 1.5 до 0.7 нм) - в диапазоне величин вектора рассеяния от 4 до 9 нм-1 (рис.1). Для классификации белков по данным МУР было решено анализировать два участка кривых, которые можно назвать "внутренней" ( 0 < s < 1.5 nm-1) и "внешней" ( 4 < s < 9 nm-1) частями. Такой подход к построению базы данных позволяет независимо анализировать информацию о форме и внутренней структуре частицы.



Рис. 1

8 кривых рассеяния белками, молекулярные массы которых лежат в интервале от 100 до 300 kDa. Внутренние части кривых рассеяния показаны штрихами, внешние - пунктиром.
Атомные модели и критерии сравнения кривых.

На данный момент созданная нами база структур содержит около 1500 моделей атомного разрешения биологически активных олигомеров из архива Брукхевенской Базы Данных Белков (PDB) [4]. Были взяты белковые модели, длины последовательностей аминокислотных остатков которых лежат в интервале от 50 до 3000, полученные методом рентгеновской кристаллографии. Поскольку стандартные файлы PDB часто содержат лишь координаты атомов независимой части кристаллографической ячейки и матрицы преобразований, необходимых для образования структуры целой биологически активной молекулы, нами были написаны компьютерные программы, анализирующие и применяющие операции симметрии, описанные в PDB файлах. Таким образом, наша база данных содержит модели биологически активных олигомеров, т.е. реально ожидаемых белков в растворе. При выборе белковых моделей из PDB исключались структурные гомологи (в соответствии с критериями PDB), что позволило свести к минимуму процент моделей с высокой степенью гомологии в базе данных.


Большое влияние на поведение кривых МУР оказывает молекулярная масса (ММ) белка. Для того чтобы исключить это влияние на результаты анализа и расчетов, все структуры были разделены на 26 наборов, в каждом из которых разница в ММ между белками составляет не более 50 кДа. Все модельные расчеты велись с использованием кривых расссеяния, расчитанных от структур атомного разрешения программой CRYSOL [5].

Как отмечено выше, кривые МУР - быстро убывающие функции вектора рассеяния, и сравнение таких данных рассеяния - нетривиальная задача. В общем виде математический критерий для сравнения двух одномерных кривых рассеяния (R-фактор) может быть записан в следующем виде:



где ScaFac - шкалирующий множитель, позволяющий наилучшим образом приблизить две кривые друг к другу методом наименьших квадратов:



а W(si) - весовая функция выбор которой зависит от контекста задачи. Нами были проанализированы несколько функциональных зависимостей (W(s) = s; W(s) = s2, a также сравнение в логарифмической шкале). Оказалось, что R-фактор со значением весовой функции, равном s (соответствующем значению весовой функции, используемому в теореме Котельникова об информационном содержании данных МУР [6]), наиболее чувствителен к изменениям хода зависимости I(s) и может быть использован для анализа как внутренней, так и внешней частей МУР кривых. R-факторы для этих двух интервалов будут в дальнейшем обозначаться RfI и RfM, соответственно.
Внутренняя часть данных МУР однозначно определяет форму белка.

При анализе внутренней части данных МУР в первую очередь были поставлены следующие вопросы: (1) существуют ли молекулы с различной формой, которые дают совпадающие кривые рассеяния; (2) чему равно максимальное значение RfM, отвечающее молекулам с практически совпадающей формой?


Первым шагом был расчет величин RfI для каждой пары кривых внутри каждого из 26 наборов. Одновременно с этим программой SUPCOMB [7] расчитывался количественный критерий совпадения формы для каждой пары молекул. Две произвольные трехмерные структуры, представленные набором точек, располагаются программой SUPCOMB в пространстве, минимизируя параметр, называемый нормированной пространственной невязкой (NSD). NSD расчитывается следующим образом: от каждой точки в первой модели определяются расстояния до каждой точки во второй модели и находится их минимальное значение. Затем та же процедура выполняется для каждой точки второй модели и все полученные величины суммируются и нормируются на усредненные расстояния между соседними точками в каждой модели. Следовательно, NSD является количественным критерием расхождения трехмерных объектов, который для близких структур принимает значения близкие или меньшие единицы.

Для сокращения компьютерного времени структуры атомного разрешения при расчетах NSD были заменены моделями, состоящими из плотно упакованных виртуальных атомов диаметром 0.3 - 0.4 нм. Такая операция сохраняет общую форму частицы и дает значения NSD, адекватно представляющие уровень схожести формы моделей.

Корреляция между значениями RfI и NSD на рис.2 позволяет сделать следующие выводы:

1.Максимальное значение RfI, соответствующее определенно близким структурам низкого разрешения (NSD < 0.8), равно 2%.

2. Значения RfI, превышающие 5%, соответствуют существенно разным внешним формам молекул белков.



Рис.2.

Значения RfI (сплошная кривая) и NSD (точки) для 1378 пар кривых МУР от 53 белков, молекулярные массы которых лежат в интервале от 35 до 40 kDa.

На рис. 3 показана две пары структур, имеющих похожие (NSD = 0.96; RfI = 0.2 %) и существенно разные (NSD = 1.8; RfI = 14.9 %) четвертичные структуры и соответствующие им расчитанные кривые МУР.




Рис. 3

(a) Белки с похожей формой (1b4v.pdb - слева и 1f0i.pdb - справа) и теоретические кривые рассеяния (1b4v.pdb – сплошная линия; 1f0i.pdb – штриховая линия);

(b) Белки, с различной формой (1lop.pdb - слева и 1jjv.pdb - справа) и соответствующие кривые рассеяния (1lop.pdb – штрих-пунктирная линия, 1jjv.pdb - пунктир).

Интересно заметить, что не было найдено ни одного случая, где бы паре кривых рассеяния существенно разными частицами (NSD > 1.4) соответствовало бы низкое (меньше 2%) значение RfI. Иными словами, часть данных МУР, содержащая информацию о структуре низкого разрешения, однозначно определяет форму частицы. Этот результат нетривиален потому, что вследствие хаотической ориентации частиц в растворе большая часть структурной информации теряется и I(s) есть изотропная, т.е. одномерная функция вектора рассеяния. Подтверждение существования однозначной связи между формой частиц и начальной частью кривой рассеяния хорошо коррелирует с возможностью восстановления формы прямыми методами анализа данных МУР [8, 9]. С другой стороны, явной корреляции между значениями линейных геометрических параметров, таких, например, как максимальный диаметр частицы, и RfI не обнаружено.
Внешняя часть данных МУР: аналоги по доменной структуре.

При анализе внешней части данных МУР был в первую очередь поставлен вопрос: какой интервал значений RfM соответствует кривым рассеяния белками с похожей внутренней структурой? По аналогии с процедурой, описанной в предыдущем разделе, были рассчитаны значения RfM для каждой пары структур. Было найдено, что кривые рассеяния белками с существенно разной внутренней структурой дают значение RfM, большее 15%, вследствие чего такие пары были исключены из дальнейшего рассмотрения.

Белки, внешние части кривых рассеяния от которых относительно близки друг к другу (RfM < 15%), как правило, действительно выглядят похожими на низком разрешении, но для описания этого сходства необходимы количественные или статистические критерии. Мы попытались найти корреляцию между RfM и вторичной структурой молекул белков используя базу данных Class Architecture Topology Homologous superfamily (CATH). CATH представляет собой иерархическую классиффикацию 18577 биомакромолекул и составляющих их доменов по их соответствию эволюционным семействам и структурным группам. Класс является верхним (первым), самым грубым уровнем классификации, который определяется только по процентному содержанию α-спиралей и β-листов. Согласно CATH можно выделить три основных класса структур: образованные только α-спиралями (класс α), только β-листами (класс β) и представляющие собой композицию этих двух элементов (класс α+β). Используя это разделение, все 1500 кривых МУР нашей базы данных были разделены на три группы. Для каждой были расчитаны средние кривые: Iα(s), Iβ(s) и Iα+β(s), которе должны были отражать особенности поведения кривых рассеяния белками, принадлежащих к определенному структурному классу. С помощью программы OLIGOMER каждый набор данных I(s) был представлен в виде линейной комбинации функций Iα(s), Iβ(s) и Iα+β(s):




где wα, wβ и wα+β - соответственно, весовые коэффициенты для Iα(s), Iβ(s) и Iα+β(s) в разложении кривой I(s), значения которых распологаются в интервале от 0 до 1.

В большинстве случаев принадлежность белка к своему классу определяется однозначно, т.е. соответствующий весовой коэффициент разложения wi равен 1. Но, тем не менее, обнаружено достаточное количество структур, для которых это не так (пример совпадения внешних частей кривых рассеяния двумя белками из классов α и β приведен на рис. 4а). Очевидно, что достоверный анализ более высоких уровней классификации CATH на основе данных МУР не представляется возможным.

Для нескольких произвольно выбранных пар белков, имеющих близкие (RfM<15%) среднеугловые части кривых рассеяния, уровень гомологии был оценен с помощью системы сравнения структур DALI [10]. Алгоритм DALI, в частности, определяет количественный статистический критерий, обозначаемый Z, для двух макромолекулярных структур атомного разрешения. Значения Z меньше 2 отвечает определенно разным структурам; 2 ≤ Z < 10 - структурам с низким уровнем гомологии; Z ≥ 10 - определенно похожим структурам. Была замечена определенная корреляция между значениями RfM и Z: для похожих структур (Z > 2) RfM = 6 ± 3%; для разных (Z < 2 ) - RfM = 12 ± 6%. В большинстве случаев внешние части данных МУР, соответствующие гомологичным структурам (Z ≥ 10), близки друг к другу (RfM < 6%) (рис.4b), но встречаются, тем не менее, структурные гомологи с Z > 4, дающие RfM , превышающий 10 %.



Рис.4

(a) Белки, принадлежащие к разным классам ( 2bbk.pdb,класс α, слева; 2had.pdb, класс β, справа) и соответствующие кривые рассеяния (RfM = 3.8 %): треугольники - рассеяние 2bbk.pdb; штрих-пунктир - рассеяние 2had.pdb).

(b) Гомологичные белки по классификации DALI (1j9y.pdb, слева; 1pud.pdb, справа; Z = 10.5) и соответствующие кривые рассеяния (RfM = 4.6%): штриховая линия – рассеяние 1j9y.pdb; сплошная линия – рассеяние 1pud.pdb.
Таким образом нам не удалось обнаружить однозначной корреляции между значениями RfM и степенью гомологии в базах данных белковых структур высокого разрешения. Тем не менее, совпадение внешних частей кривых является индикатором похожей общей организации белка на низком разрешении. «Визуально» белки с низким RfM действительно похожи друг на друга, но это сходство проявляется скорее на уровне доменной структуры, чем на уровне третичной или вторичной структуры белка.
Пример использования базы данных.

В качестве тестового экспериментального примера для поиска похожих структур по базе данных была использована экспериментальная кривая рассеяния миоглобином кашалота, измеренная в диапазоне векторов рассеяния до s = 12 нм-1 на малоугловой камере D24 синхротрона LURE, Orsay, Франция. Экспериментальные данные рассеяния отклоняются от теоретической кривой, рассчитанной программой CRYSOL от структуры миоглобина в кристалле (1duo.pdb) на больших углах (рис.5). Это различие связано как с возможным остаточным фоновым рассеянием в экспериментальных данных, так и с тем, что предсказанные кривые рассеяния в базе данных рассчитаны программой CRYSOL для стандартных значений исключенного объема частицы и плотности ее гидратной оболочки. Для реальных белков эти значения могут варьироваться и приводить к систематическим отклонениям. Поскольку такие отклонения могут быть на больших углах рассеяния с достаточной точностью учтены путем добавления постоянного члена к данным рассеяния, то все последующие расчеты R-факторов проводились с автоматическим добавлением константы к одному из сравниваемых наборов данных. Как видно из рис. 5(c), такая процедура позволяет хорошо согласовать теоретическую и экспериментальную кривые рассеяния миоглобином в диапазоне расчета RfM.




Рис.5

Экспериментальная (a) , теоретическая (b) кривые рассеяния миоглобином.

(c) - экспериментальная кривая, приближенная с использованием шкалирующего фактора и константы к теоретической на интервале s от 4 до 9 нм-1.
Для отбора структурных аналогов миоглобина, факторы RfI и RfM были рассчитаны между экспериментальной кривой рассеяния (предварительно обработанной программой GNOM [11] для устранения статистического шума) и теоретическими кривыми, рассчитанными от 638 белков в диапазоне от 15 до 18 kDa. 182 белка, включая 12 его гомологов миоглобина, давшие RfI < 2%, имели форму, близкую к форме миоглобина (NSD < 1). Среди 24 белков с RfM < 10 %, восемь оказались гомологами миоглобина по последовательности, а типичные структуры остальных аналогов по внешней части кривой представлены на рис.6.



Рис.6

(a) – 1duo.pdb; (b) – 1k6k.pdb; (c) – 1sra.pdb; (d) – 1jwf.pdb; (e) - 1byr.pdb (правый столбец повернут на 90º вокруг горизонтальной оси) и соответствущие кривые рассеяния. На дополнительном графике показаны внешние части кривых в увеличенном масштабе.

Данное сравнение наглядно иллюстрирует, что такое «похожесть» структур, определяемая внешними частями кривых МУР. Сходство этих участков кривых зависит не столько от элементов вторичной структуры (хотя в данном случае большинство найденных аналогов пронадлежат, как и миоглобин, к α-классу), сколько от регулярностей в общей организации белка.

Интересно, что все структуры, которым отвечают близкие внешние части кривых (RfM < 10%) имеют также похожие формы низкого разрешения (RfI < 3%). Это значит, что сходство структуры низкого разрешения - обязательное условие сходства кривых рассеяния в интервале вектора рассеяния от 4 до 9 нм-1, и позволяет заключить, что для белков с близкими молекулярными массами внешняя часть данных МУР может давать, в дополнение к внутреннему интервалу, важную информацию о структуре низкого разрешения.

Заключение.

В данной работе предлагается новый подход к анализу данных МУР белками, основанный на использовании базы теоретических кривых рассеяния известными структурными моделями. Разработанная база данных позволяет быстро находить белки с похожей формой (по внутренним частям кривых рассеяния), а также аналоги по доменной структуре – по внешним частям. В настоящее время база данных содержит 1500 структур и планируется ее дальнейшее расширение, а также создание Web-портала для ее использования через Интернет. Развитый подход может быть полезен для быстрой классификации белков по данным МУР. Это особенно актуально в свете современных инициатив по структурной геномике, в первую очередь для тех белков, структуру которых не удается решить с высоким расрешением.

Авторы благодарны П.Вашету за предоставленные данные рассеяния миоглобином, а также М.Коху за полезные обсуждения. Данная работа финансировалась грантами INTAS (00-243 и YSF 2001/2-133), DAAD (A/02/24151) и грантом EMBO (ASTF 08-02).


Список литературы:
1. Murzin, A. G., Brenner, S. E., Hubbard, T. & Chothia, C. (1995), J. Mol.Biol. 247: 536-540; http:// scop.berkeley.edu

2. Pearl, F.M.G., Lee, D., Bray, J.E., Sillitoe, I., Todd, A.E., Harrison, A.P., Thornton,J.M.&

Orengo, C.A. (2000), Nucleic Acids Research 28(1):77-282; http://www.biochem.ucl.ac.uk/bsm/cath_new

3. Svergun, D.I., Petoukhov M.V. & Koch M.H.J. (2001), Biophys. J. 80: 2946-2963

4. Bernstein, F.C., Koetzle, T.F., Williams, C.J., Meyer, E.E.Jr., Brice, M.D.,

Rodgers, J.R., Kennard, O., Shimanouchi, T. & Tasumi, M. (1977),

J. Mol. Biol. 112: 535-542; http://www.rcsb.org

5. Svergun, D.I., Barberato, C. & Koch, M.H.J. (1995) , J. Appl. Crystallogr. 28: 768-733

6. Котельников В.А., Николаев А.М., "Основы радиотехники" (1950);


Изд-во "Связьиздат"

7. Kozin, M.B. & Svergun, D.I. (2001), J.Appl Cryst. 34: 33-41

8. Svergun, D.I. (1999), Biophys. J. 76: 2879-2886

9. Svergun, D.I., Volkov V.V., Kozin M.B. & Stuhrmann H.B. (1996) Acta Cryst, A52, 419-426

10. Holm, L. & Sander, C. (1993), J. Mol. Biol. 233: 123-138; http://www2.ebi.ac.uk/dali

11. Svergun D.I. (1992) J.Appl. Cryst., 25, 495-503

12. Muller, J.J., Damaschun, G. & Schrauber, H. (1990), J.Appl Cryst. 23: 26-34

13. Фейгин Л.А., Свергун Д.И. "Рентгеновское и малоугловое рассеяние" (1986);

Изд-во "Наука", Москва