Европейский институт биоинформатики
Европе́йский институ́т биоинформа́тики (англ. The European Bioinformatics Institute, EMBL-EBI) — межправительственная организация (МПО), часть Европейской молекулярно-биологической лаборатории (EMBL), занимается исследованиями и оказывает услуги в области биоинформатики. Институт расположен в кампусе Wellcome Genome Campus в Хинкстоне недалеко от Кембриджа, в нем работает более 600 сотрудников[1]. Руководители института, такие как Рольф Апвейлер, Алекс Бейтман, Эван Бирни и Гай Кокрейн, советник Научно-консультативного совета Национального центра данных по геномике, являются частью международной исследовательской сети BIG Data Center в Пекинском институте геномики[2].
Кроме того, в EMBL-EBI проводятся учебные программы, которые обучают учёных основам работы с биологическими данными и продвигают множество биоинформатических инструментов, доступных для их исследований, как на базе EMBL-EBI, так и без.
Биоинформационные услуги[править]
Одна из функций EMBL-EBI — индексирование и поддержание биологических данных в наборе баз данных, включая Ensembl (содержащий данные о последовательностях всего генома), UniProt (база данных последовательностей белков и аннотаций) и Protein Data Bank (база данных третичной структуры белков и нуклеиновых кислот). Предоставляются различные онлайн-сервисы и инструменты, такие как Basic Local Alignment Search Tool (BLAST) или инструмент выравнивания последовательности Clustal Omega, позволяющие проводить дальнейший анализ данных.
BLAST[править]
Basic Local Alignment Search Tool (BLAST)[3] представляет собой алгоритм сравнения первичной структуры биомакромолекул, чаще всего нуклеотидной последовательности ДНК/РНК и аминокислотной последовательности белков, хранящейся в биоинформатических базах данных, с последовательностью запроса. Алгоритм использует оценку доступных последовательностей по запросу с помощью матрицы оценки, такой как BLOSUM 62. Последовательности с наивысшей оценкой представляют собой ближайших родственников запроса с точки зрения функционального и эволюционного сходства[4].
Поиск по базе данных BLAST требует, чтобы входные данные были в правильном формате (например, в формате FASTA, GenBank, PIR или EMBL). Пользователи также могут указать конкретные базы данных для поиска, выбрать матрицы оценки, которые будут использоваться, и другие параметры перед запуском инструмента. Лучшие попадания в результатах BLAST упорядочиваются в соответствии с их рассчитанным значением E (вероятность случайного присутствия аналогичного или более результативного попадания в базу данных)[5].
Clustal Omega[править]
Clustal Omega[6] — это инструмент для выравнивания множественных последовательностей (MSA), который позволяет найти оптимальное выравнивание, по крайней мере, трех и максимум 4000 входных последовательностей ДНК и белков[7]. Алгоритм Clustal Omega использует две профильные скрытые марковские модели (Hidden Markov models, HMM) для получения окончательного выравнивания последовательностей. Выходные данные Clustal Omega могут быть визуализированы в виде направляющего дерева (филогенетические отношения последовательностей наилучшего спаривания) или упорядочены по взаимному сходству последовательностей между запросами[8]. Основным преимуществом Clustal Omega перед другими инструментами MSA (Muscle, ProbCons) является его эффективность, при сохранении значительной точности результатов.
Ensembl[править]
Ensembl[9] представляет собой базу данных, организованную на основе геномных данных, поддерживаемых Ensembl Project. Отвечая за непрерывную аннотацию геномов модельных организмов, Ensembl предоставляет исследователям исчерпывающий ресурс соответствующей биологической информации о каждом конкретном геноме. Аннотирование сохраненных референсных геномов происходит автоматически и основано на последовательностях. Ensembl включает в себя общедоступную базу данных генома, доступ к которой можно получить через веб-браузер. С сохраненными данными можно взаимодействовать с помощью графического пользовательского интерфейса, который поддерживает отображение данных на нескольких уровнях разрешения, от кариотипа, отдельных генов до нуклеотидной последовательности[10].
С 2009 года Ensembl предоставляет аннотированные данные о геномах растений, грибов, беспозвоночных, бактерий и других видов в рамках родственного проекта Ensembl Genomes. По состоянию на 2020 год, в различных базах данных проекта Ensembl содержится более 50 000 референсных геномов[11].
PDB[править]
PDB[12] представляет собой базу данных трехмерных структур биологических макромолекул, таких как белки и нуклеиновые кислоты. Данные, как правило, получены с помощью рентгеновской кристаллографии или ЯМР-спектроскопии и представлены вручную структурными биологами по всему миру через организации-члены PDB – PDBe, RCSB, PDBj и BMRB. Доступ к базе данных можно получить через веб-страницы ее членов, включая PDBe (размещенную в EMBL-EBI). Являясь членом консорциума wwPDB, PDBe помогает в совместной миссии по архивированию и хранению данных о структуре макромолекул[13].
UniProt[править]
UniProt — это онлайн-репозиторий данных о последовательностях белков и аннотаций, распространяемый в базах данных UniProt Knowledgebase (UniProt KB), UniProt Reference Clusters (UniRef) и UniProt Archive (UniParc). Первоначально задуманная как отдельные предприятия EMBL-EBI, Швейцарского института биоинформатики (SIB) (совместно поддерживающего Swiss-Prot и TrEMBL) и Protein Information Resource (PIR) (содержащая базу данных белковых последовательностей), увеличение глобальной генерации данных о белках привело к их сотрудничеству в создании UniProt в 2002 году[14].
Записи белков, хранящиеся в UniProt, каталогизируются по уникальному идентификатору UniProt. Данные аннотаций, собранные для каждой записи, организованы в логические разделы (например, функция белка, структура, экспрессия, последовательность или соответствующие публикации), что позволяет скоординировать обзор интересующего белка. Также приводятся ссылки на внешние базы данных и первоисточники данных. Помимо стандартного поиска по названию/идентификатору белка, на сайте UniProt размещены инструменты для поиска BLAST, выравнивания последовательностей или поиска белков, содержащих специфические пептиды.
Links to external databases and original sources of data are also provided. In addition to standard search by the protein name/identifier, UniProt webpage houses tools for BLAST searching, sequence alignment or searching for proteins containing specific peptides[15].
Другие организации по биоинформатике[править]
- Национальный центр биотехнологической информации (National Center for Biotechnology Information, NCBI), Национальная медицинская библиотека США.
- Национальный институт генетики (Банк данных ДНК Японии)
- Швейцарский институт биоинформатики (SIB: Expasy)
- BIG Data Center (Национальный центр геномных данных), Пекинский институт геномики, Китайская академия наук.
Примечания[править]
- ↑ Scientific report. www.embl.de (2017). Проверено 29 октября 2019.
- ↑ BIG Data Center, Beijing Institute of Genomics, Chinese Academy of Sciences. (2018). Annual Report, p. 6. Retrieved 26 March 2020.
- ↑ NCBI BLAST at EMBL-EBI. www.ebi.ac.uk. Проверено 3 ноября 2021.
- ↑ (October 1990) «Basic local alignment search tool». Journal of Molecular Biology 215 (3): 403–410. DOI:10.1016/S0022-2836(05)80360-2. PMID 2231712.
- ↑ BLAST QuickStart. — Humana Press. — Т. 395. — P. 149–176.
- ↑ Clustal Omega at EMBL-EBI. ebi.ac.uk. Проверено 3 ноября 2021.
- ↑ Clustal Omega Documentation at EMBL-EBI. ebi.ac.uk. Проверено 3 ноября 2021.
- ↑ (January 2018) «Clustal Omega for making accurate alignments of many protein sequences». Protein Science 27 (1): 135–145. DOI:10.1002/pro.3290. PMID 28884485.
- ↑ Ensembl homepage. ensembl.org. Проверено 3 ноября 2021.
- ↑ (January 2021) «Ensembl 2021». Nucleic Acids Research 49 (D1): D884–D891. DOI:10.1093/nar/gkaa942. PMID 33137190.
- ↑ About the Ensembl Project. ensembl.org. Проверено 3 ноября 2021.
- ↑ (January 2019) «Protein Data Bank: the single global archive for 3D macromolecular structure data». Nucleic Acids Research 47 (D1): D520–D528. DOI:10.1093/nar/gky949. PMID 30357364.
- ↑ About PDBe. ebi.ac.uk. Проверено 3 ноября 2021.
- ↑ About UniProt. uniprot.org. Проверено 3 ноября 2021.
- ↑ (January 2021) «UniProt: the universal protein knowledgebase in 2021». Nucleic Acids Research 49 (D1): D480–D489. DOI:10.1093/nar/gkaa1100. PMID 33237286.
![]() | Одним из источников, использованных при создании данной статьи, является статья из википроекта «Рувики» («ruwiki.ru») под названием «Европейский институт биоинформатики», расположенная по адресу:
Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC-BY-SA 4.0 и более поздних версий. Всем участникам Рувики предлагается прочитать материал «Почему Циклопедия?». |
---|
- Биоинформатические организации
- Биологические научно-исследовательские институты Великобритании
- Здания и сооружения в округе Южный Кембриджшир
- Хинкстон
- Организации в области информационных технологий, базирующиеся в Европе
- Международные исследовательские институты
- Институты молекулярной биологии
- Учреждения-партнеры Кембриджского университета
- Исследовательские институты, созданные в 1992 году
- Исследовательские институты в Кембриджшире
- Наука и технологии в Европе
- Институты системных наук
- Организации, основанные в 1992 году