Today: Tuesday 22 June 2021 , 8:45 pm


advertisment
search




UniProt

Последнее обновление 12 День , 2 час 4 Взгляды

Advertisement
In this page talks about ( UniProt ) It was sent to us on 10/06/2021 and was presented on 10/06/2021 and the last update on this page on 10/06/2021

Твой комментарий


Введите код
 
released =
standard =
format = FASTA, GFF, RDF, XML.
url =
UniProt — открытая база данных последовательностей белков. Консорциум UniProt действует с 2003 года . Единая база данных UniProt была создана путём объединения нескольких баз . UniProt состоит из четырёх крупных баз данных (База знаний , Архив , Справочные кластеры и метагеномные данные ) и охватывает различные аспекты анализа белковых последовательностей. Многие из последовательностей стали известны в результате реализации проектов секвенирования геномов последних лет. Кроме того, база данных UniProt содержит большое количество информации о биологических функциях белков, полученной из научной литературы.

Uniprot-консорциум

В UniProt-консорциум входят:
Европейский Институт Биоинформатики (EBI), Швейцарский Институт Биоинформатики (SIB) и Белковый Информационный Ресурс (PIR) .
В EBI, расположенном в посёлке Хинкстон (Hinxton), Великобритания, размещено большое количество биоинформатических баз данных и сервисов .
SIB, расположенный в Женеве, Швейцария, является хранилищем серверов, служащих для экспертного белкового системного анализа (ExPASy-серверов), являющихся главным источником для инструментов протеомики и соответствующих баз данных .
PIR расположен в Медицинском центре Джорджтаунского университета в Вашингтоне, округ Колумбия, США, и представляет собой интегрированный биоинформатический ресурс, предназначенный для поддержки исследований в области геномики и протеомики .
В 2002 году PIR (Белковый Информационный Ресурс), вместе со своими международными партнёрами, EBI (Европейским Институтом Биоинформатики) и SIB (Швейцарским Институтом Биоинформатики), получили грант от Национального Института Здоровья (NIH) для создания UniProt, единой всемирной базы данных последовательностей и функций белков. Так появился консорциум UniProtFunding for Global Protein Database Will Create One Reliable Resource (http://www.genome.gov/page.cfm?pageID=10005283 ).
Проект UniProt начал действовать с декабря 2003 года .
UniProt финансируется за счёт грантов от Национальных Институтов Здравоохранения США (NIH),
Национального Института исследования генома человека (NHGRI), Национального Института Общемедицинских Hаук (NIGMS), Британского фонда по борьбе с сердечными заболеваниями (BHF), Швейцарского Федерального Правительства через Федеральное управление образования и науки, Национального научного фонда (NSF) .

Происхождение базы данных UniProt

Единая база данных UniProt была создана путём объединения баз данных Swiss-Prot, TrEMBL и PIR — PSD .

Swiss-Prot

База данных Swiss-Prot была создана в 1986 году Амосом Байрошем во время работы над своим PhD-проектом и развита в дальнейшем в Швейцарском Институте Биоинформатики (SIB), а позже доработана Рольфом Апвейлером в Европейском Институте Биоинформатики (EBI) Séverine Altairac, « Naissance d’une banque de données: Interview du prof. Amos Bairoch». http://expasy.org/prolune/ Protéines à la Une, August 2006. ISSN 1660-9824..
Основная функция базы данных Swiss-Prot направлена на обеспечение надёжности информации о белковых последовательностях, обусловленной высоким, детальным уровнем аннотации, выполненной вручную. Она включает описание функции белка, его доменной структуры, пост-трансляционных модификаций, различных вариантов последовательности и т. д., причём с минимальным уровнем избыточности и высоким уровнем интеграции с другими базами данных.

TrEMBL


База данных «Библиотека данных Нуклеотидных последовательностей» (TrEMBL) была разработана в 1996 году как аннотированное компьютерное приложение к Swiss-Prot.
Решение о создании TrEMBL было принято в ответ на увеличение потока данных в результате появления геномных проектов, а затратный по времени и трудоемкий процесс ручной аннотации в UniProtKB / Swiss-Prot превышал возможности Swiss-Prot для того, чтобы включить все доступные белковые последовательности.
TrEMBL предоставляет возможность автоматизированной аннотации для трансляции имеющихся нуклеотидных последовательностей и превращения их в белковые последовательности вне Swiss-Prot.

PIR-PSD

PIR, организованный Национальным фондом медико-биологических исследований (NBRF) в Медицинском центре Джорджтаунского университета в Вашингтоне, округ Колумбия, США, является наследником старейшей базы данных последовательностей белков, а именно, созданным Маргарет Окли Дейхофф «Атласом последовательностей белка и структуры», впервые опубликованным в 1965 году . PIR поддерживает несколько белковых баз данных, а именно: главную базу белковых последовательностей (PIR-PSD), базу данных, связанную с классификацией белков по структуре и функциям (iProClass), а также другие базы данных белковых последовательностей и курируемых семейств.

Организация баз данных UniProt

UniProt предоставляет четыре основных базы данных:
  1. UniProtKB (Swiss-Prot и TrEMBL),
  2. UniParc,
  3. UniRef,
  4. UniMes.

UniProt KnowledgeBase (UniProtKB)

База знаний UniProt (UniProtKB) представляет собой белковую базу данных, частично курируемую экспертами и состоящую из двух секций:
  • UniProtKB / Swiss-Prot, содержащую обзорные, вручную аннотированные записи. По состоянию на 15 марта 2017 года UniProtKB / Swiss-Prot содержит 553941 запись последовательностей (включающих 198311666 аминокислот), полученных из 251243 источниковUniProtKB/SwissProt release statistics (http://www.expasy.org/sprot/relnotes/relstat.html).
  • UniProtKB / TrEMBL, содержащую нерецензированные, автоматически аннотированные записи. По состоянию на 15 марта 2017 года UniProtKB / TrEMBL содержит 80204459 записей белковых последовательностей (включающих 26890984395 аминокислот)UniProtKB/TrEMBL release statistics (http://www.ebi.ac.uk/uniprot/TrEMBLstats/ ).

UniProtKB/Swiss-Prot

UniProtKB/Swiss-Prot является аннотированной вручную, без резервирования, базой данных белковых последовательностей. Целью UniProtKB / Swiss-Prot является предоставление всей известной необходимой информации о конкретном белке.
Аннотации регулярно проверяются, чтобы соответствовать текущим научным результатам. Требования к составлению аннотации записи включают подробный анализ последовательности белка и данных о нём из научной литературыHow do we manually annotate a UniProtKB entry (http://www.uniprot.org/faq/45).
Последовательности белка того же самого гена и того же вида объединены в одной и той же записи базы данных. Различия между последовательностями идентифицированы, и их причины документально зафиксированы и приведены (например, такие как альтернативный сплайсинг, естественные изменения, неправильные сайты инициации, неправильные экзонные границы, неправильные рамки считывания, список неопознанных конфликтов и другие). Целый диапазон инструментов анализа последовательностей используется при аннотации записей в UniProtKB/Swiss-Prot. Компьютерные предсказания вручную анализируются, и подходящие результаты отбираются для включения в записи базы данных.
Эти предсказания включают пост-трансляционные модификации, последовательность, структуру и топологию трансмембранных доменов,сигнальные пептиды, доменную идентификацию и классификацию белковых семейств . Соответствующие публикации идентифицируются поиском в базах данных, таких как PubMed. Полный текст каждого документа считывается, и информация добавляется к записи.
Аннотация, как правило, включает нижеперечисленную информацию:
  • название белка и гена;
  • функция белка;
  • фермент-специфическая информация, такая как каталитическая активность, кофакторы и каталитические остатки;
  • внутриклеточная локализация;
  • белок-белковые взаимодействия;
  • шаблон (pattern) экспрессии;
  • местоположение и роль важных доменов и сайтов;
  • ионные, субстратные и кофакторные сайты связывания;
  • белковые вариантные формы, происходящие вследствие природных генетических изменений, редактирования РНК, альтернативного сплайсинга, протеолитических воздействий и пост-трансляционных модификаций.
Аннотированная запись должна пройти контроль качества перед включением в UniProtKB / Swiss-Prot. При появлении новых данных существующие записи обновляются.

UniProtKB/TrEMBL


UniProtKB / TrEMBL содержит записи, проанализированные с помощью компьютерной техники, которые дополнены при помощи автоматической аннотации.
Трансляция аннотированных кодирующих последовательностей в базах данных последовательностей нуклеотидов, таких как Европейская молекулярно-биологическая лаборатория (EMBL-Bank), ГенБанк, Японская база данных ДНК (DDBJ) осуществляется автоматически, после чего эти белковые последовательности заносятся в UniProtKB / TrEMBL.
UniProtKB / TrEMBL также содержит последовательности из Белкового Банка Данных (PDB) и предсказанные гены, в том числе из Ensembl — объединённого научного проекта, включающего Европейский Институт Биоинформатики и the Wellcome Trust Sanger Institute, RefSeq и CCDS .

UniProt Архив (UniParc)

UniProt Архив (UniParc) представляет собой всеобъемлющую, содержащуюся без резервирования базу данных, которая содержит последовательности белков из основных общедоступных баз данных белковых последовательностей . Так как один и тот же белок может находиться в нескольких различных исходных базах данных, а также присутствовать в нескольких экземплярах в одной и той же базе данных, во избежание избыточности UniParc сохраняет каждую уникальную последовательность только один раз. Идентичные последовательности объединяются независимо от того, являются ли они белками, представляющими одни и те же или разные виды. Каждой последовательности присвоен стабильной и уникальный код (УПИ), что делает возможным идентифицировать один и тот же белок из различных исходных баз данных.
UniParc содержит только белковые последовательности без аннотации. Перекрёстные ссылки в записях из базы данных UniParc позволяют получить дополнительную информацию о белке из базы данных, являющейся первоисточником. Если в исходных базах данных последовательности изменяются, эти изменения отслеживаются в UniParc, а история всех изменений сохраняется в архиве.
{ />
!База данных
!Тип данных
-
Японская база данных ДНК (DDBJ)
Европейский архив нуклеотидов (ENA) База данных ДНК и РНК (GenBank)
Кодирующие последовательности
-
Объединённый научный проект, включающий Европейский Институт Биоинформатики и the Wellcome Trust Sanger Institute (Ensembl)
База данных Геномной Аннотации Позвоночных (VEGA)
Прогнозируемые кодирующие последовательности из геномов позвоночных
-
Основное хранилище генетических и молекулярных данных для насекомых семейства Drosophilidae (FlyBase)
Кодирующая последовательность для видов из семейства Drosophilidae
-
Исчерпывающий источник аннотаций для человеческих генов и транскриптов (H-Inv)
Последовательности человеческого белка
-
Международный Белковый Индекс (IPI)
Протеиновые последовательности высших эукариот
-
Patent Offices in Europe, US and Japan (USPTO)
Кодирующие последовательности, связанные с патентами из патентных ведомств
-
Белковые информационные ресурсы (PIR-PSD)
Курированные последовательности белка
-
Белковый Банк данных (PDB)
Последовательности белков, трёхмерные структуры которых находятся в PDB
-
Белковый исследовательский фонд (PRF)
Протеиновые последовательности из научных трудов и предсказаний
-
Кластеры ссылок UniProt (RefSeq)
Кодирующие последовательности из набора NCBI геномных, транскрипционных и белковых эталонных последовательностей
-
Дрожжевая геномная база данных (SGD)
Кодирующие последовательности для Saccharomyces cerevisiae
-
База информационных ресурсов для Arabidopsis thaliana (TAIR)
Кодирующие последовательности для Arabidopsis thaliana
-
TROME
Прогнозируемые аминокислотные последовательности
-
UniProtKB/Swiss-Prot
Обработанные вручную белковые последовательности, главным образом производные от TrEMBL
-
UniProtKB/TrEMBL
Автоматически курируемые последовательности белка, полученные из кодирующих последовательностей в базах данных нуклеотидных последовательностей
-
База данных геномных и других биологических характеристик Caenorhabditis elegans (WormBase)
Кодирующие последовательности для нематоды Caenorhabditis elegans

Справочные кластеры UniProt (UniRef)

Кластеры ссылок UniProt (UniRef) состоят из трёх баз данных (UniRef100, UniRef90 и UniRef50), сформированных из кластеризованных наборов белковых последовательностей из UniProtKB и отобранных записей UniParc .
База данных UniRef100 сочетает идентичные последовательности и фрагменты последовательности (из любого организма) в одной записи UniRef.
Последовательности UniRef100 были кластеризованы с использованием CD-HIT алгоритма , чтобы построить UniRef90 и UniRef50. Каждый из двух последних кластеров состоит из последовательностей, которые имеют не менее 90 % и не менее 50 % идентичности, соответственно, с самой длинной найденной последовательностью. В настоящее время покрытие UniRef превышает 4000000 исходных последовательностей .
Кластеризация последовательностей значительно уменьшает размер базы данных: UniRef100, UniRef90 и UniRef50 дают уменьшение размера базы данных примерно на ~ 10, 40 и 70 %, соответственно. Снижение избыточности увеличивает скорость поиска подобия и позволяет повысить надёжность поиска далёких родственных белков.
Записи UniRef содержат сведения о последовательности репрезентативного белка, подсчёт членов и общей таксономии кластера, а также регистрационные номера всех присоединяемых записей и ссылок на аннотации в UniProtKB для облегчения биологических исследований.
UniRef доступен с сайта UniREF FTPUniREF FTP site (ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/uniref/).

UniMrot (UniMes)

UniProt KB содержит записи с известной таксономией источника. Новые разработки привели к обнаружению новых источников для поиска белковых последовательностей. Появление метагеномных данных потребовало создания принципиально нового раздела в UniProt KB, а именно, отдельной базы данных — UniProt метагеномных последовательностей и неизвестных последовательностей из окружающей среды, UniMES (The UniProt Metagenomic and Environmental Sequences database) .
Метагеномика (metagenomics) представляет собой масштабный геномный анализ микробов, выделенных из проб из окружающей среды, в отличие от лабораторно выращенных организмов, которые представляют лишь небольшую часть микробного мира.
UniMES в настоящее время содержит данные о белковых последовательностях организмов из мирового океана, обеспеченных глобальной океанической экспедицией по сбору проб (Global Ocean Sampling expedition — GOS), которые были первоначально представлены в Международной базе данных нуклеотидных последовательностей (INSDC) .
Первоначальный GOS-набор данных состоит из 25 миллионов последовательностей ДНК, в основном из океанических микробов, и почти 6 миллионов предсказанных белков. UniMES объединяет предсказанные белковые последовательности с автоматической классификацией по Interpro, который является интегрированным ресурсом для белковых семейств, доменов и функциональных сайтов. Поэтому UniMES является уникальной базой данных, которая обеспечивает свободный доступ к массиву геномной информации, полученной от экспедиций для отбора проб. Данные пробы из окружающей среды, содержащиеся в этой базе данных, отсутствуют в UniProt базе знаний или UniProt справочных кластерах (UniRef), но интегрированы в UniParc .
UniMES доступен на UniProt FTP site в формате FASTAUniprot FTP site UniMES (ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/unimes/ ).

Примечания


Ссылки

  • Официальный сайт UniProt
  • Ensembl genomes
  • Vega
  • NCBI
  • RefSeq
  • CCDS
  • INSDC

Категория:Электронные биологические ресурсы
Категория:Базы данных в Интернете
Категория:Биоинформатика
 
Комментарии

Пока нет комментариев




последний раз видели
большинство посещений