Algorithme de clustering structurel
La procédure de clustering est similaire à la procédure de clustering de MMseqs2, mais au lieu d’utiliser des séquences, l’alphabet 3D Foldseek (Extended Data Figure 1) a été utilisé pour représenter les structures sous forme de séquences 1D. L’algorithme de clustering combine Linclust17 et la cascade MMseqs2 (réf. 42) Réunis. Le pipeline applique cette stratégie pour permettre l’assemblage efficace de millions de structures. Tout d’abord, les structures protéiques sont converties en séquences 3D et traitées selon le flux de travail Linclust. Cela inclut l’extraction M K-Mers (par défaut M= 300, K= 10) de chaque séquence et regroupez-les en fonction de leur valeur de hachage. le KLes clusters -mer sont ensuite utilisés pour mapper chaque structure à la séquence (représentative) la plus longue du cluster. Le diamètre commun qu’il a KLe -mer trouvé est également stocké pour une utilisation ultérieure lors de l’étape d’alignement.
Le pipeline utilise ensuite un algorithme d’alignement inexploité qui réenregistre les structures en fonction du diamètre partagé entre les membres et les représentants à l’aide d’informations 3D et d’acides aminés. Séquences qui répondent aux critères d’alignement spécifiés, par exemple H-valeur, couverture d’alignement, identité de séquence, alignement LDDT43 Ou qualité TM44, sont regroupés à l’aide du module de clustering MMseqs2 (par défaut, à l’aide de l’algorithme de clustering wrapper). Après cette étape, les structures déjà cartographiées sont supprimées de l’ensemble et les scores des membres représentatifs restants sont alignés à l’aide de l’algorithme structurel Gotoh – Smith – Waterman de Foldseek.15,Tous les résultats de réussite sont également agrégés. Les représentants de l’ensemble restants sont successivement assemblés à travers trois étapes successives de pré-filtrage, d’alignement structurel Smith-Waterman et de regroupement.
Distinguer les homologues de leurs homologues
La similarité structurelle entre deux séquences peut être attribuée soit à un ancêtre évolutif commun (homologues), soit à une évolution convergente (paralogues). Nous avons étudié les relations entre les membres du groupe, qui sont calculées par notre pipeline sur la base de la similarité structurelle et des relations d’homologie à l’aide de la base de données ECOD.24. ECOD est une base de données de domaines hiérarchiques qui décrit les relations évolutives entre des paires de domaines protéiques. Leurs niveaux hiérarchiques sont classés de la racine à la feuille comme suit : groupe A (même structure), groupe X (homologie potentielle), groupe H (homologie), groupe T (topologie) et groupe F (similitude de séquence). Des homologues devraient se produire entre les membres de différents groupes X, tandis que des homologues devraient être trouvés au sein du groupe H.
Pour notre benchmark, nous avons téléchargé la base de données PDB ECOD (F99 v.20230309) et appliqué la même procédure de clustering MMseqs2 et Foldseek que celle utilisée pour AFDB. Nous avons effectué une analyse de pureté des clusters ECOD sur tous les clusters non uniques en mesurant la cohérence des membres du cluster par paire à différents niveaux hiérarchiques. L’analyse a révélé des taux de cohérence moyens élevés de 99,6 %, 98,6 %, 97,4 %, 96,8 % et 72,8 % pour le groupe A, le groupe X, le groupe H, le groupe T et le groupe F, respectivement. Cela indique un regroupement efficace des protéines homologues, indiquant une discrimination presque exclusive entre homologues et paralogues. La grande cohérence de nos groupes est principalement due à la rigueur H-Valeur 10-2; Lorsqu’elles sont portées à 10, les stabilités diminuent respectivement à 69,7%, 55,7%, 53,3%, 51,9% et 36,6%. Un résultat similaire a été observé en utilisant la base de données MALISAM45, une base de données à domaine unique de domaines protéiques similaires. Lorsque 260 structures protéiques sont regroupées dans la base de données MALISAM avec les paramètres Foldseek par défaut, aucun regroupement d’homologues ne se produit. Cependant, si l’on augmente H-valeur seuil, nous commençons à former des groupes contenant des analogues.
Analyse de pureté de masse
Pour évaluer la pureté des clusters, nous avons suivi une approche en deux étapes. Tout d’abord, nous avons calculé le score moyen LDDT et TM pour chaque groupe afin d’évaluer la similarité structurelle. Pour cela, nous avons aligné l’acteur avec les membres de l’ensemble à l’aide du module Structurealign -e INF -a dans Foldseek et avons rapporté le résultat de l’alignement LDDT et TM en utilisant –format-output lddt,alntmscore. Pour chaque groupe, nous avons calculé la moyenne indiquée dans la figure 1c.
Deuxièmement, nous avons évalué la cohérence Pfam de chaque groupe à l’aide des étiquettes Pfam obtenues auprès d’UniProtKB. Nous avons uniquement considéré les clusters contenant au moins deux séquences avec des annotations Pfam et calculé la fraction de domaines Pfam correctement couverts pour toutes les paires de séquences Pfam en ignorant l’auto-comparaison. Nous définissons les vrais positifs comme une paire de domaines Pfam appartenant au même clan. Pour chaque paire, nous avons calculé les scores de cohérence en fonction du nombre de vrais positifs divisé par le nombre de Pfam dans la séquence de référence. Enfin, nous avons calculé les scores totaux moyens de la paire. Cette approche nous a permis de déterminer la proportion de séquences au sein d’un groupe donné partageant la même annotation Pfam.
Enfin, nous avons également calculé la cohérence du numéro EC pour chaque groupe. Les numéros EC ont été extraits d’UniProtKB. La cohérence EC a été évaluée de la même manière que la cohérence Pfam, mais a été réalisée quatre fois selon les quatre catégories de numéros EC. Nous avons uniquement considéré les clusters contenant au moins deux séquences contenant des annotations EC. Dans chaque catégorie de numéro CE, les annotations qui ne contenaient aucun symbole dans la catégorie étaient ignorées. Pour chaque paire de cohérence Pfam, les scores de cohérence ont été calculés en divisant le nombre de vrais positifs par le nombre de CE dans les séquences de la paire, évitant ainsi toute comparaison subjective. Les scores ont finalement été calculés sur la moyenne des scores totaux des paires.
Amas sombres et LCA
Pour éliminer les clusters similaires aux structures empiriques précédemment connues, nous avons effectué une recherche à l’aide de Foldseek sur le PDB (version 2022-10-14) pour chaque représentant de cluster, avec H– Valeur seuil 0,1. Nous avons ensuite exclu les clusters annotés par les plages Pfam en recherchant des représentants de cluster à l’aide de MMseqs2 avec les paramètres -s 7,5 –max-seqs 100000 -e 0,001 par rapport à la base de données Pfam. Enfin, nous avons supprimé les clusters contenant des membres annotés avec Pfam ou TIGRFAM20 dans les bases de données UniProt/TrEMBL et SwissProt. Pour déterminer l’ACV pour chaque groupe, nous avons utilisé le module LCA de MMseqs2 (réf. 46) Catégories rejetées (1) 12 908 séquences non classées et (2) 28 384 autres séquences. Nous avons visualisé les résultats de l’ACV à l’aide d’un tracé Sankey généré par Pavian47.
Prévision des emplois et des poches
Nous avons prédit les sites de liaison de petites molécules pour les membres représentatifs du groupe sombre en adaptant l’approche décrite précédemment.9. Nous avons utilisé AutoSite pour prédire les poches48et des poches sélectionnées avec un score composite empirique AutoSite > 60 et des résidus de poche pLDDT moyens > 90 pour des analyses supplémentaires. Pour attribuer une fonction putative et prédire les résidus catalytiques, nous avons utilisé DeepFRI49 Prédire les termes GO/EC enrichis et les poids d’importance des niveaux de résidus dans les catégories GO/EC disponibles (BP, CC, EC, MF). Les prédictions sinusoïdales et fonctionnelles ont ensuite été inspectées visuellement à l’aide d’une application Web (disponibilité des données).
Prédiction de domaine à partir de l’alignement local
Tout d’abord, nous avons filtré les résultats Foldseek avec des scores faibles à l’aide d’un H-Valeur 10-3 Comme seuil. Nous avons identifié les positions potentielles des limites de domaine pour chaque séquence protéique en regroupant les positions de début et d’arrêt (regroupement hiérarchique, paramètre de hauteur 250 pour créer des clusters). Les domaines prédits ont ensuite été liés à d’autres sur la base de similitudes structurelles, les scores les plus élevés étant conservés lorsque des doublons étaient trouvés. Le réseau résultant a ensuite été coupé, à l’exception des connexions vers celui-ci. H-La valeur est supérieure à 10-5Domaines prédits contenant > 350 acides aminés et composants connectés avec moins de 5 nœuds. Nous avons appliqué un clustering basé sur des graphiques (piège, 6 étapes), en conservant les communautés d’au moins 5 membres. Chaque domaine prédit au sein des communautés identifiées a été annoté à l’aide des régions Pfam-A mappées sur les identifiants UniProt (version 35.0), et plus de 75 % du domaine Pfam devrait chevaucher le domaine prédit. Nous avons calculé la fréquence des commentaires Pfam au sein de chaque communauté et les avons sélectionnés en fonction de la plus élevée. En raison de sa taille, nous avons décidé d’exclure une population de l’analyse suivante contenant 152 959 structures (cluster ID 1 ; 1, voir Fichiers supplémentaires dans https://cluster.foldseek.com/). Nous avons relié les communautés restantes sur la base de similitudes de structure, permettant ainsi des connexions avec A. s< 10-3.
Une base de données d’Internet
Nous avons développé un serveur Web pour permettre une exploration conviviale des groupes, de leurs membres et des groupes similaires associés. Le serveur a été implémenté à l’aide d’une architecture client-serveur basée sur REST, avec un front-end VueJS et un back-end NodeJS. Les informations relatives à l’assemblage sont accessibles via la base de données SQLite et les informations sur les structures individuelles sont accessibles via des bases de données compatibles Foldseek via une extension NodeJS basée sur C++ pour une lecture et une recherche rapides. Semblable au serveur Web Foldseek, nous avons utilisé NGL50 Pour visualiser les architectures et les versions basées sur WebAssembly de PULCHRA51 Récupérer des structures protéiques complètes à partir de nos traces C-alpha stockées et de l’alignement TM afin d’aligner la structure par paires des membres du groupe avec leurs représentants. Pour visualiser la distribution taxonomique, nous avons implémenté des diagrammes Sankey inspirés de Bafian. Les groupes peuvent être trouvés via les adhésions de membres UniProt, via une recherche Foldseek sur des groupes similaires ou en recherchant des termes GO. Les membres individuels de l’ensemble peuvent être explorés plus en détail via des liens vers UniProt, le serveur Web Foldseek et l’Atlas UniProt3D.52.
Résumé des rapports
Plus d’informations sur la conception de la recherche sont disponibles dans le résumé du rapport Nature Portfolio lié à cet article.