Connect with us

science

Structures d’assemblage prédites à l’échelle de l’univers protéique connu

Published

on

Structures d’assemblage prédites à l’échelle de l’univers protéique connu

Algorithme de clustering structurel

La procédure de clustering est similaire à la procédure de clustering de MMseqs2, mais au lieu d’utiliser des séquences, l’alphabet 3D Foldseek (Extended Data Figure 1) a été utilisé pour représenter les structures sous forme de séquences 1D. L’algorithme de clustering combine Linclust17 et la cascade MMseqs2 (réf. 42) Réunis. Le pipeline applique cette stratégie pour permettre l’assemblage efficace de millions de structures. Tout d’abord, les structures protéiques sont converties en séquences 3D et traitées selon le flux de travail Linclust. Cela inclut l’extraction M K-Mers (par défaut M= 300, K= 10) de chaque séquence et regroupez-les en fonction de leur valeur de hachage. le KLes clusters -mer sont ensuite utilisés pour mapper chaque structure à la séquence (représentative) la plus longue du cluster. Le diamètre commun qu’il a KLe -mer trouvé est également stocké pour une utilisation ultérieure lors de l’étape d’alignement.

Le pipeline utilise ensuite un algorithme d’alignement inexploité qui réenregistre les structures en fonction du diamètre partagé entre les membres et les représentants à l’aide d’informations 3D et d’acides aminés. Séquences qui répondent aux critères d’alignement spécifiés, par exemple H-valeur, couverture d’alignement, identité de séquence, alignement LDDT43 Ou qualité TM44, sont regroupés à l’aide du module de clustering MMseqs2 (par défaut, à l’aide de l’algorithme de clustering wrapper). Après cette étape, les structures déjà cartographiées sont supprimées de l’ensemble et les scores des membres représentatifs restants sont alignés à l’aide de l’algorithme structurel Gotoh – Smith – Waterman de Foldseek.15,Tous les résultats de réussite sont également agrégés. Les représentants de l’ensemble restants sont successivement assemblés à travers trois étapes successives de pré-filtrage, d’alignement structurel Smith-Waterman et de regroupement.

Distinguer les homologues de leurs homologues

La similarité structurelle entre deux séquences peut être attribuée soit à un ancêtre évolutif commun (homologues), soit à une évolution convergente (paralogues). Nous avons étudié les relations entre les membres du groupe, qui sont calculées par notre pipeline sur la base de la similarité structurelle et des relations d’homologie à l’aide de la base de données ECOD.24. ECOD est une base de données de domaines hiérarchiques qui décrit les relations évolutives entre des paires de domaines protéiques. Leurs niveaux hiérarchiques sont classés de la racine à la feuille comme suit : groupe A (même structure), groupe X (homologie potentielle), groupe H (homologie), groupe T (topologie) et groupe F (similitude de séquence). Des homologues devraient se produire entre les membres de différents groupes X, tandis que des homologues devraient être trouvés au sein du groupe H.

Pour notre benchmark, nous avons téléchargé la base de données PDB ECOD (F99 v.20230309) et appliqué la même procédure de clustering MMseqs2 et Foldseek que celle utilisée pour AFDB. Nous avons effectué une analyse de pureté des clusters ECOD sur tous les clusters non uniques en mesurant la cohérence des membres du cluster par paire à différents niveaux hiérarchiques. L’analyse a révélé des taux de cohérence moyens élevés de 99,6 %, 98,6 %, 97,4 %, 96,8 % et 72,8 % pour le groupe A, le groupe X, le groupe H, le groupe T et le groupe F, respectivement. Cela indique un regroupement efficace des protéines homologues, indiquant une discrimination presque exclusive entre homologues et paralogues. La grande cohérence de nos groupes est principalement due à la rigueur H-Valeur 10-2; Lorsqu’elles sont portées à 10, les stabilités diminuent respectivement à 69,7%, 55,7%, 53,3%, 51,9% et 36,6%. Un résultat similaire a été observé en utilisant la base de données MALISAM45, une base de données à domaine unique de domaines protéiques similaires. Lorsque 260 structures protéiques sont regroupées dans la base de données MALISAM avec les paramètres Foldseek par défaut, aucun regroupement d’homologues ne se produit. Cependant, si l’on augmente H-valeur seuil, nous commençons à former des groupes contenant des analogues.

READ  Un tueur inattendu - Une bactérie "amie ou ennemie" qui tue ses hôtes algues lorsque la symbiose devient inutile

Analyse de pureté de masse

Pour évaluer la pureté des clusters, nous avons suivi une approche en deux étapes. Tout d’abord, nous avons calculé le score moyen LDDT et TM pour chaque groupe afin d’évaluer la similarité structurelle. Pour cela, nous avons aligné l’acteur avec les membres de l’ensemble à l’aide du module Structurealign -e INF -a dans Foldseek et avons rapporté le résultat de l’alignement LDDT et TM en utilisant –format-output lddt,alntmscore. Pour chaque groupe, nous avons calculé la moyenne indiquée dans la figure 1c.

Deuxièmement, nous avons évalué la cohérence Pfam de chaque groupe à l’aide des étiquettes Pfam obtenues auprès d’UniProtKB. Nous avons uniquement considéré les clusters contenant au moins deux séquences avec des annotations Pfam et calculé la fraction de domaines Pfam correctement couverts pour toutes les paires de séquences Pfam en ignorant l’auto-comparaison. Nous définissons les vrais positifs comme une paire de domaines Pfam appartenant au même clan. Pour chaque paire, nous avons calculé les scores de cohérence en fonction du nombre de vrais positifs divisé par le nombre de Pfam dans la séquence de référence. Enfin, nous avons calculé les scores totaux moyens de la paire. Cette approche nous a permis de déterminer la proportion de séquences au sein d’un groupe donné partageant la même annotation Pfam.

Enfin, nous avons également calculé la cohérence du numéro EC pour chaque groupe. Les numéros EC ont été extraits d’UniProtKB. La cohérence EC a été évaluée de la même manière que la cohérence Pfam, mais a été réalisée quatre fois selon les quatre catégories de numéros EC. Nous avons uniquement considéré les clusters contenant au moins deux séquences contenant des annotations EC. Dans chaque catégorie de numéro CE, les annotations qui ne contenaient aucun symbole dans la catégorie étaient ignorées. Pour chaque paire de cohérence Pfam, les scores de cohérence ont été calculés en divisant le nombre de vrais positifs par le nombre de CE dans les séquences de la paire, évitant ainsi toute comparaison subjective. Les scores ont finalement été calculés sur la moyenne des scores totaux des paires.

READ  Passer à l'inhalateur de poudre sèche réduit de plus de moitié l'empreinte carbone du traitement de l'asthme

Amas sombres et LCA

Pour éliminer les clusters similaires aux structures empiriques précédemment connues, nous avons effectué une recherche à l’aide de Foldseek sur le PDB (version 2022-10-14) pour chaque représentant de cluster, avec H– Valeur seuil 0,1. Nous avons ensuite exclu les clusters annotés par les plages Pfam en recherchant des représentants de cluster à l’aide de MMseqs2 avec les paramètres -s 7,5 –max-seqs 100000 -e 0,001 par rapport à la base de données Pfam. Enfin, nous avons supprimé les clusters contenant des membres annotés avec Pfam ou TIGRFAM20 dans les bases de données UniProt/TrEMBL et SwissProt. Pour déterminer l’ACV pour chaque groupe, nous avons utilisé le module LCA de MMseqs2 (réf. 46) Catégories rejetées (1) 12 908 séquences non classées et (2) 28 384 autres séquences. Nous avons visualisé les résultats de l’ACV à l’aide d’un tracé Sankey généré par Pavian47.

Prévision des emplois et des poches

Nous avons prédit les sites de liaison de petites molécules pour les membres représentatifs du groupe sombre en adaptant l’approche décrite précédemment.9. Nous avons utilisé AutoSite pour prédire les poches48et des poches sélectionnées avec un score composite empirique AutoSite > 60 et des résidus de poche pLDDT moyens > 90 pour des analyses supplémentaires. Pour attribuer une fonction putative et prédire les résidus catalytiques, nous avons utilisé DeepFRI49 Prédire les termes GO/EC enrichis et les poids d’importance des niveaux de résidus dans les catégories GO/EC disponibles (BP, CC, EC, MF). Les prédictions sinusoïdales et fonctionnelles ont ensuite été inspectées visuellement à l’aide d’une application Web (disponibilité des données).

Prédiction de domaine à partir de l’alignement local

Tout d’abord, nous avons filtré les résultats Foldseek avec des scores faibles à l’aide d’un H-Valeur 10-3 Comme seuil. Nous avons identifié les positions potentielles des limites de domaine pour chaque séquence protéique en regroupant les positions de début et d’arrêt (regroupement hiérarchique, paramètre de hauteur 250 pour créer des clusters). Les domaines prédits ont ensuite été liés à d’autres sur la base de similitudes structurelles, les scores les plus élevés étant conservés lorsque des doublons étaient trouvés. Le réseau résultant a ensuite été coupé, à l’exception des connexions vers celui-ci. H-La valeur est supérieure à 10-5Domaines prédits contenant > 350 acides aminés et composants connectés avec moins de 5 nœuds. Nous avons appliqué un clustering basé sur des graphiques (piège, 6 étapes), en conservant les communautés d’au moins 5 membres. Chaque domaine prédit au sein des communautés identifiées a été annoté à l’aide des régions Pfam-A mappées sur les identifiants UniProt (version 35.0), et plus de 75 % du domaine Pfam devrait chevaucher le domaine prédit. Nous avons calculé la fréquence des commentaires Pfam au sein de chaque communauté et les avons sélectionnés en fonction de la plus élevée. En raison de sa taille, nous avons décidé d’exclure une population de l’analyse suivante contenant 152 959 structures (cluster ID 1 ; 1, voir Fichiers supplémentaires dans https://cluster.foldseek.com/). Nous avons relié les communautés restantes sur la base de similitudes de structure, permettant ainsi des connexions avec A. s< 10-3.

READ  Le prochain vol SpaceX aura de meilleures toilettes, Wi-Fi, four

Une base de données d’Internet

Nous avons développé un serveur Web pour permettre une exploration conviviale des groupes, de leurs membres et des groupes similaires associés. Le serveur a été implémenté à l’aide d’une architecture client-serveur basée sur REST, avec un front-end VueJS et un back-end NodeJS. Les informations relatives à l’assemblage sont accessibles via la base de données SQLite et les informations sur les structures individuelles sont accessibles via des bases de données compatibles Foldseek via une extension NodeJS basée sur C++ pour une lecture et une recherche rapides. Semblable au serveur Web Foldseek, nous avons utilisé NGL50 Pour visualiser les architectures et les versions basées sur WebAssembly de PULCHRA51 Récupérer des structures protéiques complètes à partir de nos traces C-alpha stockées et de l’alignement TM afin d’aligner la structure par paires des membres du groupe avec leurs représentants. Pour visualiser la distribution taxonomique, nous avons implémenté des diagrammes Sankey inspirés de Bafian. Les groupes peuvent être trouvés via les adhésions de membres UniProt, via une recherche Foldseek sur des groupes similaires ou en recherchant des termes GO. Les membres individuels de l’ensemble peuvent être explorés plus en détail via des liens vers UniProt, le serveur Web Foldseek et l’Atlas UniProt3D.52.

Résumé des rapports

Plus d’informations sur la conception de la recherche sont disponibles dans le résumé du rapport Nature Portfolio lié à cet article.

Continue Reading
Click to comment

Leave a Reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

science

La sonde européenne « Joyce » s’approche de la Terre et de la Lune en route vers Jupiter – Euractiv

Published

on

La sonde européenne « Joyce » s’approche de la Terre et de la Lune en route vers Jupiter – Euractiv

Un vaisseau spatial lancé l’année dernière devrait revenir en orbite autour de la Terre et de la Lune le mois prochain dans le cadre d’une première manœuvre à haut risque au monde alors qu’il traverse le système solaire jusqu’à Jupiter.

La sonde Juice de l’Agence spatiale européenne a été lancée en avril 2023 pour découvrir si les lunes glacées de Jupiter, Ganymède, Callisto et Europe, sont capables d’héberger une vie extraterrestre dans leurs vastes océans cachés.

Le vaisseau spatial sans pilote, qui pèse six tonnes, se trouve actuellement à 10 millions de kilomètres de la Terre.

Mais il reviendra sur la Lune puis sur la Terre les 19 et 20 août, où il utilisera leur poussée gravitationnelle pour fournir du carburant lors de son voyage sinueux de huit ans vers Jupiter.

Le personnel du Centre d’opérations spatiales de l’ESA à Darmstadt, en Allemagne, a commencé cette semaine à préparer cette manœuvre complexe.

Le jus devrait atteindre le système de Jupiter en juillet 2031.

Le voyage empruntera une route panoramique. Le lancement du vaisseau spatial Europa Clipper de la NASA est prévu pour octobre, mais il a battu Joyce d’un an pour atteindre les lunes de Jupiter.

Une route longue et sinueuse

Joyce choisit la route la plus longue, en partie parce que la fusée Ariane 5 utilisée pour lancer la mission n’était pas assez puissante pour lancer une fusée directement sur Jupiter, située à environ 800 millions de kilomètres.

Sans une fusée massive, envoyer Juice directement vers Jupiter nécessiterait 60 tonnes de carburant à bord – et Juice n’en a que trois tonnes, selon l’Agence spatiale européenne.

READ  Les experts suggèrent que Neptune pourrait être une destination privilégiée pour l'exploration

« La seule solution est d’utiliser des aides gravitationnelles », a expliqué à l’AFP Arnaud Boutonnais, responsable des analyses de la mission à l’ESA.

En volant à proximité des planètes, les vaisseaux spatiaux peuvent profiter de leur gravité, ce qui peut modifier leur trajectoire, les accélérer ou les ralentir.

De nombreuses autres missions spatiales ont utilisé des planètes pour augmenter la gravité, mais le survol de la Terre et de la Lune le mois prochain sera une « première mondiale », a déclaré l’Agence spatiale européenne.

L’agence a déclaré qu’il s’agirait de la première « manœuvre d’assistance à double gravité » utilisant des poussées provenant de deux mondes successifs.

Juice parcourra 750 kilomètres au-dessus de la Lune le 19 août, avant de passer par notre planète natale le lendemain.

La sonde quittera la Terre à une vitesse de « 3,3 kilomètres par seconde – au lieu de trois kilomètres si on n’avait pas ajouté la Lune », a précisé Boutonnais.

La sonde Goss passant très rapidement à proximité de la Terre et de la Lune, elle en profitera pour prendre des photos et tester nombre de ses instruments.

Sur Terre, certains prendront des photos de la planète. Certains observateurs du ciel chanceux, équipés de télescopes ou de jumelles puissants, pourront peut-être repérer la planète lors de son passage au-dessus de l’Asie du Sud-Est.

READ  Des astronomes ont découvert une étoile qui entraîne son exoplanète géante dans une spirale de la mort

‘Plat à spaghetti’

Cette étape a été soigneusement calculée depuis de nombreuses années, mais ce ne sera pas une promenade de santé.

« Notre objectif est de créer un trou de souris », a confirmé Boutone.

La moindre erreur lors de son orbite autour de la Lune serait aggravée par la gravité terrestre, créant un faible risque que le vaisseau spatial puisse entrer et brûler dans l’atmosphère terrestre.

L’équipe sur Terre surveillera de près le vaisseau spatial et disposera de 12 à 18 heures pour calculer sa trajectoire et l’ajuster si nécessaire, a déclaré Boutonnet.

Il craignait avant tout un scénario dans lequel la quantité de corrections de cap nécessaires effacerait les gains réalisés grâce au double lance-pierre pour le monde, ce qui signifierait qu’ils « feraient tout cela pour rien ».

Si tout se passe bien, Juice se dirigera à nouveau vers l’espace interplanétaire – au moins pendant un petit moment.

Il se dirigera d’abord vers Vénus pour un nouvel élan en 2025.

La sonde s’approchera encore deux fois de la Terre : une fois en 2026, puis une dernière fois en 2029 avant de finalement s’élancer vers Jupiter.

Vient ensuite la partie la plus difficile.

Une fois que Juice aura atteint Jupiter, il utilisera jusqu’à 35 assistances gravitationnelles pour rebondir autour des lunes océaniques de la planète.

Durant cette étape, le trajet de la sonde ressemble à « une véritable assiette de spaghettis », a déclaré Bottonet.

Il a ajouté : « Ce que nous faisons au système Terre-Lune n’est qu’une plaisanterie comparé à lui. »

En savoir plus avec Euractiv

Continue Reading

science

La mission historique de l’astronaute Polaris Dawn de SpaceX a été reportée à la mi-août

Published

on

La mission historique de l’astronaute Polaris Dawn de SpaceX a été reportée à la mi-août

Nous devrons tous attendre encore un peu pour assister au tout premier vol spatial privé.

SpaceX vise désormais la mi-août pour lancer Polaris Dawn, une mission financée par l’homme d’affaires milliardaire Jared Isaacman. Le prochain vol, qui utilisera le vaisseau spatial Crew Dragon et la fusée Falcon 9 de SpaceX, devait décoller au plus tard le 31 juillet.

Continue Reading

science

Le T. rex était peut-être beaucoup plus lourd et plus long qu’on ne le pensait auparavant – étude

Published

on

Le T. rex était peut-être beaucoup plus lourd et plus long qu’on ne le pensait auparavant – étude

Les chercheurs suggèrent que le Tyrannosaurus rex était peut-être 70 % plus lourd qu’on ne le pensait auparavant et 25 % plus long.

Le plus grand T. rex jamais trouvé vivant pourrait être beaucoup plus grand que le plus grand spécimen actuellement connu, puisqu’il pèse environ 15 tonnes au lieu de 8,8 tonnes et mesure 15 mètres de long au lieu de 12 mètres, selon l’étude.

De nombreux dinosaures plus grands appartenant à divers groupes ont été identifiés à partir d’un seul bon spécimen fossile.

Il est donc impossible de savoir si cet animal est un grand ou un petit exemplaire de cette espèce.

Les chercheurs soulignent que déterminer quel dinosaure était le plus grand, sur la base d’une poignée de fossiles, n’a pas beaucoup de sens.

Dans la nouvelle étude, le Dr Jordan Malone du Musée canadien de la nature à Ottawa, au Canada, et le Dr David Hone de l’Université Queen Mary de Londres, ont utilisé la modélisation informatique pour évaluer un groupe de dinosaures T. rex.

Ils ont pris en compte des facteurs tels que la taille de la population, le taux de croissance, la durée de vie moyenne et le caractère incomplet des archives fossiles.

« Notre étude suggère que pour les grands animaux fossiles tels que le T. rex, nous n’avons aucune idée, d’après les archives fossiles, de la taille absolue qu’ils ont pu atteindre », a déclaré le Dr Malone.

« C’est amusant de penser à un T. rex de 15 tonnes, mais les implications sont également intéressantes d’un point de vue biomécanique ou écologique. »

READ  Le télescope spatial Webb de la NASA capture une tarentule cosmique

Le Dr Hohn a déclaré : « Il est important de souligner qu’il ne s’agit pas vraiment du T. rex, qui constitue la base de notre étude, mais que cette question s’applique à tous les dinosaures et à de nombreuses autres espèces fossiles.

« Se disputer sur « qu’est-ce qui est le plus gros ? » en se basant sur quelques squelettes n’a pas vraiment de sens. »

Le T. rex a été choisi pour le modèle car bon nombre de ses détails étaient déjà bien appréciés.

Le modèle est basé sur des modèles de crocodiles vivants, choisis en raison de leur grande taille et de leur relation étroite avec les dinosaures.

Les chercheurs ont découvert que les plus grands fossiles connus de T. rex se situent probablement dans le 99e centile, soit le 1 pour cent supérieur de la taille du corps.

Cependant, ils soulignent que pour trouver un animal parmi les 99,99 pour cent (un tyrannosaure sur dix mille), les scientifiques devraient fouiller des fossiles au rythme actuel pendant encore 1 000 ans.

Les estimations de taille sont basées sur un modèle, mais la découverte de géants d’espèces modernes suggère qu’il devait encore y avoir des dinosaures plus grands.

« Certains des os et morceaux isolés indiquent clairement des individus plus gros que les squelettes dont nous disposons actuellement », a déclaré le Dr Hoon.

Les résultats ont été publiés dans la revue Ecology and Evolution.

Continue Reading

Trending

Copyright © 2023