Connect with us

science

Structures d’assemblage prédites à l’échelle de l’univers protéique connu

Published

on

Structures d’assemblage prédites à l’échelle de l’univers protéique connu

Algorithme de clustering structurel

La procédure de clustering est similaire à la procédure de clustering de MMseqs2, mais au lieu d’utiliser des séquences, l’alphabet 3D Foldseek (Extended Data Figure 1) a été utilisé pour représenter les structures sous forme de séquences 1D. L’algorithme de clustering combine Linclust17 et la cascade MMseqs2 (réf. 42) Réunis. Le pipeline applique cette stratégie pour permettre l’assemblage efficace de millions de structures. Tout d’abord, les structures protéiques sont converties en séquences 3D et traitées selon le flux de travail Linclust. Cela inclut l’extraction M K-Mers (par défaut M= 300, K= 10) de chaque séquence et regroupez-les en fonction de leur valeur de hachage. le KLes clusters -mer sont ensuite utilisés pour mapper chaque structure à la séquence (représentative) la plus longue du cluster. Le diamètre commun qu’il a KLe -mer trouvé est également stocké pour une utilisation ultérieure lors de l’étape d’alignement.

Le pipeline utilise ensuite un algorithme d’alignement inexploité qui réenregistre les structures en fonction du diamètre partagé entre les membres et les représentants à l’aide d’informations 3D et d’acides aminés. Séquences qui répondent aux critères d’alignement spécifiés, par exemple H-valeur, couverture d’alignement, identité de séquence, alignement LDDT43 Ou qualité TM44, sont regroupés à l’aide du module de clustering MMseqs2 (par défaut, à l’aide de l’algorithme de clustering wrapper). Après cette étape, les structures déjà cartographiées sont supprimées de l’ensemble et les scores des membres représentatifs restants sont alignés à l’aide de l’algorithme structurel Gotoh – Smith – Waterman de Foldseek.15,Tous les résultats de réussite sont également agrégés. Les représentants de l’ensemble restants sont successivement assemblés à travers trois étapes successives de pré-filtrage, d’alignement structurel Smith-Waterman et de regroupement.

Distinguer les homologues de leurs homologues

La similarité structurelle entre deux séquences peut être attribuée soit à un ancêtre évolutif commun (homologues), soit à une évolution convergente (paralogues). Nous avons étudié les relations entre les membres du groupe, qui sont calculées par notre pipeline sur la base de la similarité structurelle et des relations d’homologie à l’aide de la base de données ECOD.24. ECOD est une base de données de domaines hiérarchiques qui décrit les relations évolutives entre des paires de domaines protéiques. Leurs niveaux hiérarchiques sont classés de la racine à la feuille comme suit : groupe A (même structure), groupe X (homologie potentielle), groupe H (homologie), groupe T (topologie) et groupe F (similitude de séquence). Des homologues devraient se produire entre les membres de différents groupes X, tandis que des homologues devraient être trouvés au sein du groupe H.

Pour notre benchmark, nous avons téléchargé la base de données PDB ECOD (F99 v.20230309) et appliqué la même procédure de clustering MMseqs2 et Foldseek que celle utilisée pour AFDB. Nous avons effectué une analyse de pureté des clusters ECOD sur tous les clusters non uniques en mesurant la cohérence des membres du cluster par paire à différents niveaux hiérarchiques. L’analyse a révélé des taux de cohérence moyens élevés de 99,6 %, 98,6 %, 97,4 %, 96,8 % et 72,8 % pour le groupe A, le groupe X, le groupe H, le groupe T et le groupe F, respectivement. Cela indique un regroupement efficace des protéines homologues, indiquant une discrimination presque exclusive entre homologues et paralogues. La grande cohérence de nos groupes est principalement due à la rigueur H-Valeur 10-2; Lorsqu’elles sont portées à 10, les stabilités diminuent respectivement à 69,7%, 55,7%, 53,3%, 51,9% et 36,6%. Un résultat similaire a été observé en utilisant la base de données MALISAM45, une base de données à domaine unique de domaines protéiques similaires. Lorsque 260 structures protéiques sont regroupées dans la base de données MALISAM avec les paramètres Foldseek par défaut, aucun regroupement d’homologues ne se produit. Cependant, si l’on augmente H-valeur seuil, nous commençons à former des groupes contenant des analogues.

READ  Des paléontologues découvrent un fossile vieux de 25 millions d'années d'un oiseau ressemblant à un aigle en Australie

Analyse de pureté de masse

Pour évaluer la pureté des clusters, nous avons suivi une approche en deux étapes. Tout d’abord, nous avons calculé le score moyen LDDT et TM pour chaque groupe afin d’évaluer la similarité structurelle. Pour cela, nous avons aligné l’acteur avec les membres de l’ensemble à l’aide du module Structurealign -e INF -a dans Foldseek et avons rapporté le résultat de l’alignement LDDT et TM en utilisant –format-output lddt,alntmscore. Pour chaque groupe, nous avons calculé la moyenne indiquée dans la figure 1c.

Deuxièmement, nous avons évalué la cohérence Pfam de chaque groupe à l’aide des étiquettes Pfam obtenues auprès d’UniProtKB. Nous avons uniquement considéré les clusters contenant au moins deux séquences avec des annotations Pfam et calculé la fraction de domaines Pfam correctement couverts pour toutes les paires de séquences Pfam en ignorant l’auto-comparaison. Nous définissons les vrais positifs comme une paire de domaines Pfam appartenant au même clan. Pour chaque paire, nous avons calculé les scores de cohérence en fonction du nombre de vrais positifs divisé par le nombre de Pfam dans la séquence de référence. Enfin, nous avons calculé les scores totaux moyens de la paire. Cette approche nous a permis de déterminer la proportion de séquences au sein d’un groupe donné partageant la même annotation Pfam.

Enfin, nous avons également calculé la cohérence du numéro EC pour chaque groupe. Les numéros EC ont été extraits d’UniProtKB. La cohérence EC a été évaluée de la même manière que la cohérence Pfam, mais a été réalisée quatre fois selon les quatre catégories de numéros EC. Nous avons uniquement considéré les clusters contenant au moins deux séquences contenant des annotations EC. Dans chaque catégorie de numéro CE, les annotations qui ne contenaient aucun symbole dans la catégorie étaient ignorées. Pour chaque paire de cohérence Pfam, les scores de cohérence ont été calculés en divisant le nombre de vrais positifs par le nombre de CE dans les séquences de la paire, évitant ainsi toute comparaison subjective. Les scores ont finalement été calculés sur la moyenne des scores totaux des paires.

READ  La manière dont les fourmis coupeuses de feuilles cultivent un jardin fongique pour décomposer les plantes pourrait donner un aperçu des futurs biocarburants.

Amas sombres et LCA

Pour éliminer les clusters similaires aux structures empiriques précédemment connues, nous avons effectué une recherche à l’aide de Foldseek sur le PDB (version 2022-10-14) pour chaque représentant de cluster, avec H– Valeur seuil 0,1. Nous avons ensuite exclu les clusters annotés par les plages Pfam en recherchant des représentants de cluster à l’aide de MMseqs2 avec les paramètres -s 7,5 –max-seqs 100000 -e 0,001 par rapport à la base de données Pfam. Enfin, nous avons supprimé les clusters contenant des membres annotés avec Pfam ou TIGRFAM20 dans les bases de données UniProt/TrEMBL et SwissProt. Pour déterminer l’ACV pour chaque groupe, nous avons utilisé le module LCA de MMseqs2 (réf. 46) Catégories rejetées (1) 12 908 séquences non classées et (2) 28 384 autres séquences. Nous avons visualisé les résultats de l’ACV à l’aide d’un tracé Sankey généré par Pavian47.

Prévision des emplois et des poches

Nous avons prédit les sites de liaison de petites molécules pour les membres représentatifs du groupe sombre en adaptant l’approche décrite précédemment.9. Nous avons utilisé AutoSite pour prédire les poches48et des poches sélectionnées avec un score composite empirique AutoSite > 60 et des résidus de poche pLDDT moyens > 90 pour des analyses supplémentaires. Pour attribuer une fonction putative et prédire les résidus catalytiques, nous avons utilisé DeepFRI49 Prédire les termes GO/EC enrichis et les poids d’importance des niveaux de résidus dans les catégories GO/EC disponibles (BP, CC, EC, MF). Les prédictions sinusoïdales et fonctionnelles ont ensuite été inspectées visuellement à l’aide d’une application Web (disponibilité des données).

Prédiction de domaine à partir de l’alignement local

Tout d’abord, nous avons filtré les résultats Foldseek avec des scores faibles à l’aide d’un H-Valeur 10-3 Comme seuil. Nous avons identifié les positions potentielles des limites de domaine pour chaque séquence protéique en regroupant les positions de début et d’arrêt (regroupement hiérarchique, paramètre de hauteur 250 pour créer des clusters). Les domaines prédits ont ensuite été liés à d’autres sur la base de similitudes structurelles, les scores les plus élevés étant conservés lorsque des doublons étaient trouvés. Le réseau résultant a ensuite été coupé, à l’exception des connexions vers celui-ci. H-La valeur est supérieure à 10-5Domaines prédits contenant > 350 acides aminés et composants connectés avec moins de 5 nœuds. Nous avons appliqué un clustering basé sur des graphiques (piège, 6 étapes), en conservant les communautés d’au moins 5 membres. Chaque domaine prédit au sein des communautés identifiées a été annoté à l’aide des régions Pfam-A mappées sur les identifiants UniProt (version 35.0), et plus de 75 % du domaine Pfam devrait chevaucher le domaine prédit. Nous avons calculé la fréquence des commentaires Pfam au sein de chaque communauté et les avons sélectionnés en fonction de la plus élevée. En raison de sa taille, nous avons décidé d’exclure une population de l’analyse suivante contenant 152 959 structures (cluster ID 1 ; 1, voir Fichiers supplémentaires dans https://cluster.foldseek.com/). Nous avons relié les communautés restantes sur la base de similitudes de structure, permettant ainsi des connexions avec A. s< 10-3.

READ  Des scientifiques ont découvert la source de l'une des météorites les plus rares tombées sur Terre

Une base de données d’Internet

Nous avons développé un serveur Web pour permettre une exploration conviviale des groupes, de leurs membres et des groupes similaires associés. Le serveur a été implémenté à l’aide d’une architecture client-serveur basée sur REST, avec un front-end VueJS et un back-end NodeJS. Les informations relatives à l’assemblage sont accessibles via la base de données SQLite et les informations sur les structures individuelles sont accessibles via des bases de données compatibles Foldseek via une extension NodeJS basée sur C++ pour une lecture et une recherche rapides. Semblable au serveur Web Foldseek, nous avons utilisé NGL50 Pour visualiser les architectures et les versions basées sur WebAssembly de PULCHRA51 Récupérer des structures protéiques complètes à partir de nos traces C-alpha stockées et de l’alignement TM afin d’aligner la structure par paires des membres du groupe avec leurs représentants. Pour visualiser la distribution taxonomique, nous avons implémenté des diagrammes Sankey inspirés de Bafian. Les groupes peuvent être trouvés via les adhésions de membres UniProt, via une recherche Foldseek sur des groupes similaires ou en recherchant des termes GO. Les membres individuels de l’ensemble peuvent être explorés plus en détail via des liens vers UniProt, le serveur Web Foldseek et l’Atlas UniProt3D.52.

Résumé des rapports

Plus d’informations sur la conception de la recherche sont disponibles dans le résumé du rapport Nature Portfolio lié à cet article.

Continue Reading
Click to comment

Leave a Reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

science

L’équipage de la 18e sortie dans l’espace de Shenzhou

Published

on

L’équipage de la 18e sortie dans l’espace de Shenzhou

Ye Guangfu (au centre), Li Cong (à droite) et Li Guangsu, membres de l’équipage de la mission Shenzhou XVIII, rencontrent les médias lors d’une conférence de presse au Centre de lancement de satellites de Jiuquan, le 24 avril 2024. [Photo by Wang Jiangbo/For China Daily]

Le 18e membre de l’équipage de Shenzhou à bord de la station spatiale chinoise mènera ses premières activités extravéhiculaires dans les prochains jours, a annoncé lundi l’Agence chinoise des missions spatiales habitées.

Les astronautes, qui ont passé 32 jours à bord de la station spatiale, ont effectué une rotation avec le 17e équipage de Shenzhou, ont assuré la maintenance et l’entretien de la plate-forme de la station spatiale, ont assuré la maintenance du système de survie et de santé et ont effectué des inspections et des inspections. Tests de combinaisons d’activités extravéhiculaires, pour les préparer aux sorties dans l’espace.

Ils ont également participé à des exercices de pression d’urgence à l’échelle du système, à des exercices de sauvetage médical et à d’autres programmes de formation en orbite.

L’agence a déclaré qu’elle s’était lancée dans une série d’expériences scientifiques spatiales et avait achevé la deuxième installation d’un dispositif expérimental d’exposition aux matériaux à l’extérieur du module spatial.

Elle a ajouté que le 18e équipage de Shenzhou était en bonne santé et que la station spatiale fonctionnait sans problème, offrant de bonnes conditions pour les activités extravéhiculaires.

Chine

READ  Le huitième équipage arrive à la Station spatiale internationale, malgré une fissure dans la capsule
Continue Reading

science

Expédition dans la tranchée d’Atacama : penser à Encelade et à Europe

Published

on

Expédition dans la tranchée d’Atacama : penser à Encelade et à Europe

Éponge des grands fonds – Schmidt Ocean Institute

L’Atacama, au nord du Chili, est le désert le plus ancien et le plus sec de la planète. Alors que l’activité tectonique a remodelé la forme et la disposition des terres émergées au cours des 150 derniers millions d’années, le désert d’Atacama est resté essentiellement à la même latitude. À l’extérieur, là où le désert rencontre la mer, le plateau continental d’Atacama est également resté relativement inchangé.

Lorsque les scientifiques ont commencé à étudier les micro-organismes vivant sur la côte d’Atacama, ils ont découvert plusieurs espèces anciennes, ce qui les a amenés à se demander si d’autres espèces, tout aussi anciennes, avaient été signalées dans la région. Les enquêtes sur ce que les pêcheurs locaux ont capturé dans leurs filets et les résultats des expéditions de recherche précédentes ont révélé des espèces d’invertébrés, telles que les brachiopodes, communément appelés fossiles vivants.

Le Dr Armando Azua Bustos du Centre d’astrobiologie (CAB), CSIC-INTA, en Espagne, et son équipe émettent l’hypothèse que le statut immuable de la région d’Atacama crée la possibilité d’écosystèmes entiers composés d’organismes fossiles vivants. À l’aide des capteurs du R/V Falkor (également) et d’instruments avancés comme le ROV SuBastian, l’équipe scientifique révélera si la zone contient des exemples d’autres espèces dont l’apparence est restée relativement inchangée depuis leur apparition dans les archives fossiles.

S’ils parviennent à trouver des écosystèmes similaires à ceux qui existaient il y a 150 millions d’années, ils pourraient obtenir des informations sur l’évolution de la vie sur Terre et, peut-être, des informations sur les écosystèmes potentiels des grands fonds marins qui pourraient exister sous la surface des lunes glacées Encelade et Europe.

READ  La NASA enquête sur les ovnis sur le Mars Rover Sample System

Comprendre les origines et l’évolution de la vie sur Terre suggère les conditions dans lesquelles la vie pourrait exister sur d’autres planètes et sur leurs lunes. Bien que nous n’ayons pas encore trouvé de preuves de vie sur d’autres planètes de notre système solaire, les scientifiques pensent que la vie pourrait être trouvée dans les océans sous la surface de lunes glacées comme Encelade et Europe. En recherchant des espèces anciennes dans la fosse d’Atacama, l’équipe étudiera des conditions similaires à celles trouvées sous la surface d’Europe et d’Encelade, suggérant quels types de biosignatures pourraient nous aider dans la recherche de la vie sur ces lunes glacées.

Parution complète

Astrobiologie

Membre de l’Explorers Club, ancien directeur de charge utile/astrobiologiste de la Station spatiale américaine, exo-équipes, journaliste, Violator Climber, synesthète, mélange Na’Vi-Jedi-Freman-Bouddhiste, ASL, vétéran de l’île Devon et du camp de base de l’Everest, (il/Il ) 🖖🏻

Continue Reading

science

🔭 Le télescope Webb a découvert la plus ancienne fusion de trous noirs connue « seulement » 740 millions d’années après le Big Bang.

Published

on

🔭 Le télescope Webb a découvert la plus ancienne fusion de trous noirs connue « seulement » 740 millions d’années après le Big Bang.
  • Le télescope James Webb a découvert deux galaxies en fusion et leurs énormes trous noirs lorsque l’univers avait 740 millions d’années.
  • L’un des trous noirs a une masse 50 millions de fois supérieure à celle du Soleil.
  • Ces résultats aident à comprendre comment les trous noirs massifs ont influencé l’évolution des galaxies depuis le début de l’univers.

Les trous noirs se sont développés rapidement au début de l’univers

Des trous noirs supermassifs ont été découverts dans la plupart des grandes galaxies de notre univers local, y compris la Voie Lactée. Leur masse est des millions ou des milliards de fois supérieure à celle du Soleil. Ces trous noirs ont probablement un impact majeur sur l’évolution de leurs galaxies. Cependant, les scientifiques ne savent toujours pas exactement comment ces trous noirs sont devenus si grands.

Aujourd’hui, grâce au télescope James Webb, il a été prouvé que deux galaxies et leurs énormes trous noirs ont fusionné alors que l’univers n’avait que 740 millions d’années, rapporte l’Agence spatiale européenne. Le fait que des trous noirs supermassifs aient été découverts dès le premier milliard d’années après le Big Bang suggère que leur croissance a dû se produire très rapidement et très tôt.

Il ne peut être vu qu’à l’aide du télescope Webb

Les trous noirs massifs en croissance active présentent des caractéristiques spectrales particulières que les astronomes peuvent reconnaître. Pour les galaxies très lointaines, comme celles de cette étude, ces signes ne peuvent être observés qu’à l’aide du télescope Webb.

« Nous avons trouvé des preuves de gaz très dense avec des mouvements rapides à proximité du trou noir, ainsi que de gaz chaud et hautement ionisé éclairé par un rayonnement énergétique que les trous noirs produisent généralement dans leurs anneaux d’accrétion », a expliqué l’auteur principal Hannah Opler du centre de recherche. Université de Cambridge au Royaume-Uni. « Grâce à la résolution sans précédent de ses capacités d’imagerie, Webb a également permis à notre équipe de séparer spatialement les deux trous noirs. »

READ  La NASA enquête sur les ovnis sur le Mars Rover Sample System

L’équipe a découvert que la masse de l’un des trous noirs est 50 millions de fois celle du Soleil. « La masse de l’autre trou noir est probablement similaire, même si elle est difficile à mesurer car ce deuxième trou noir est enfoui dans un gaz dense », a expliqué Roberto Maiolino, membre de l’équipe de l’Université de Cambridge et de l’University College de Londres au Royaume-Uni.

« Nos résultats suggèrent que la fusion est une voie importante par laquelle les trous noirs peuvent se développer rapidement, même à l’aube cosmique », a expliqué Hannah. « Avec les autres découvertes de Webb sur les trous noirs massifs et actifs dans l’univers lointain, nos résultats montrent également que les trous noirs massifs façonnent l’évolution des galaxies depuis le début. »

Le télescope Webb est le télescope le plus grand et le plus puissant jamais envoyé dans l’espace et constitue un projet conjoint entre les États-Unis et l’Europe. L’univers est observé depuis un endroit situé à 1,6 million de kilomètres de la Terre.

LISA détectera les ondes gravitationnelles

Lorsque les deux trous noirs ont fusionné, ils ont créé des ondes gravitationnelles. De tels événements pourraient être détectés par les futurs observatoires d’ondes gravitationnelles, comme la prochaine mission LISA, récemment approuvée par l’Agence spatiale européenne (ESA), qui sera le premier observatoire spatial dédié à l’étude des ondes gravitationnelles.

Les ondes gravitationnelles sont des ondulations invisibles dans la structure de l’espace-temps, créées par le mouvement d’objets massifs. Ils traversent constamment la Terre inaperçus et sont provoqués par des événements violents tels que la collision de trous noirs et la fusion d’étoiles à neutrons.

READ  Des paléontologues découvrent un fossile vieux de 25 millions d'années d'un oiseau ressemblant à un aigle en Australie

« Les résultats de Webb nous indiquent que les systèmes plus légers détectables par LISA devraient être beaucoup plus fréquents qu’on ne le pensait auparavant », a partagé Nora Luitzgendorf, scientifique principale du projet LISA de l’Agence spatiale européenne aux Pays-Bas. « Cela nous amènera probablement à ajuster nos modèles pour les taux LISA dans cette fourchette globale. Ce n’est que la pointe de l’iceberg. »

Mur
WALL-Y est un bot IA créé dans ChatGPT. Il en apprend davantage À propos de WALL-Y et de la manière dont nous le développons. Vous pouvez retrouver son actualité ici.
Vous pouvez discuter avec
MUR YGBT À propos de cet article d’actualité et de l’optimisme fondé sur des faits (Nécessite une version payante de ChatGPT.)

Conseils d’actualité : Thomas Ahlström

Continue Reading

Trending

Copyright © 2023