Yekaterina « Kate » Shulgina était une étudiante de première année à la Graduate School of Arts and Sciences, à la recherche d’un court projet de biologie computationnelle afin de pouvoir vérifier les exigences de son programme de biologie des systèmes. Elle se demandait comment le code génétique, autrefois considéré comme universel, pouvait évoluer et changer.
C’était en 2016 et aujourd’hui, Shulgina est sortie à l’autre bout de ce projet à court terme avec un moyen de déchiffrer ce puzzle génétique. Elle le décrit dans un nouvel article de recherche dans la revue eLife Avec le biologiste de Harvard Sean Eddy.
Le rapport détaille un nouveau programme informatique capable de lire la séquence du génome d’un organisme, puis de déterminer son code génétique. Le programme, appelé Codetta, a le potentiel d’aider les scientifiques à approfondir leur compréhension de l’évolution du code génétique et à interpréter correctement le code génétique des organismes nouvellement séquencés.
« C’est en soi une question fondamentale en biologie », a déclaré Shulgina, qui fait ses recherches supérieures dans le laboratoire d’Eddie.
Le code génétique est l’ensemble de règles qui indiquent aux cellules comment interpréter les ensembles de nucléotides de trois lettres en protéines, souvent appelées les éléments constitutifs de la vie. Presque toutes les créatures vivantes de bactéries coli Pour les humains, il utilise le même code génétique. C’est pourquoi on croyait autrefois que le code était gravé dans la pierre. Mais les scientifiques ont découvert une poignée de valeurs aberrantes – ; Les organismes qui utilisent des codes génétiques alternatifs – se trouvent là où l’ensemble d’instructions diffère.
C’est là que Codetta peut vraiment briller. Le programme pourrait aider à identifier davantage d’organismes à l’aide de ces codes génétiques alternatifs, contribuant ainsi à jeter un nouvel éclairage sur la façon dont les codes génétiques pourraient changer en premier lieu.
Comprendre comment cela se produit nous aidera à concilier pourquoi nous pensions à l’origine que cela était impossible… et comment ces processus de base fonctionnent réellement. «
Yekaterina « Kate » Shulgina
Déjà, Codetta a analysé les séquences du génome de plus de 250 000 bactéries et autres organismes unicellulaires appelés archées pour des codes génétiques alternatifs, et en a identifié cinq qui n’avaient jamais été vus auparavant. Dans les cinq cas, le code d’acide aminé pour l’arginine a été réinitialisé à un acide aminé différent. On pense que c’est la première fois que les scientifiques voient cet échange dans des bactéries et pourraient faire allusion aux forces évolutives qui entrent dans la modification du code génétique.
Les chercheurs disent que l’étude représente le plus grand examen des codes génétiques alternatifs. Codetta a analysé pratiquement tous les génomes disponibles de bactéries et d’archées. Le nom du programme est un croisement entre des codons, une séquence de trois nucléotides qui forme des morceaux de code génétique, et la pierre de Rosette, une plaque de roche inscrite en trois langues.
Le travail représente un moment culminant pour Shulgina, qui a passé les cinq dernières années à développer la théorie statistique derrière Codetta, à écrire le programme, à le tester, puis à analyser le génome. Il fonctionne en lisant le génome d’un organisme, puis en tirant parti d’une base de données de protéines connues pour produire un code génétique potentiel. Elle diffère des autres méthodes similaires en raison de la taille avec laquelle elle peut analyser les génomes.
Shulgina a rejoint le laboratoire d’Eddie, spécialisé dans la comparaison des génomes, en 2016 après être venu lui demander conseil sur l’algorithme qu’elle concevait pour interpréter les codes génétiques.
Jusqu’à présent, personne n’a fait une étude aussi large des codes génétiques alternatifs.
« C’était génial de voir de nouveaux codes, car malgré tout ce que nous savions, Kate ferait tout le travail et il n’y aurait pas de nouveaux codes à trouver », a déclaré Eddy, qui est également enquêteur médical chez Howard Hughes. Il a également noté que le système pourrait être utilisé pour assurer l’exactitude des nombreuses bases de données de séquences de protéines.
« De nos jours, de nombreuses séquences de protéines dans les bases de données ne sont que des traductions conceptuelles de séquences d’ADN génomique », a déclaré Eddy. « Les gens creusent dans ces séquences de protéines à la recherche de toutes sortes de choses utiles, comme de nouvelles enzymes ou de nouveaux modificateurs de gènes, etc. Vous voulez que les séquences de protéines soient précises, mais si un organisme utilise un code non standard, il le fera. Traduisez mal ».
Les chercheurs disent que la prochaine étape du travail consiste à utiliser Codetta pour rechercher des codes alternatifs dans les virus, les eucaryotes et les génomes organométalliques tels que les mitochondries et les chloroplastes.
« Il y a encore tellement de diversité dans la vie que nous n’avons pas encore fait cet examen systématique », a déclaré Shulgina.
La source:
Référence de la revue :
Shulgina, Y & Eddy, SR, (2021) Un écran informatique pour les codes génétiques alternatifs dans plus de 250 000 génomes. eLife. doi.org/10.7554/eLife.71402.