Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et du contenu exclusif sur notre couverture de pointe sur l’IA. Apprendre encore plus
Les grands modèles de langage sont souvent pré-entraînés sur d’énormes ensembles de données contenant un mélange de texte et de code. Bien que le code soit essentiel dans les modèles de formation conçus pour les tâches de programmation, il est de plus en plus courant de l’inclure dans les données de pré-formation pour les modèles non explicitement destinés à la génération de code.
dans Nouveau papierchercheurs en adhérer Ils ont systématiquement étudié l’effet des données de code dans la pré-formation LLM sur les performances globales au-delà des tâches de codage.
« Bien qu’il y ait eu un consensus parmi les praticiens sur le fait que les données de code jouent un rôle essentiel dans la performance LLM, il n’y a eu que peu de travaux analysant l’impact précis du code sur les tâches non codées », ont écrit les chercheurs.
Leurs résultats montrent que le code joue un rôle crucial dans l’amélioration des performances des étudiants en LLM sur un large éventail de tâches. La manière dont ils sont parvenus à ces résultats est également importante et pourrait avoir des implications pour la formation des étudiants en LLM à des applications concrètes.
Étudier l’impact du code
Pour comprendre l’impact du code sur les performances globales de LLM, les chercheurs ont mené une série d’expériences. Ils ont pris en compte divers facteurs, notamment la quantité de code dans les données de formation, l’endroit où le code est ajouté pendant le processus de formation, la qualité du code et la taille des modèles.
Les chercheurs ont utilisé un processus de formation en deux étapes. Premièrement, ils ont effectué un « pré-entraînement continu » en prenant des modèles précédemment formés et en continuant à les former sur de nouveaux ensembles de données avec différentes proportions de texte et de symboles pour un nombre fixe de symboles. Ils ont ensuite utilisé une phase de « refroidissement », en attribuant des pondérations plus élevées aux ensembles de données de meilleure qualité au cours des dernières étapes de la formation.
Le modèle de base a été formé uniquement sur du texte. Ils ont également testé des modèles qui ont d’abord été pré-entraînés sur un ensemble de données équilibré de code et de texte, puis formés davantage sur des données textuelles au cours d’une phase de pré-formation en cours. Ils disposaient également d’un ensemble de modèles pré-entraînés uniquement sur les données de code et davantage formés sur le texte.
Les chercheurs ont évalué les performances des modèles à différentes échelles, de 470 millions à 2,8 milliards de paramètres. Ils ont utilisé une variété de critères qui mesurent les capacités des modèles à connaître le monde, à raisonner en langage naturel et à exécuter du code.
Avantages de l’utilisation du code pour des tâches non liées à la programmation
Les expériences ont révélé que le code améliore systématiquement les performances des étudiants en LLM sur les tâches non liées au code.
Dans les tâches de raisonnement en langage naturel, les modèles formés au code ont systématiquement surpassé les modèles textuels. Il est intéressant de noter que les chercheurs ont découvert que le pré-entraînement du modèle avec 100 % de données de code entraînait les meilleures performances sur ces tests.
« Cela montre que l’initialisation à partir d’un modèle pré-entraîné avec une combinaison de code a un effet positif important sur les tâches d’inférence du langage de programmation », ont écrit les chercheurs.
Pour les tâches de connaissances globales, un mélange équilibré de code et de texte dans les données de pré-formation a donné les meilleures performances. « La performance sur les tâches de connaissances globales semble dépendre d’un mélange de données plus équilibré entre l’amorçage et une plus grande proportion de texte dans la phase de pré-formation en cours », suggèrent les chercheurs.
Sur les tâches génératives, les modèles de code uniquement et équilibrés ont surpassé le modèle de texte uniquement, ce qui confirme que les données de code dans le mélange de pré-entraînement « améliorent non seulement le raisonnement, mais aident également le modèle à produire des générations de meilleure qualité ».
Les chercheurs ont également noté que les gains de performances résultant de l’ajout de code aux données de pré-entraînement augmentaient à mesure que la taille du modèle augmentait. Les améliorations ont été particulièrement notables dans les connaissances globales et les performances du code, suivies par des gains modestes dans le raisonnement en langage naturel.
« Ces résultats montrent que l’équilibre entre les tâches en langage naturel et la génération de code augmente avec la taille du modèle », écrivent les chercheurs.
Il convient de noter que les modèles LLM montrent souvent un comportement émergent à très grande échelle et que les tendances observées dans l’étude peuvent changer sur des dizaines ou des centaines de milliards de paramètres. En raison de contraintes financières, les chercheurs n’ont pas pu tester les effets de leurs expériences à très grande échelle. Cependant, ils sont optimistes quant à la validité de leurs résultats pour des modèles plus grands.
« Étant donné que nos résultats se situent entre 470 millions et 2,8 milliards, nous pensons qu’ils devraient être valables pour des modèles de plus grande taille et des budgets de code plus importants », ont-ils écrit.
Les chercheurs ont également constaté que l’ajout d’un code synthétique de haute qualité aux données de pré-entraînement améliorait considérablement les performances. Ceci est particulièrement utile car il ne repose pas sur du code généré par l’homme, dont la quantité est limitée.
« Nos instructions de code synthétique ont été générées à l’aide d’énoncés de problèmes qui ont été utilisés pour créer des solutions Python et ont été formellement vérifiés », a déclaré Virat Ariyabhumi, chercheur chez Cohere For AI et auteur principal de l’article, à VentureBeat. « Il s’agit d’une énorme tendance au potentiel futur – et le critère clé que les praticiens doivent garder à l’esprit s’ils souhaitent exploiter des données de code synthétiques est d’utiliser un modèle de tuteur hautes performances pour générer les données de code. »
Ils ont également constaté que l’ajout de données adjacentes au code, telles que les demandes d’extraction et les validations GitHub, peut améliorer les capacités des modèles sur les tâches d’inférence.
L’intégration du code dans la phase de récupération de la formation a entraîné de nouvelles améliorations des performances LLM sur plusieurs tâches non liées au code. Cette découverte pourrait être pertinente pour les organisations, qui sont plus susceptibles d’affiner leurs modèles en utilisant leurs données plutôt que de former leurs propres modèles à partir de zéro.
« La phase de récupération est probablement la plus proche d’un réglage fin en termes de coût, de qualité des données et de ressources nécessaires », a déclaré Ariyabumi. « Elle apporte des gains significatifs, donc quelle que soit la phase de formation, nous recommandons d’inclure du code dans le mix de formation. .» « Nous espérons que l’inclusion d’un code de haute qualité (comme celui dans les bases de code internes et les données adjacentes au code) apportera une amélioration pendant la période de refroidissement. »
Alors que Cohere se concentre sur la fourniture de programmes LLM pour les applications d’entreprise, il sera intéressant de voir comment ces résultats impacteront le déploiement de ses modèles et produits à l’avenir. Par exemple, une entreprise peut proposer un ensemble plus large de modèles pré-entraînés sur différentes combinaisons de code et de script, chacun étant adapté à différents types de tâches. Les entreprises peuvent ensuite adapter ces modèles à leurs propres données afin d’obtenir les meilleures performances pour un type d’application spécifique.
« Nous espérons que les résultats de nos recherches seront d’une réelle pertinence pour les développeurs et conduiront à des modèles plus performants », a déclaré Ariyabumi. « Ce qui est étonnant dans ce que nous avons découvert, c’est que le code améliore les performances en dehors des tâches de code et qu’il informe réellement sur la façon dont nous le faisons. pensez à former des modèles modernes que nous servons.
Vice-président quotidien
Restez informé ! Recevez quotidiennement les dernières nouvelles dans votre boîte de réception
En vous abonnant, vous acceptez les conditions d’utilisation de VentureBeat.
Merci de vous être abonné. Vous pouvez trouver plus de newsletters VB ici.
Une erreur s’est produite.