juin 8, 2023

7seizh

Dernières nouvelles et nouvelles du monde de 7 Seizh sur les affaires, les sports et la culture. Nouvelles vidéo. Nouvelles des États-Unis, d'Europe, d'Asie-Pacifique, d'Afrique, du Moyen-Orient, d'Amérique.

Meta AI publie l’ensemble de données HM3D-Sem, le plus grand ensemble de données jamais créé pour les intérieurs 3D annotés sémantiquement

L’expansion a pris de l’importance à la suite des récentes percées technologiques. De grands réseaux de neurones ont été formés dans des environnements 3D à l’aide d’un apprentissage par renforcement profond sur des milliards d’étapes d’expérience, aidant à faire progresser le développement d’entités intelligentes incarnées capables d’accomplir des tâches axées sur des objectifs. Pour garantir que les réseaux fonctionnent à une échelle aussi massive sans tracas, les systèmes RL doivent évoluer pour inclure de nombreux ordinateurs et faire bon usage des ressources disponibles, telles que les GPU, tout en maintenant un modèle d’apprentissage efficace. L’un des moyens les plus prometteurs d’atteindre cette métrique consiste à la regrouper en fonction de la politique. Ces méthodes rassemblent l’expérience de nombreux environnements différents utilisant la politique et la mettent à jour avec l’expérience cumulée.

En général, l’apprentissage par renforcement lié à la politique RL est largement divisé en deux catégories, synchrone (SyncOnRL) et asynchrone (AsyncOnRL). Tout d’abord, la stratégie est appliquée à l’ensemble du lot afin que les étapes T soient collectées à partir de tous les environnements N. Ce sont les deux premiers points de synchronisation dans SyncOnRL. La politique mise à jour est basée sur cet ensemble d’expériences (T, N). Cependant, le débit est réduit par la synchronisation car le système doit attendre longtemps que l’environnement le plus lent se termine. L’effet extrême est un terme fréquemment utilisé pour décrire cet événement. En éliminant ces sites de synchronisation, AsyncOnRL réduit le stress et améliore la productivité. Dans un article récemment publié par Meta AI et des chercheurs du Georgia Institute of Technology, l’équipe propose de déployer l’expérience variable (VER). Cette méthode combine les avantages de SyncOnRL et AsyncOnRL tout en estompant les différences entre eux. Semblable à AsyncOnRL, VER n’utilise pas de points de synchronisation ; Au lieu de cela, il calcule les prochaines étapes d’action et les environnements, et met à jour la politique dès que possible. VER met à jour la politique après avoir acquis de l’expérience avec la politique actuelle, tout comme le fait SyncOnRL.

READ  La première véritable fuite du Pixel 8 Pro semble provenir de Google lui-même

Deux idées importantes ont servi de base à VER. La première est qu’AsyncOnRL réduit l’effet du stress en collectant une quantité différente d’expérience de chaque environnement (plus que les environnements simulés rapides et moins que les environnements lents). Le deuxième résultat est que la longueur de la soustraction est constante pour SyncOnRL et AsyncOnRL. Bien que la longueur spécifique de la soustraction puisse faciliter la mise en œuvre, selon les chercheurs, elle n’est pas nécessaire pour RL. Ces deux résultats critiques ont incité le développement d’une expérience variable (VER) ou d’une pratique d’addition-soustraction avec un nombre variable d’étapes. En fonction de la fréquence de simulation, VER ajuste la durée de soustraction pour chaque environnement. Le résultat est un système RL qui surmonte l’influence extrême et maintient l’efficacité de l’échantillon en apprenant des données existantes sur la politique. VER se concentre sur l’utilisation efficace d’un seul GPU. Les chercheurs ont associé VER à la technologie distribuée décentralisée présentée dans [Wijmans et al., 2020] Pour permettre une mise à l’échelle efficace de plusieurs GPU.

Après avoir mené plusieurs évaluations expérimentales, les chercheurs ont conclu que le VER entraînait une accélération significative et cohérente sur un large éventail de tâches de navigation et de manipulation mobiles dans des paramètres de simulation 3D réalistes. En particulier, VER est 60 à 100 % plus rapide (accélération 1,6 à 2x) que DD-PPO, l’état actuel de la technique pour SyncOnRL distribué, avec une efficacité d’échantillonnage équivalente à la navigation PointGoal et à la navigation ObjectGoal dans Habitat 1.0. Par rapport à DD-PPO, Habitat 2.0 VER est 150 % plus rapide (accélération 2,5x) sur un seul GPU et 170 % plus rapide (accélération 2,7x) sur 8 GPU pour les tâches de manipulation mobile (réfrigérateur/armoire ouverte, sélection/placement d’objets) . Avec une efficacité d’échantillonnage améliorée, VER est 70 % plus rapide (accélération 1,7x) sur 8 GPU de SampleFactory, l’AsyncOnRL le plus avancé actuellement disponible.

L’équipe a profité de ces accélérateurs pour former des capacités séquentielles sur les tâches de réarrangement GeometricGoal dans le Home Assistant Benchmark (HAB). Découvrez l’incroyable apparence de la navigation dans des fonctionnalités qui ne nécessitent aucune navigation. La sélection des talents implique spécifiquement que le robot choisisse quelque chose sur une table. Le robot n’a jamais été obligé de se déplacer pendant l’entraînement car il est toujours né près de la table. Cependant, le robot apprend à explorer puis à sélectionner un objet dans un environnement inconnu avec 50% de réussite, affichant étonnamment une généralisation hors distribution, selon les chercheurs, en supposant que le mouvement de la base est intégré dans l’espace de travail. VER peut être très utile lors de la recherche d’un réarrangement. Lors de l’accès aux actions de navigation, il aide à définir l’apparence de la navigation dans les stratégies qui ne nécessitent pas de navigation. Beaucoup de progrès ont été réalisés chez Tidy House grâce à cela (+30% de réussite), mais cela montre aussi qu’il n’est peut-être pas toujours préférable d’éliminer les « actions inutiles ».

This Article is written as a research summary article by Marktechpost Staff based on the research paper 'VER: Scaling On-Policy RL Leads to the Emergence of Navigation in Embodied Rearrangement'. All Credit For This Research Goes To Researchers on This Project. Check out the paper, github link and project.

Please Don't Forget To Join Our ML Subreddit