Connect with us

Tech

Le modèle VLOGGER AI de Google peut créer des avatars vidéo à partir de photos – qu'est-ce qui pourrait mal se passer ?

Published

on

google-2024-vlogger-spalsh-image.png

VLOGGER peut prendre une seule photo d'une personne et créer des clips haute résolution de différentes longueurs, avec des expressions faciales et des mouvements corporels précis en un clin d'œil, allant au-delà des types précédents de logiciels de « tête parlante ».

Google

La communauté de l’intelligence artificielle (IA) est devenue si douée dans la production de faux gifs – jetez un œil à Sora d’OpenAI, introduit le mois dernier, avec ses fantastiques envolées de fantaisie – qu’il faut se poser une question intellectuelle et pratique : quoi ? Que devons-nous faire de toutes ces vidéos ?

aussi: OpenAI dévoile son modèle de conversion texte-vidéo, et les résultats sont étonnants.

Contrôlez-les avec notre outil VLOGGER, ont répondu cette semaine le chercheur de Google Enrique Corona et ses collègues. VLOGGER peut créer une vidéo HD de personnes parlant sur la base d'une seule image. Plus important encore, VLOGGER peut animer une vidéo sur la base d’un échantillon de parole, ce qui signifie que la technologie peut animer des vidéos comme une ressemblance contrôlée d’une personne – un « avatar » haute résolution.

Cet outil peut permettre toutes sortes de créativité. À un niveau plus simple, l’équipe Corona suggère que VLOGGER pourrait avoir un impact important sur les avatars du service d’assistance, car des humains parlant artificiellement plus réalistes peuvent « cultiver l’empathie ». Ils soulignent que la technologie pourrait « permettre des cas d’utilisation entièrement nouveaux, tels qu’une communication en ligne améliorée, l’éducation ou les assistants virtuels personnels ».

VLOGGER pourrait également ouvrir de nouvelles frontières en matière de deepfakes, de ressemblances réalistes qui disent et font des choses que la personne réelle ne ferait jamais. L'équipe Corona a l'intention de prendre en compte les impacts sociétaux de VLOGGER dans le matériel complémentaire supplémentaire. Cependant, ce matériel n'est pas disponible Sur la page GitHub du projet. ZDNET a contacté Corona pour lui demander des informations sur les documents justificatifs, mais n'a pas reçu de réponse au moment de la publication.

aussi: À mesure que les agents d’IA prolifèrent, les risques augmentent également, selon les scientifiques

Comme décrit dans le livre blanc « VLOGGER : Multimodal Diffusion for Embodied Avatar Synthesis », l’équipe Corona vise à aller au-delà des inexactitudes des avatars de pointe. « Créer des vidéos réalistes d'humains est encore complexe et truffé d'artefacts », a écrit l'équipe Corona.

L’équipe a remarqué que les avatars de la vidéo coupaient souvent le corps et les mains, ne montrant que le visage. VLOGGER peut montrer des torses complets avec des mouvements de main. D'autres outils ont généralement des variations limitées entre les expressions faciales ou les poses, ne fournissant qu'une synchronisation labiale rudimentaire. VLOGGER peut créer « une vidéo haute résolution des mouvements de la tête et du haut du corps » […] Il présente des expressions faciales et des gestes très divers » et constitue « le premier moyen de générer des humains parlants et animés à partir d’une entrée vocale ».

Comme l’explique l’équipe de recherche : « C’est spécifiquement l’automatisation et le réalisme comportemental qui [are] Ce que nous visons dans ce travail : VLOGGER est une interface multimodale pour un agent conversationnel incarné, équipée d'une représentation audio et visuelle animée, présentant des expressions faciales complexes et un niveau accru de mouvements corporels, et est conçue pour prendre en charge des conversations naturelles avec l'humain. utilisateur. »

exemple-google-2024-vlogger

Sur la base d'une seule image, à gauche, VLOGGER prédit quelles images vidéo, à droite, doivent accompagner chaque instant d'un fichier audio d'une personne parlant, en utilisant un processus appelé « diffusion », puis crée ces images vidéo à haute résolution. -qualité de définition.

Google

VLOGGER rassemble quelques tendances récentes en matière d'apprentissage profond.

Le multimédia rassemble les nombreux modes que les outils d’IA peuvent ingérer et synthétiser, notamment le texte, l’audio, les images et la vidéo.

Les grands modèles de langage, tels que GPT-4 d'OpenAI, permettent d'utiliser le langage naturel comme entrée pour guider des actions de toutes sortes, qu'il s'agisse de créer des paragraphes de texte, une chanson ou une image.

Les chercheurs ont également découvert de nombreuses façons de créer des images et des vidéos réalistes ces dernières années en améliorant la « diffusion ». Ce terme vient de la physique moléculaire et fait référence à la façon dont, à mesure que la température augmente, les molécules d'une substance passent d'une forte concentration dans une zone à une plus grande dispersion. Par analogie, les bits d’information numérique peuvent être considérés comme « étalés » à mesure qu’ils deviennent incohérents avec le bruit numérique.

aussi: En passant par Gemini, vous constaterez que l'IA open source a ses propres astuces vidéo

L'IA de déploiement introduit du bruit dans l'image et reconstruit l'image originale pour entraîner le réseau neuronal à trouver les règles selon lesquelles elle a été générée. La diffusion est à la base de la création de superbes images dans Stable Diffusion de Stability AI et DALL-E d'OpenAI. C'est aussi ainsi qu'OpenAI crée de superbes vidéos dans Sora.

Pour VLOGGER, l'équipe Corona a formé un réseau neuronal pour associer la voix d'un locuteur aux images vidéo individuelles de ce locuteur. L'équipe a combiné un processus de déploiement pour reconstruire une image vidéo à partir de l'audio en utilisant une autre innovation récente, le transformateur.

Le convertisseur utilise une méthode d'attention pour prédire les images vidéo en fonction des images survenues dans le passé, en conjonction avec l'audio. En prédisant les actions, le réseau neuronal apprend à restituer avec précision les mouvements des mains et du corps ainsi que les expressions faciales, image par image, en synchronisation avec le son.

La dernière étape consiste à utiliser les prédictions de ce premier réseau neuronal pour alimenter ultérieurement la génération d'images vidéo haute résolution à l'aide d'un deuxième réseau neuronal qui utilise également la diffusion. Cette deuxième étape représente également une note élevée dans les données.

aussi: L’IA générative échoue face à cette capacité bien trop courante de la pensée humaine

Pour créer des images haute résolution, l’équipe Corona a compilé MENTOR, un ensemble de données de 800 000 « identités » à partir de vidéos de personnes parlant. MENTOR comprend 2 200 heures de vidéo, qui, selon l'équipe, constituent « le plus grand ensemble de données utilisé à ce jour en termes d'identités et de longueur » et est dix fois plus volumineux que les ensembles de données similaires précédents.

Les auteurs ont découvert qu’ils pouvaient améliorer ce processus grâce à une étape de suivi appelée « réglage fin ». En envoyant une vidéo complète à VLOGGER, après avoir été « pré-entraînés » sur MENTOR, ils peuvent capturer de manière plus réaliste les particularités du mouvement de la tête d'une personne, comme le clignement des yeux : « En affinant notre modèle de diffusion en utilisant plus de données, en un seul clic. vidéo. » Pour un sujet, VLOGGER peut apprendre à mieux capturer l’identité, par exemple lorsqu’une image de référence montre les yeux fermés, un processus que l’équipe appelle « personnalisation ».

architecture-google-2024-vlogger

Le réseau neuronal de VLOGGER est une combinaison de deux réseaux neuronaux différents. La première utilise « l'attention masquée » via un transducteur pour prédire ce qui devrait se produire dans une image vidéo en fonction du son provenant du signal audio enregistré par l'amplificateur. Le deuxième réseau neuronal utilise la diffusion pour créer une séquence statique d'images vidéo à l'aide d'indices de mouvement corporel et d'expression provenant du premier réseau neuronal.

Google

Le point le plus important de cette approche – connecter les prédictions dans un seul réseau neuronal à des images haute résolution, et ce qui rend VLOGGER passionnant – est que le logiciel ne se contente pas de créer une vidéo, comme le fait Sora. VLOGGER associe cette vidéo à des actions et expressions contrôlables. Les vidéos réalistes peuvent être manipulées au fur et à mesure de leur apparition, comme des marionnettes.

aussi: Le PDG de Nvidia, Jensen Huang, dévoile la famille de chipsets « Blackwell » de nouvelle génération au GTC

« Notre objectif est de combler le fossé entre les efforts récents de synthèse vidéo, qui peuvent créer des vidéos dynamiques sans contrôler l'identité ou la pose, et les méthodes de génération d'images contrôlables », a écrit l'équipe Corona.

Un VLOGGER peut non seulement être un avatar à commande vocale, mais peut également remplir des fonctions d'édition, telles que changer la bouche ou les yeux de la personne qui parle. Par exemple, la personne par défaut qui cligne beaucoup des yeux dans une vidéo peut être modifiée pour cligner peu ou pas du tout. La méthode pour parler avec une bouche large peut être réduite à un mouvement plus distinct des lèvres.

google-2024-vlogger-edited-videos.png

Ayant réussi à contrôler la vidéo haute définition via des signaux audio, VLOGGER ouvre la voie à des manipulations, telles que la modification des mouvements des lèvres du locuteur dans chaque segment de la vidéo pour qu'ils soient différents de la vidéo source originale.

Blogueur vidéo

Maintenant que nous avons atteint un nouveau niveau de progrès dans la simulation humaine, la question que l’équipe Corona n’a pas abordée est de savoir ce que le monde devrait attendre de toute utilisation abusive de la technologie. Il est facile d’imaginer des personnalités politiques dire quelque chose de complètement catastrophique à propos d’une guerre nucléaire imminente, par exemple.

Vraisemblablement, la prochaine étape de ce jeu d'avatar sera celle des réseaux de neurones, tels que 'Test de Voight-Kampf« Dans le film Blade Runner, cela peut aider la communauté à déterminer lesquels sont de vrais orateurs et lesquels ne sont que de faux avec une morale remarquablement dynamique.

READ  Utilisateurs d'iPhone, cette serrure intelligente est littéralement faite pour vous
Continue Reading
Click to comment

Leave a Reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Tech

De nouvelles recherches suggèrent que divers couvre-chefs chez les mammifères à sabots ont évolué à partir d’un ancêtre commun

Published

on

De nouvelles recherches suggèrent que divers couvre-chefs chez les mammifères à sabots ont évolué à partir d’un ancêtre commun

Cet article a été révisé selon Science Processus d’édition
Et Stratégies.
Éditeurs Les fonctionnalités suivantes ont été mises en avant tout en garantissant la crédibilité du contenu :

Vérification des faits

Publication évaluée par des pairs

source fiable

Relecture


Une variété de coiffes de mammifères sont exposées au Centre Richard Gilder pour la science, l’éducation et l’innovation du musée dans le cadre de la collection principale Louis V. Gerstner Jr.. Crédit : Alvaro Keding/AMNH

× Fermer


Une variété de coiffes de mammifères sont exposées au Centre Richard Gilder pour la science, l’éducation et l’innovation du musée dans le cadre de la collection principale Louis V. Gerstner Jr.. Crédit : Alvaro Keding/AMNH

Des petits os d’une girafe aux cornes massives d’un élan mâle – qui peuvent devenir aussi larges qu’une voiture – les coiffures des mammifères ruminants ongulés sont extrêmement diverses, et de nouvelles recherches suggèrent qu’en dépit des différences physiques, les aspects fondamentaux de ces mammifères osseux sont extrêmement divers. sont probablement des adaptations. Il peut avoir évolué à partir d’un ancêtre commun.

Ce résultat est publié Aujourd’hui dans le magazine Biologie de la communication Par des chercheurs du Musée américain d’histoire naturelle, du Baruch College et du Graduate Center de la City University of New York.

« Les bois et les bois sont des structures incroyablement diverses, et les scientifiques débattent depuis longtemps de leurs origines évolutives », a déclaré Zachary Calamari, professeur adjoint au Baruch College et au Graduate Center de la City University de New York et associé de recherche au musée. « Cette recherche génomique nous rapproche non seulement de la résolution du puzzle évolutif, mais nous aide également à mieux comprendre comment les os se forment chez tous les mammifères. »

Il existe environ 170 espèces de mammifères ruminants modernes à sabots, et bien d’autres encore dans les archives fossiles. Les coiffures que nous voyons aujourd’hui se déclinent en quatre types : cornes, bois, cornes osseuses et pronghorns – et sont utilisées de diverses manières, notamment pour la défense, la reconnaissance des autres membres de l’espèce et l’accouplement. Jusqu’à récemment, les scientifiques ne savaient pas si les différentes coiffes osseuses évoluaient indépendamment chez chaque groupe de ruminants ou si elles provenaient d’un ancêtre commun.

En tant que doctorat en biologie comparée. Calamari, étudiant à la Richard Gilder Graduate School du musée, a entrepris d’étudier cette question à l’aide d’une analyse informatique du profil génomique 3D. En collaboration avec John Flynn, conservateur Frick des mammifères fossiles du musée, Calamari s’est concentré sur le séquençage des transcriptomes, qui sont des gènes exprimés dans les tissus à un moment précis, pour les coiffures.

Leurs recherches soutiennent l’idée selon laquelle toutes les formes de couvre-chefs de ruminants ont évolué à partir d’un ancêtre commun en tant qu’excroissance osseuse du « front » des animaux, la zone proche des os frontaux du crâne.

« Nos résultats fournissent une preuve supplémentaire que les cornes sont formées à partir de la crête neurale crânienne, une couche de cellules embryonnaires qui forment le visage, plutôt qu’à partir de cellules qui forment les os sur les côtés et à l’arrière de la tête », a déclaré Flynn. « Il est frappant de constater que ce sont les mêmes cellules qui forment les cornes. Les modèles distincts d’expression génétique dans les cornes de bovins et de cerfs, comparés à d’autres contrôles dans les tissus osseux et cutanés, fournissent une preuve irréfutable d’une origine commune pour les aspects fondamentaux de ces cellules.  » « Des squelettes étonnants chez un ancien ancêtre. »


L’auteur de l’étude, Zachary Calamari, scanne un crâne d’élan au Musée américain d’histoire naturelle. Crédit : Matt Shanley/AMNH

× Fermer


L’auteur de l’étude, Zachary Calamari, scanne un crâne d’élan au Musée américain d’histoire naturelle. Crédit : Matt Shanley/AMNH

En comparant les transcriptions de bois de bovin nouvellement séquencées avec celles de bois de cerf et de peau de porc, Calamari et Flynn ont confirmé pour la première fois à l’aide de la transcriptomique que les différences de couvre-chef spécifiques à la famille ont probablement évolué en tant que détails d’une structure osseuse générale héritée d’un ancêtre commun.

« En plus des modèles d’expression génique qui soutiennent une origine unique pour les cornes et les cornes, nos résultats montrent également que la régulation des modèles d’expression génique dans ces structures peut différer de celle d’autres os », a déclaré Calamari.

« Ces résultats nous aident à comprendre l’histoire évolutive des bois et des bois et pourraient indiquer que les différences dans les autres appendices crâniens des ruminants, tels que les os et l’antilope d’Amérique, sont également des détails sur l’appendice crânien ancestral commun. »

Plus d’information:
Zachary T. Calamari et al., L’expression génique soutient une origine unique pour les cornes et les cornes chez les mammifères à sabots, Biologie de la communication (2024). est ce que je: 10.1038/s42003-024-06134-4

Informations sur les magazines :
Biologie de la communication


READ  L'Ariel Atom suralimenté atteint 151 mph sur l'autoroute
Continue Reading

Tech

Ghost of Tsushima dépasse God of War pour devenir le plus grand lancement de jeu solo PlayStation sur Steam

Published

on

Ghost of Tsushima dépasse God of War pour devenir le plus grand lancement de jeu solo PlayStation sur Steam

La sortie PC de Ghost of Tsushima a été un énorme succès après être devenue la plus grande sortie de jeu PlayStation sur Steam.

Selon les chiffres officiels fournis par Valve, Ghost of Tsushima a atteint un nombre maximal de joueurs simultanés de 77 154 le dimanche 19 mai. Le sommet historique de God of War a atteint 73 529, ce qui a été atteint lorsque l’action-aventure de Sony Santa Monica est sortie sur Steam il y a deux ans.

Bien sûr, le titre coopératif d’Arrowhead, Helldivers 2, reste le plus gros jeu de Sony jamais créé sur PC, et c’est déjà le jeu PlayStation le plus vendu de tous les temps après avoir déplacé 12 millions d’exemplaires sur PS5 et Steam en seulement 12 semaines, mais Sony en est sûr. de celui-ci. Nous sommes ravis de lancer le jeu solo Ghost of Tsushima sur PC, lancé pour la première fois sur PlayStation 4 en juillet 2020.

Le succès de Ghost of Tsuhim sur PC intervient malgré la politique de Sony exigeant un compte PlayStation Network pour le multijoueur en ligne et la PlayStation Overlay. Cela signifie que Ghost of Tsushima sur PC n’est pas vendu dans les pays où le PlayStation Network n’est pas disponible.

Les dirigeants de Sony ont indiqué que le PC est la clé du succès et de la croissance continue de l’activité PlayStation. Sony a acheté le spécialiste des ports PC Nixxes Software en 2021, et c’est Nixxes qui a géré le port PC bien accueilli de Ghost of Tsushima. dans tweeter, Sucker Punch, développeur de Ghost of Tsushima, remercie Nixxes pour son « travail exceptionnel » sur le port. « Votre expertise technique a été inestimable pour faire de notre première version PC une réalité », a poursuivi le studio. « Nous n’aurions pas pu rêver d’un meilleur partenaire. »

READ  Utilisateurs d'iPhone, cette serrure intelligente est littéralement faite pour vous

Bien sûr, étant donné le succès de Ghost of Tsushima, God of War et Spider-Man sur PC, beaucoup se demandent quelles exclusivités PlayStation de haut niveau bénéficieront ensuite du traitement de portage. Selon un rapport récent, God of War : Ragnarok est le prochain jeu exclusif PlayStation à sortir sur PC. Les fans de Bloodborne continuent de vivre dans l’espoir.

Wesley est le rédacteur en chef des informations d’IGN au Royaume-Uni. Vous pouvez le trouver sur Twitter à @wyp100. Vous pouvez contacter Wesley à [email protected] ou confidentiellement à [email protected].

Continue Reading

Tech

Les premières ventes EOFY de Lenovo représentent jusqu’à 57 % de réduction sur les nouveaux ordinateurs portables ThinkPad

Published

on

Les premières ventes EOFY de Lenovo représentent jusqu’à 57 % de réduction sur les nouveaux ordinateurs portables ThinkPad

La période des impôts approche et Lenovo Australie aide votre entreprise à éviter la ruée avec les premières offres EOFY qui peuvent vous offrir une vaste gamme de nouveaux appareils. Il ne s’agit pas seulement de petites réductions ou d’anciens appareils : utilisez un code EOFY24 Vous pouvez enregistrer un ThinkPad Obtenez jusqu’à 57 % de réduction ou économisez jusqu’à 55 % sur un Groupe de réflexion Tout en un ou un mini PC.

Lenovo est connu pour sa famille ThinkPad axée sur les entreprises, qui comprend des fonctionnalités supplémentaires qui rendent la gestion de votre flux de travail plus robuste, plus sécurisée et plus pratique. La gamme ThinkPad couvre une large gamme d’ordinateurs portables, des modèles puissants mais abordables aux puissantes stations de travail mobiles, en passant par les 2-en-1 et même les incroyablement cool. ThinkPad X1 Fold 16 (Actuellement 47 % de réduction) Il dispose d’un écran flexible et pliable.

Si ce n’est pas déjà fait, n’oubliez pas de vous connecter à votre entreprise Lenovo Pro. L’adhésion est entièrement gratuite et donne accès au Lenovo Business Store (y compris un accès anticipé aux meilleures offres), des économies supplémentaires et même des conseils individuels de la part des spécialistes des petites entreprises de Lenovo.

Les appareils de productivité ne sont pas non plus les seuls ordinateurs portables à prix réduit pour EOFY – il y a des économies sur le reste Le groupe Lenovo aussiY compris puissant Machines de jeux de la Légion Et plus récent, mince Ordinateurs portables de yoga.

Cependant, pour vous assurer de ne pas manquer trop d’avantages pour votre colonne vertébrale, nous avons mis en évidence ci-dessous certaines des meilleures options.

READ  Le doubleur "Escape From Tarkov" signale un problème de triche dans le jeu

Lenovo Australie est un partenaire privilégié de TechRadar (Qu’est ce que ça veut dire?)

Continue Reading

Trending