Connect with us

Tech

Le modèle VLOGGER AI de Google peut créer des avatars vidéo à partir de photos – qu'est-ce qui pourrait mal se passer ?

Published

on

google-2024-vlogger-spalsh-image.png

VLOGGER peut prendre une seule photo d'une personne et créer des clips haute résolution de différentes longueurs, avec des expressions faciales et des mouvements corporels précis en un clin d'œil, allant au-delà des types précédents de logiciels de « tête parlante ».

Google

La communauté de l’intelligence artificielle (IA) est devenue si douée dans la production de faux gifs – jetez un œil à Sora d’OpenAI, introduit le mois dernier, avec ses fantastiques envolées de fantaisie – qu’il faut se poser une question intellectuelle et pratique : quoi ? Que devons-nous faire de toutes ces vidéos ?

aussi: OpenAI dévoile son modèle de conversion texte-vidéo, et les résultats sont étonnants.

Contrôlez-les avec notre outil VLOGGER, ont répondu cette semaine le chercheur de Google Enrique Corona et ses collègues. VLOGGER peut créer une vidéo HD de personnes parlant sur la base d'une seule image. Plus important encore, VLOGGER peut animer une vidéo sur la base d’un échantillon de parole, ce qui signifie que la technologie peut animer des vidéos comme une ressemblance contrôlée d’une personne – un « avatar » haute résolution.

Cet outil peut permettre toutes sortes de créativité. À un niveau plus simple, l’équipe Corona suggère que VLOGGER pourrait avoir un impact important sur les avatars du service d’assistance, car des humains parlant artificiellement plus réalistes peuvent « cultiver l’empathie ». Ils soulignent que la technologie pourrait « permettre des cas d’utilisation entièrement nouveaux, tels qu’une communication en ligne améliorée, l’éducation ou les assistants virtuels personnels ».

VLOGGER pourrait également ouvrir de nouvelles frontières en matière de deepfakes, de ressemblances réalistes qui disent et font des choses que la personne réelle ne ferait jamais. L'équipe Corona a l'intention de prendre en compte les impacts sociétaux de VLOGGER dans le matériel complémentaire supplémentaire. Cependant, ce matériel n'est pas disponible Sur la page GitHub du projet. ZDNET a contacté Corona pour lui demander des informations sur les documents justificatifs, mais n'a pas reçu de réponse au moment de la publication.

aussi: À mesure que les agents d’IA prolifèrent, les risques augmentent également, selon les scientifiques

Comme décrit dans le livre blanc « VLOGGER : Multimodal Diffusion for Embodied Avatar Synthesis », l’équipe Corona vise à aller au-delà des inexactitudes des avatars de pointe. « Créer des vidéos réalistes d'humains est encore complexe et truffé d'artefacts », a écrit l'équipe Corona.

L’équipe a remarqué que les avatars de la vidéo coupaient souvent le corps et les mains, ne montrant que le visage. VLOGGER peut montrer des torses complets avec des mouvements de main. D'autres outils ont généralement des variations limitées entre les expressions faciales ou les poses, ne fournissant qu'une synchronisation labiale rudimentaire. VLOGGER peut créer « une vidéo haute résolution des mouvements de la tête et du haut du corps » […] Il présente des expressions faciales et des gestes très divers » et constitue « le premier moyen de générer des humains parlants et animés à partir d’une entrée vocale ».

Comme l’explique l’équipe de recherche : « C’est spécifiquement l’automatisation et le réalisme comportemental qui [are] Ce que nous visons dans ce travail : VLOGGER est une interface multimodale pour un agent conversationnel incarné, équipée d'une représentation audio et visuelle animée, présentant des expressions faciales complexes et un niveau accru de mouvements corporels, et est conçue pour prendre en charge des conversations naturelles avec l'humain. utilisateur. »

exemple-google-2024-vlogger

Sur la base d'une seule image, à gauche, VLOGGER prédit quelles images vidéo, à droite, doivent accompagner chaque instant d'un fichier audio d'une personne parlant, en utilisant un processus appelé « diffusion », puis crée ces images vidéo à haute résolution. -qualité de définition.

Google

VLOGGER rassemble quelques tendances récentes en matière d'apprentissage profond.

Le multimédia rassemble les nombreux modes que les outils d’IA peuvent ingérer et synthétiser, notamment le texte, l’audio, les images et la vidéo.

Les grands modèles de langage, tels que GPT-4 d'OpenAI, permettent d'utiliser le langage naturel comme entrée pour guider des actions de toutes sortes, qu'il s'agisse de créer des paragraphes de texte, une chanson ou une image.

Les chercheurs ont également découvert de nombreuses façons de créer des images et des vidéos réalistes ces dernières années en améliorant la « diffusion ». Ce terme vient de la physique moléculaire et fait référence à la façon dont, à mesure que la température augmente, les molécules d'une substance passent d'une forte concentration dans une zone à une plus grande dispersion. Par analogie, les bits d’information numérique peuvent être considérés comme « étalés » à mesure qu’ils deviennent incohérents avec le bruit numérique.

aussi: En passant par Gemini, vous constaterez que l'IA open source a ses propres astuces vidéo

L'IA de déploiement introduit du bruit dans l'image et reconstruit l'image originale pour entraîner le réseau neuronal à trouver les règles selon lesquelles elle a été générée. La diffusion est à la base de la création de superbes images dans Stable Diffusion de Stability AI et DALL-E d'OpenAI. C'est aussi ainsi qu'OpenAI crée de superbes vidéos dans Sora.

Pour VLOGGER, l'équipe Corona a formé un réseau neuronal pour associer la voix d'un locuteur aux images vidéo individuelles de ce locuteur. L'équipe a combiné un processus de déploiement pour reconstruire une image vidéo à partir de l'audio en utilisant une autre innovation récente, le transformateur.

Le convertisseur utilise une méthode d'attention pour prédire les images vidéo en fonction des images survenues dans le passé, en conjonction avec l'audio. En prédisant les actions, le réseau neuronal apprend à restituer avec précision les mouvements des mains et du corps ainsi que les expressions faciales, image par image, en synchronisation avec le son.

La dernière étape consiste à utiliser les prédictions de ce premier réseau neuronal pour alimenter ultérieurement la génération d'images vidéo haute résolution à l'aide d'un deuxième réseau neuronal qui utilise également la diffusion. Cette deuxième étape représente également une note élevée dans les données.

aussi: L’IA générative échoue face à cette capacité bien trop courante de la pensée humaine

Pour créer des images haute résolution, l’équipe Corona a compilé MENTOR, un ensemble de données de 800 000 « identités » à partir de vidéos de personnes parlant. MENTOR comprend 2 200 heures de vidéo, qui, selon l'équipe, constituent « le plus grand ensemble de données utilisé à ce jour en termes d'identités et de longueur » et est dix fois plus volumineux que les ensembles de données similaires précédents.

Les auteurs ont découvert qu’ils pouvaient améliorer ce processus grâce à une étape de suivi appelée « réglage fin ». En envoyant une vidéo complète à VLOGGER, après avoir été « pré-entraînés » sur MENTOR, ils peuvent capturer de manière plus réaliste les particularités du mouvement de la tête d'une personne, comme le clignement des yeux : « En affinant notre modèle de diffusion en utilisant plus de données, en un seul clic. vidéo. » Pour un sujet, VLOGGER peut apprendre à mieux capturer l’identité, par exemple lorsqu’une image de référence montre les yeux fermés, un processus que l’équipe appelle « personnalisation ».

architecture-google-2024-vlogger

Le réseau neuronal de VLOGGER est une combinaison de deux réseaux neuronaux différents. La première utilise « l'attention masquée » via un transducteur pour prédire ce qui devrait se produire dans une image vidéo en fonction du son provenant du signal audio enregistré par l'amplificateur. Le deuxième réseau neuronal utilise la diffusion pour créer une séquence statique d'images vidéo à l'aide d'indices de mouvement corporel et d'expression provenant du premier réseau neuronal.

Google

Le point le plus important de cette approche – connecter les prédictions dans un seul réseau neuronal à des images haute résolution, et ce qui rend VLOGGER passionnant – est que le logiciel ne se contente pas de créer une vidéo, comme le fait Sora. VLOGGER associe cette vidéo à des actions et expressions contrôlables. Les vidéos réalistes peuvent être manipulées au fur et à mesure de leur apparition, comme des marionnettes.

aussi: Le PDG de Nvidia, Jensen Huang, dévoile la famille de chipsets « Blackwell » de nouvelle génération au GTC

« Notre objectif est de combler le fossé entre les efforts récents de synthèse vidéo, qui peuvent créer des vidéos dynamiques sans contrôler l'identité ou la pose, et les méthodes de génération d'images contrôlables », a écrit l'équipe Corona.

Un VLOGGER peut non seulement être un avatar à commande vocale, mais peut également remplir des fonctions d'édition, telles que changer la bouche ou les yeux de la personne qui parle. Par exemple, la personne par défaut qui cligne beaucoup des yeux dans une vidéo peut être modifiée pour cligner peu ou pas du tout. La méthode pour parler avec une bouche large peut être réduite à un mouvement plus distinct des lèvres.

google-2024-vlogger-edited-videos.png

Ayant réussi à contrôler la vidéo haute définition via des signaux audio, VLOGGER ouvre la voie à des manipulations, telles que la modification des mouvements des lèvres du locuteur dans chaque segment de la vidéo pour qu'ils soient différents de la vidéo source originale.

Blogueur vidéo

Maintenant que nous avons atteint un nouveau niveau de progrès dans la simulation humaine, la question que l’équipe Corona n’a pas abordée est de savoir ce que le monde devrait attendre de toute utilisation abusive de la technologie. Il est facile d’imaginer des personnalités politiques dire quelque chose de complètement catastrophique à propos d’une guerre nucléaire imminente, par exemple.

Vraisemblablement, la prochaine étape de ce jeu d'avatar sera celle des réseaux de neurones, tels que 'Test de Voight-Kampf« Dans le film Blade Runner, cela peut aider la communauté à déterminer lesquels sont de vrais orateurs et lesquels ne sont que de faux avec une morale remarquablement dynamique.

READ  Samsung inclut des puces mémoire GDDR7 dans son catalogue de produits
Continue Reading
Click to comment

Leave a Reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Tech

Les chercheurs résument l’état actuel et les développements ultérieurs

Published

on

Les chercheurs résument l’état actuel et les développements ultérieurs

Cet article a été révisé selon Science Processus d'édition
Et Stratégies.
Éditeurs Les fonctionnalités suivantes ont été mises en avant tout en garantissant la crédibilité du contenu :

Crédit : Pixabay/CC0 Domaine public

× Fermer

Crédit : Pixabay/CC0 Domaine public

Les neurosciences sont entrées dans une nouvelle phase numérique. La combinaison de la recherche sur le cerveau et du calcul intensif dans une collaboration de recherche multidisciplinaire à grande échelle a permis une approche innovante pour déchiffrer le cerveau, en utilisant des techniques scientifiques et des ressources de données puissantes.

Ces progrès ouvrent de nouvelles possibilités pour la recherche sur le cerveau, la médecine et la technologie. Un exposé de position rédigé par plus de 100 auteurs, maintenant publié dans la revue Imagerie des neurosciencesrésume la situation actuelle et identifie les points clés pour de futurs développements dans les neurosciences numériques.

Les technologies numériques ont radicalement changé les neurosciences ces dernières années. Les défis posés par des données de plus en plus volumineuses et complexes ont été relevés grâce à des plateformes communes innovantes et de nouveaux outils pour la recherche scientifique.

Des initiatives de recherche à grande échelle en Europe et dans le monde ont façonné ces développements et permis des synergies dans les efforts scientifiques. Les exemples incluent le projet phare de l'UE sur le cerveau humain (HBP) et l'infrastructure de recherche numérique EBRAINS, qui permet aux scientifiques d'intégrer des données de différents niveaux selon les principes FAIR, et d'utiliser les modèles et les logiciels d'EBRAINS pour obtenir de nouvelles informations et travailler en collaboration sur un projet. à plus grande échelle. . Ce changement a conduit à des progrès significatifs et offre la possibilité de développer des technologies inspirées des neurosciences, de la médecine et du cerveau.

Dans ce contexte, j’ai présenté une prise de position intitulée «La prochaine décennie de recherche sur le cerveau numérique – une vision pour les neurosciences à l’intersection de la technologie et de l’informatique« Il vise avant tout à servir de feuille de route pour les neurosciences numériques pour les 10 prochaines années.

« Il est crucial que nous évaluions, anticipions et façonnons les changements qui se produisent dans les neurosciences et les domaines connexes. Le document de position identifie les points de convergence et les objectifs communs, et fournit un cadre scientifique pour les développements actuels et futurs de la recherche sur le cerveau numérique, basé sur une approche structurée.  » Processus de discussion avec la communauté de recherche dans son ensemble « , déclare le professeur Katrin Amunts, auteur principal de l'Institut de Jülich pour les neurosciences et la médecine et co-PDG d'EBRAINS.

Le document de position énumère un total de huit domaines majeurs de recherche en neurosciences numériques. Les objectifs à court, moyen et long termes sont discutés, ainsi que les nouveaux développements tels que les approches de « jumeau numérique », avec leur applicabilité, leur potentiel et leurs limites dans la science du cerveau.

Un « jumeau numérique » est un type de modèle informatique personnel du cerveau qui peut être constamment mis à jour avec des données mesurées obtenues auprès de son homologue réel, à savoir le patient. Bien qu’ils ne soient pas destinés à être une réplique exacte, la complexité croissante et le pouvoir prédictif de ces modèles mettent à portée de main de nouvelles applications cliniques et de recherche.

D'autres domaines clés décrits dans l'article comprennent les atlas numériques à haute résolution, les modèles cérébraux intégrant plusieurs échelles et modalités, l'intelligence artificielle (IA) neurodérivée et les innovations informatiques.

EBRAINS joue un rôle clé à l'interface entre la recherche sur le cerveau et l'informatique, en permettant aux scientifiques d'accéder aux supercalculateurs européens les plus puissants via le réseau informatique Fenix ​​​​et aux systèmes informatiques inspirés du cerveau BrainScaleS et SpiNNaker. que Résumé exécutif Cet article a été publié sur le site Web de l'infrastructure de recherche EBRAINS.

Plus d'information:
Catherine Amuntz et al., La prochaine décennie de recherche sur le cerveau numérique : une vision des neurosciences à l'intersection de la technologie et de l'informatique, Imagerie des neurosciences (2024). est ce que je: 10.1162/imag_a_00137

READ  L'éditeur Dunkey-Founded Bigmode a annoncé son premier jeu, Animal Well
Continue Reading

Tech

Les ventes d'iPhone en Chine diminuent avec le retour de Huawei

Published

on

Les ventes d'iPhone en Chine diminuent avec le retour de Huawei

Huawei a connu une croissance fulgurante avec près de 70 % de ses ventes de smartphones en Chine début 2024, tandis que les ventes d'Apple ont chuté de 19 % sur la même période.

Apple ressent cette année une pression sur le marché des smartphones, alors que la domination de l'iPhone en Chine a diminué malgré une reprise du marché.

C'est ce que révèle un nouveau rapport de Counterpoint Research, qui affirme que les ventes de smartphones en Chine ont augmenté de 1,5 % au premier trimestre 2024 par rapport à la même période de l'année dernière. Il s'agit du deuxième trimestre consécutif de croissance annuelle pour la Chine, reflétant la reprise observée sur le marché mondial des smartphones.

Counterpoint estime que cette reprise se poursuivra, car il s’attend à une croissance « faible à un chiffre » pour le reste de l’année 2024. Le rapport note que l’essor de l’IA générative a déjà vu les fabricants d’équipement d’origine (OEM) chinois intégrer des fonctionnalités basées sur l’IA dans leurs produits. produits phares. Dispositifs.

Mengmeng Zhang, analyste principal chez Counterpoint, a décrit le début de 2024 comme « le trimestre le plus compétitif jamais enregistré » en Chine, avec seulement 3 % de différence de part de marché entre les six plus grands acteurs.

« Les fabricants de smartphones se livrent une concurrence féroce pendant la période des fêtes, finalisant diverses stratégies de marketing et de promotion bien à l'avance », a déclaré Zhang. « En particulier, les équipementiers chinois, avec leurs offres abondantes et rentables, profitent de la hausse des ventes dans le segment bas de gamme, car les travailleurs migrants achètent des smartphones abordables et économiques à leur retour chez eux pour les vacances. écart de part Le marché entre les principaux acteurs.

READ  L'éditeur Dunkey-Founded Bigmode a annoncé son premier jeu, Animal Well

Huawei progresse tandis qu'Apple chute

Counterpoint a déclaré que Huawei est apparu au premier trimestre 2024 comme le plus performant, avec une croissance énorme d'environ 70 % par rapport à la même période en 2023. Le rapport attribue la croissance de Huawei au lancement réussi de la série de téléphones Mate 60 équipés de la 5G. la technologie, ainsi que « la réputation de la marque ».

Cette croissance surprenante a permis à Huawei de capturer 15,5 % de la part de marché totale, derrière les 15,7 % d'Apple et les 16,1 % d'Honor. Honor a connu une croissance de 11,5 % au cours du trimestre.

Apple occupait auparavant la première place au premier trimestre 2023, mais a subi une baisse d'une année sur l'autre de plus de 19 % au premier trimestre 2024, tombant à la troisième place du marché. Vivo a connu une légère baisse au dernier trimestre, mais a réussi à prendre la première place au premier trimestre 2024 avec une part de marché de 17,4 %.

Découvrez comment les tendances technologiques émergentes de demain vous transformeront avec notre nouveau podcast, Future Human : The Series. écoute maintenant Spotifysur pomme Ou partout où vous obtenez vos podcasts.

Continue Reading

Tech

Elon Musk affirme que le « remplacement du disque » a fonctionné pour lui. Mais il manque des preuves que cette chirurgie aide à traiter la douleur chronique.

Published

on

Elon Musk affirme que le « remplacement du disque » a fonctionné pour lui.  Mais il manque des preuves que cette chirurgie aide à traiter la douleur chronique.

La semaine dernière, dans un article sur le site X, le propriétaire de la plateforme Elon Musk Recommandé Les gens ont recours au remplacement d’un disque s’ils souffrent de graves douleurs au cou ou au dos.

Selon la biographie du milliardaire, il souffre de douleurs chroniques au dos et au cou depuis qu'il a essayé…Lancer de judo« En 2013, lors d'une fête de style japonais pour son 42e anniversaire, un lutteur de sumo de 350 livres a fait exploser un disque à la base de son cou.

Dans les commentaires qui ont suivi la publication, Musk a déclaré que l’opération avait « changé la donne » et avait considérablement réduit sa douleur.

Le message original de Musk a jusqu'à présent reçu plus de 50 millions de vues et a été créé Controverse. Alors, qu’est-ce que la chirurgie de remplacement discal et que nous disent les données probantes sur ses avantages et ses inconvénients ?

En quoi consiste le remplacement d’un disque ?

Le remplacement de disque est un type de chirurgie dans lequel un ou plusieurs disques vertébraux (le coussin entre les os de la colonne vertébrale, également appelés vertèbres) sont retirés et remplacés par un disque artificiel pour conserver le mouvement entre les vertèbres. Les disques artificiels sont en métal ou… Mélanger En métal et en plastique.

Le remplacement du disque peut être effectué pour Un certain nombre de raisonsy compris une hernie discale au cou, semble-t-il à Misk.

Le remplacement du disque est Chirurgie générale. Elle nécessite une anesthésie générale et l’opération dure généralement 2 à 4 heures. La plupart des gens restent à l’hôpital pendant 2 à 7 jours. Après la chirurgie, les patients peuvent marcher mais doivent éviter les exercices intenses et la conduite automobile pendant 3 à 6 semaines. Il peut être demandé aux personnes de porter un collier cervical (après une chirurgie du cou) ou une attelle dorsale (après une chirurgie du dos) pendant environ 6 semaines.

READ  Examen des graphiques GALAX GeForce RTX 3080 HOF Extreme Edition


Lire la suite : Elon Musk affirme que la kétamine peut vous sortir d'un « état d'esprit négatif ». Que dit la recherche ?


Les coûts varient selon que vous soyez opéré dans un système de santé public ou privé, si vous disposez d'une assurance maladie privée et selon votre niveau de couverture si vous en bénéficiez. En Australie, même si vous disposez d’une assurance maladie, la chirurgie de remplacement discal peut vous laisser plus de pertes. 12 000 AUD de votre poche.

La chirurgie de remplacement discal n'est pas pratiquée aussi souvent que les autres chirurgies de la colonne vertébrale (par exemple, fusion vertébrale), mais son utilisation est croissante.

dans Nouvelle Galles du Sud Par exemple, les taux de remplacement de disque financés par le secteur privé ont été multipliés par six, passant de 6,2 par million de personnes en 2010-2011 à 38,4 par million en 2019-2020.

Quels sont les avantages et les inconvénients ?

Les personnes qui envisagent une intervention chirurgicale envisagent généralement cette option plutôt que de ne pas subir de chirurgie. Mais il y a eu très peu de recherches comparant la chirurgie de remplacement discal aux traitements non chirurgicaux.

Les essais cliniques constituent le meilleur moyen de déterminer si un traitement est efficace. Vous devez d’abord démontrer que le nouveau traitement vaut mieux que ne rien faire avant de commencer à faire des comparaisons avec d’autres traitements. Pour les interventions chirurgicales, l’étape suivante peut consister à comparer la procédure à des alternatives non chirurgicales.

Malheureusement, ces premières étapes cruciales de la recherche sur la chirurgie de remplacement discal pour les douleurs au cou et au dos ont été largement ignorées. Il existe donc une grande incertitude quant au traitement.

À notre connaissance, il n’existe aucun essai clinique permettant de vérifier si le remplacement discal est efficace contre les douleurs cervicales par rapport à rien ou par rapport aux traitements non chirurgicaux.

Pour les lombalgies, le seul essai clinique à notre connaissance comparant le remplacement discal à une alternative non chirurgicale a révélé que la chirurgie de remplacement discal était légèrement plus efficace qu'un programme de rééducation intensif après Deux ans Et Huit ans.

De nombreuses personnes souffrent de douleurs chroniques.
Jan Krukow/Pexels

Les complications ne sont pas rares et Peut inclure Luxation du disque artificiel, fracture (fracture) du disque artificiel et infection.

Dans l'essai clinique mentionné ci-dessus, 26 sur 77 patients chirurgicaux Il a eu des complications dans les deux ans suivant le suivi, dont une qui a subi une intervention chirurgicale de révision qui a endommagé une artère et a conduit à l'amputation de sa jambe. La chirurgie de révision consiste à refaire la chirurgie initiale si quelque chose doit être réparé.

Existe-t-il des alternatives efficaces ?

La première chose à considérer est de savoir si vous avez besoin ou non d’une intervention chirurgicale. je cherche Deuxième opinion Cela peut vous aider à vous sentir plus informé sur vos options.

De nombreux chirurgiens considèrent le remplacement discal comme une alternative à la fusion vertébrale, qui constitue le choix Il est souvent proposé aux patients. En fait, les preuves de recherche utilisées pour soutenir le remplacement discal proviennent principalement d'études comparatives. Remplacer le disque à Fusion vertébrale. Ces études montrent que les personnes souffrant de douleurs au cou peuvent récupérer et retourner au travail plus rapidement après un remplacement de disque qu'avec une fusion vertébrale et que les personnes souffrant de maux de dos peuvent obtenir un soulagement légèrement meilleur de la douleur avec un remplacement de disque qu'avec une fusion vertébrale.

Cependant, la fusion vertébrale n'est pas bien étayée par des preuves la comparant aux alternatives non chirurgicales et, comme le remplacement d'un disque, elle est également coûteuse et associée à des risques de préjudice importants.

Heureusement pour les patients, il existe de nouveaux traitements non chirurgicaux cou Et les preuves contre les maux de dos montrent son efficacité – et c’est beaucoup moins cher que la chirurgie. Il s'agit notamment de traitements qui s'attaquent aux facteurs physiques et psychologiques qui contribuent à la douleur d'une personne, tels que : Ergothérapie cognitive.



Lire la suite : La chirurgie ne guérira pas les maux de dos chroniques, alors que fera-t-elle ?


Bien que Musk ait vanté les bons résultats immédiats de la chirurgie de remplacement discal, compte tenu des preuves – ou de leur absence – nous recommandons la prudence lorsque l’on envisage cette chirurgie. Si l'on vous propose de choisir entre le remplacement d'un disque et la fusion vertébrale, vous voudrez peut-être envisager une troisième alternative : pas de chirurgie du tout.

Continue Reading

Trending

Copyright © 2023