Meta vient de lancer son propre Sora avant OpenAI – Meta Movie Gen
Meta Movie Gen possède tout ce que Sora possède, y compris la possibilité de créer de longues vidéos HD avec différents rapports hauteur/largeur et la prise en charge de 1080p, 16 secondes et 16 images par seconde.
Il fait également ce que Sora ne fait pas, en générant une musique de fond et des effets sonores d'accompagnement, en éditant des vidéos basées sur des commandes de texte et en générant des vidéos personnalisées basées sur des images téléchargées par l'utilisateur.
Voyons ce que Meta peut faire :
La caméra est derrière un homme. L'homme est torse nu, porte un tissu vert autour de la taille. Il est pieds nus. Avec un objet enflammé dans chaque main, il crée de larges mouvements circulaires. Une mer calme est en arrière-plan. L'atmosphère est envoûtante, avec la danse du feu.
Un koala tout doux, au pelage gris et blanc et au nez rond, surfe sur une planche de surf jaune. Le koala tient la planche de surf avec ses pattes et a une expression faciale concentrée alors qu'il surfe sur les vagues. Le soleil brille.
Un singe à la face rouge et à la fourrure blanche profite d'un bain dans une source chaude naturelle. Ce singe espiègle s'amuse avec un voilier miniature en bois, équipé d'une voile blanche et d'un petit gouvernail. La source chaude est nichée au milieu d'une végétation luxuriante, entourée de rochers et d'arbres.
En termes simples, « mettre la lumière sur les bulles dans le ciel » peut créer de beaux effets visuels, et en même temps montrer parfaitement les objets de la scène, et en même temps peut magnifiquement refléter le ciel, en paraissant plus expressif.
Le tonnerre gronde bruyamment, accompagné d'une piste de musique orchestrale.
La cohérence des personnages est très forte.
Vous pouvez éditer des vidéos directement, simplement en tapant du texte.
Créer des effets sonores et des bandes sonores Il suffit de saisir du texte
Utilisez la saisie vidéo et texte pour générer l'audio de votre vidéo. Movie Gen vous permet de créer et d'étendre des effets sonores, une musique de fond ou des bandes sonores entières.
Meta affirme qu'il s'agit du modèle de fondation médiatique le plus avancé à ce jour.
Certains disent qu'il est difficile d'imaginer à quoi ressembleront les vidéos longues et courtes dans quelques années, car un grand nombre de créateurs apprennent à utiliser les outils d'édition vidéo IA.
Cette fois, contrairement à Sora, qui n'a qu'une démo et un blog officiel, Meta a rendu publics les détails de l'architecture et de la formation dans un document de 92 pages.
https://arxiv.org/pdf/2410.02746
Mais le modèle lui-même n'est pas encore open source, et a été accueilli par des ingénieurs aux visages ébahis, levant le visage en l'air et déposant un lien vers la page d'accueil open source de Meta directement dans la section commentaires :
Je t'attends ici maintenant.
Dans son article, Meta souligne spécifiquement que la mise à l'échelle de la taille des données, de la taille du modèle et de l'arithmétique d'entraînement est essentielle pour l'entraînement de modèles de génération de médias à grande échelle. En améliorant systématiquement ces dimensions, il est possible de créer un système de génération de médias aussi puissant.
L’un des points les plus préoccupants est que cette fois-ci, ils ont complètement abandonné le modèle de diffusion et la fonction de perte de diffusion, en utilisant Transformer comme réseau principal et Flow Matching comme cible de formation.
Le secteur de la génération de vidéos IA a connu une activité intense au cours des derniers jours.
Peu de temps avant que Meta ne publie Movie Gen, Tim Brooks, l'un des créateurs d'OpenAI Sora, a rejoint Google DeepMind pour poursuivre son travail sur la génération de vidéos et les simulateurs mondiaux.
Cela a fait réfléchir beaucoup de gens, tout comme lorsque Google a tardé à publier l'application Big Model et que les auteurs de Transformer 8 sont partis en masse.
Maintenant, OpenAI est en retard dans la publication de Sora, et les principaux auteurs se sont également enfuis.
Mais d’autres pensent que le choix de Tim Brooks de partir maintenant peut indiquer que son travail principal chez OpenAI est terminé, et a donné lieu à des spéculations :
Le lancement de Meta a-t-il forcé OpenAI à publier Sora en réponse ?
(Au moment où j'écris ces lignes, l'autre créateur de Sora, Bill Peebles, n'a pas encore exprimé son opinion.)
Meta a désormais publié des modèles avec des capacités d'édition vidéo, ainsi que la mise à jour Pika 1.5 du 1er octobre, qui se concentre sur l'ajout d'effets physiques tels que la fusion, l'expansion et la compression des objets dans les vidéos.
Il n’est pas difficile de voir que la seconde moitié de la génération de vidéos IA va commencer à évoluer vers le montage vidéo IA.