A Meta acaba de lançar o seu próprio Sora antes do OpenAI - Meta Movie Gen
O Meta Movie Gen tem tudo o que o Sora tem, incluindo a capacidade de criar vídeos HD longos com diferentes rácios de aspeto e suporte para 1080p, 16 segundos e 16 fotogramas por segundo.
Também faz o que Sora não faz, gerando música de fundo e efeitos sonoros de acompanhamento, editando vídeos com base em comandos de texto e gerando vídeos personalizados com base em imagens carregadas pelo utilizador.
Vamos ver o que pode meta fazer :
A câmara está atrás de um homem. O homem está sem camisa, com um pano verde à volta da cintura. Está descalço. Com um objeto de fogo em cada mão, faz movimentos circulares amplos. Um mar calmo surge em segundo plano. A atmosfera é hipnotizante, com a dança do fogo.
Um urso koala fofo com pelo cinzento e branco e um nariz redondo está a surfar numa prancha de surf amarela. O coala está a agarrar-se à prancha com as patas e tem uma expressão facial concentrada enquanto surfa nas ondas. O sol está a brilhar.
Um macaco de cara vermelha e pelo branco está a desfrutar de um banho numa fonte termal natural. O macaco brincalhão está a entreter-se com um veleiro de madeira em miniatura, com uma vela branca e um pequeno leme. A fonte termal está situada no meio de uma vegetação luxuriante, rodeada de rochas e árvores.
A simples expressão "colocar a luz nas bolhas no céu" pode criar belos efeitos visuais e, ao mesmo tempo, mostrar perfeitamente os objectos na cena e, ao mesmo tempo, refletir lindamente o céu, dando-lhe um aspeto mais expressivo.
O trovão estala alto, acompanhado por uma música orquestral.
A coerência das personagens é muito forte.
Pode editar vídeos diretamente, bastando para isso introduzir texto.
Criar efeitos sonoros e bandas sonoras Basta introduzir o texto
Utilize entradas de vídeo e texto para gerar áudio para o seu vídeo. O Movie Gen permite-lhe criar e ampliar efeitos sonoros, música de fundo ou bandas sonoras completas.
A Meta afirma que se trata dos modelos Media Foundation mais avançados até à data".
Há quem diga que é difícil imaginar como serão os vídeos longos e curtos dentro de alguns anos, à medida que um grande número de criadores aprender a utilizar as ferramentas de edição de vídeo com IA.
Desta vez, ao contrário do Sora, que apenas tem uma demonstração e um blogue oficial, a Meta tornou públicos os pormenores da arquitetura e da formação num documento de 92 páginas.
https://arxiv.org/pdf/2410.02746
Mas o modelo em si ainda não é de código aberto, e foi recebido por engenheiros com cara de abraços, com a cara no ar e a deixar um link para a página de código aberto do Meta diretamente na secção de comentários:
Aqui à vossa espera.
No seu documento, o Meta salienta especificamente que o escalonamento da dimensão dos dados, da dimensão do modelo e da aritmética de formação é fundamental para a formação de modelos de geração de média em grande escala. Ao melhorar sistematicamente estas dimensões, é possível criar um sistema de geração de media tão poderoso.
Um dos pontos mais preocupantes é o facto de, desta vez, terem deitado completamente fora o modelo de difusão e a função de perda de difusão, utilizando o Transformer como rede de base e o Flow Matching como alvo de treino.
O espaço de geração de vídeo com IA tem estado a fervilhar de atividade nos últimos dias.
Pouco antes de a Meta lançar o Movie Gen, Tim Brooks, um dos criadores do OpenAI Sora, foi para a Google DeepMind para continuar o seu trabalho na geração de vídeo e simuladores de mundo.
Isto pôs muita gente a pensar, tal como aconteceu quando a Google demorou a lançar a aplicação Big Model e os autores do Transformer 8 saíram em massa.
Agora, a OpenAI está atrasada no lançamento da Sora e os principais autores também fugiram.
Mas outros acreditam que a decisão de Tim Brooks de sair agora pode indicar que o seu trabalho principal na OpenAI está terminado, o que deu origem a especulações:
O lançamento do Meta obrigou a OpenAI a lançar o Sora em resposta?
(Até ao momento da redação deste artigo, o outro criador de Sora, Bill Peebles, ainda não se pronunciou).
Agora, a Meta lançou modelos com capacidades de edição de vídeo, além da atualização Pika 1.5 de 1 de outubro, que se concentra na adição de efeitos físicos como derreter, expandir e apertar objectos em vídeos.
Não é difícil perceber que a segunda metade da geração de vídeo com IA vai começar a avançar para a edição de vídeo com IA.