Meta только что запустила свою собственную Sora перед OpenAI - Meta Movie Gen
В Meta Movie Gen есть все, что есть в Sora, включая возможность создания длинных HD-видео с различным соотношением сторон и поддержкой 1080p, 16 секунд и 16 кадров в секунду.
Он также делает то, чего нет в Sora: генерирует фоновую музыку и звуковые эффекты, редактирует видео на основе текстовых команд и создает персонализированные видео на основе изображений, загруженных пользователем.
Посмотрим, что может сделать Мета:
Камера находится позади мужчины. Мужчина без рубашки, на талии надета зеленая ткань. Он босиком. Держа в каждой руке по раскаленному предмету, он совершает широкие круговые движения. На заднем плане - спокойное море. Атмосфера танца огня завораживает.
Пушистый медвежонок коала с серо-белым мехом и круглым носом катается на желтой доске для серфинга. Коала держится за доску лапами и с сосредоточенным выражением лица катается на волнах. Светит солнце.
Красномордая обезьяна с белым мехом наслаждается купанием в природном горячем источнике. Игривая обезьянка развлекается с миниатюрным деревянным парусником с белым парусом и маленьким рулем. Горячий источник расположен среди пышной зелени, в окружении скал и деревьев.
Проще говоря, "поставить свет на пузырьки в небе" может создать красивые визуальные эффекты, и в то же время отлично показать объекты в сцене, и в то же время может красиво отразить небо, выглядя более выразительно.
Громко трещит гром, сопровождаемый оркестровой музыкой.
Согласованность характеров очень сильная.
Вы можете редактировать видео напрямую, просто набирая текст.
Создание звуковых эффектов и саундтреков Просто введите текст
Используйте видео и текстовый ввод для создания звука для вашего видео. Movie Gen позволяет создавать и расширять звуковые эффекты, фоновую музыку или целые саундтреки.
Meta утверждает, что это самая продвинутая модель Media Foundation Models на сегодняшний день".
Некоторые говорят, что трудно представить, как будут выглядеть длинные и короткие видео через несколько лет, когда большое количество создателей научится использовать инструменты для редактирования видео с искусственным интеллектом.
На этот раз, в отличие от Sora, у которой есть только демо-версия и официальный блог, Meta обнародовала архитектуру и детали обучения в 92-страничном документе.
https://arxiv.org/pdf/2410.02746
Но сама модель пока не имеет открытого исходного кода, и в ответ на это инженеры с обнявшимися лицами засунули свои лица в воздух и бросили ссылку на домашнюю страницу Meta с открытым исходным кодом прямо в раздел комментариев:
Ждем вас здесь.
В своей статье Meta особо подчеркивает, что масштабирование объема данных, размера модели и арифметики обучения имеет решающее значение для обучения крупномасштабных моделей медиагенерации. Систематически улучшая эти параметры, можно создать мощную систему генерации медиа.
Одним из наиболее тревожных моментов является то, что на этот раз они полностью отказались от диффузионной модели и диффузионной функции потерь, используя Transformer в качестве опорной сети и Flow Matching в качестве цели обучения.
В последние несколько дней в сфере создания видео с помощью искусственного интеллекта наблюдается повышенная активность.
Незадолго до того, как Meta выпустила Movie Gen, Тим Брукс, один из создателей OpenAI Sora, перешел в Google DeepMind, чтобы продолжить работу над созданием видео и симуляторов мира.
Это заставило многих задуматься, как в свое время, когда Google медлила с выпуском приложения Big Model, а авторы Transformer 8 уходили толпами.
Теперь OpenAI опаздывает с выпуском Sora, а основные авторы и вовсе разбежались.
Однако другие считают, что решение Тима Брукса уйти сейчас может свидетельствовать о том, что его основная работа в OpenAI завершена, и это стало поводом для спекуляций:
Неужели запуск Меты заставил OpenAI выпустить Сору в ответ?
(На данный момент другой создатель Соры, Билл Пиблз, еще не высказался).
Теперь Meta выпустила модели с возможностью редактирования видео, а также обновление Pika 1.5 от 1 октября, которое посвящено добавлению физических эффектов, таких как плавление, расширение и сжатие объектов в видео.
Нетрудно догадаться, что во второй половине создания видео ИИ начнет переходить к редактированию видео ИИ.