Google запустила большую языковую модель VideoPoet для создания видео из текста

Новости18:26 29.12.2023

Поделитесь

29 декабря - ГЛАС. Такие компании, как OpenAI, Microsoft и Adobe, уже запустили чат-ботов с ИИ, которые основаны на определённых типах больших языковых моделей (LLM)

Речь идёт об LLM, которые превращают ввод текста в изображение. Google также участвовала в этой борьбе и теперь сделала шаг вперёд, выпустив программу LLM под названием VideoPoet, которая может превращать текст в видео.

Чтобы продемонстрировать возможности VideoPoet, компания Google Research подготовила короткий фильм, состоящий из нескольких коротких клипов, созданных этой моделью.

Например, Google объясняет, что для сценария они попросили Bard написать серию подсказок, подробно описывающих небольшой рассказ о путешествующем еноте. Затем для каждой подсказки были созданы видеоклипы, а когда модель объединила все полученные клипы, она подготовила окончательный короткометражный ролик на YouTube.

У VideoPoet существует предварительно обученный токенизатор видео MAGVIT V2 и токенизатор аудио SoundStream, которые преобразуют изображения, видео и аудиоклипы различной длины в последовательность дискретных кодов в едином словаре.

Эти коды совместимы с текстовыми языковыми моделями, что облегчает интеграцию с другими модальностями, такими как текст. LLM изучает методы прогнозирования следующего видео- или аудиотокена в последовательности.

Проще говоря, VideoPoet имеет несколько отдельно обученных компонентов для разных задач, интегрированных в один LLM.

Ранее ГЛАС сообщал: Apple разрабатывает умную колонку HomePod с изогнутым ЖК-экраном.