Sora

Sora
Sora
	; Пример работы Sora
Тип	Генеративный искусственный интеллект
Автор	OpenAI
Разработчик	OpenAI
Первый выпуск	15 февраля 2024
Сайт	openai.com/sora (англ.)
	Медиафайлы на Викискладе

Sora — модель искусственного интеллекта, предназначенная для генерации Full HD-видео по короткому текстовому описанию — промпту. Разработана компанией OpenAI, ранее выпустившей такие продукты, как DALL-E и ChatGPT. Выпущена 15 февраля 2024 года и находится в стадии ограниченного тестирования^[1].

Предыстория

Первые крупные разработки в области генерации видео по текстовому описанию (text-to-video) были опубликованы в 2022 году. Тогда компаниями Meta и Google независимо друг от друга были представлены модели Make-A-Video, Phenaki и Imagen Video, позволяющие создавать короткие видеоролики по текстовому описанию и/или статичной картинке^[2]. Качество таких видео было невысоким. Так, Phenaki позволяла создавать видео с базовым разрешением 128×128 пикселей^[3], Imagen — 1280×768 и максимальной продолжительностью 5,3 секунды^[4]. В январе 2024 года Google представила модель Lumiere, позволявшую генерировать видео в разрешении 512×512 пикселей и продолжительностью также до 5 секунд^[5].

Описание

15 февраля 2024 года компания OpenAI официально представила модель Sora. Она представляет собой диффузионную модель^[англ.], также создающую видео по текстовому описанию. Процесс генерации начинается со случайного шума, который постепенно преобразуется в изображение. Так же как и GPT, Sora имеет архитектуру трансформера, однако для представления информации вместо токенов использует пространственно-временные патчи — фрагменты, содержащие информацию о частях кадров и их изменении во времени^[2].

Согласно заявлению производителя, Sora умеет генерировать видеоролики с максимальным разрешением 1920×1080 и максимальной продолжительностью 1 минута, что превосходит по качеству все предыдущие модели данного типа^[2]. В качестве демонстрации OpenAI представил несколько сгенерированных роликов, изображающих, в частности, гуляющих по заснеженному Токио людей, сидящего около свечи пушистого монстра и нескольких мамонтов, идущих через заснеженный луг^[6]. Помимо генерации видео по тексту, в качестве возможностей Sora заявлены дополнение уже существующих видеороликов и анимирование статичных изображений, изменение направления воспроизведения и склейка видеофрагментов между собой^[2].

При высоком качестве генерации контента Sora иногда может допускать ошибки. Так, производитель в числе проблем нейросети называет неточное воспроизведение физики в сложных сценах. Также отмечаются проблемы с пониманием причинно-следственных связей: например, отсутствие следов зубов на печенье после того, как его надкусил человек. Кроме того, иногда у модели возникает путаница с ориентацией в пространстве и с воспроизведением длительных событий^[2]^[7].

На данный момент Sora недоступна для широкого использования^[8]. С 15 февраля 2024 доступом к разработке могут воспользоваться тестировщики и специалисты по кибербезопасности для поиска уязвимостей, а также профессионалы в области визуального искусства^[7].

Реакция

Кейд Метц, обозреватель The New York Times, назвал опубликованные результаты работы Sora «потрясающими» и сравнил их с кадрами из голливудского фильма^[9]. Похожее мнение высказал и Wired, отметив также, что сгенерированные Sora видео всё же имеют свои недостатки^[6].

Одним из главных опасений, высказываемых в адрес Sora, является потенциальная возможность использования технологии в целях дезинформации. Особенно опасным сценарием NBC News назвал создание высококачественных фейков для предвыборной пропаганды или в условиях глобальных конфликтов. Федеральная торговая комиссия США предложила объявить незаконной генерацию контента с участием реальных людей при помощи искусственного интеллекта. По словам OpenAI, компания работает над созданием инструментов, которые будут специальным образом помечать и распознавать видео, созданные ИИ, для предотвращения недобросовестного использования разработки^[5]^[8].

Ещё одной проблемой, связанной с Sora, является возможное нарушение авторских прав в сгенерированных видео. По словам Билли Пиблса, одного из участников проекта, для обучения модели используется в том числе общедоступный контент. Ранее против OpenAI уже подавались судебные иски, при рассмотрении которых следует выяснить, является ли допустимым использование защищённого авторским правом общедоступного контента для обучения ИИ^[6].

Примечания

↑ OpenAI представила модель ИИ Sora по преобразованию текста в видео (рус.). ТАСС (16 февраля 2024). Дата обращения: 18 января 2024. Архивировано 16 февраля 2024 года.
↑ ¹ ² ³ ⁴ ⁵ Андрей Фокин. OpenAI представила нейросеть для генерации видео по текстовому описанию (рус.). N + 1 (19 февраля 2024). Дата обращения: 27 февраля 2024. Архивировано 22 февраля 2024 года.
↑ Phenaki (англ.). Google Research. Дата обращения: 27 февраля 2024. Архивировано 27 февраля 2024 года.
↑ Artificial Intelligence: Google Announces Imagen, Its Text-To-Video Tool (англ.). DailyAlts (6 октября 2022). Дата обращения: 27 февраля 2024. Архивировано 27 февраля 2024 года.
↑ ¹ ² Сергей Колесников. Sora неизбежна: каким может быть будущее видеотехнологий (рус.). Forbes (25 февраля 2024). Дата обращения: 27 февраля 2024. Архивировано 26 февраля 2024 года.
↑ ¹ ² ³ Steven Levy. OpenAI’s Sora Turns AI Prompts Into Photorealistic Videos (англ.). Wired (15 февраля 2024). Дата обращения: 27 февраля 2024. Архивировано 15 февраля 2024 года.
↑ ¹ ² Сергей Мингазов. OpenAl открыла доступ тестировщикам к генератору видео на основе текста Sora (рус.). Forbes (16 февраля 2024). Дата обращения: 27 февраля 2024. Архивировано 27 февраля 2024 года.
↑ ¹ ² Angela Yang. OpenAI teases ‘Sora,’ its new text-to-video AI model (англ.). NBC News (16 февраля 2024). Дата обращения: 27 февраля 2024. Архивировано 15 февраля 2024 года.
↑ Cade Metz. OpenAI Unveils A.I. That Instantly Generates Eye-Popping Videos (англ.). The New York Times (15 февраля 2024). Дата обращения: 3 марта 2024. Архивировано 15 февраля 2024 года.

[1] OpenAI представила модель ИИ Sora по преобразованию текста в видео (рус.). ТАСС (16 февраля 2024). Дата обращения: 18 января 2024. Архивировано 16 февраля 2024 года.

[n1-2] ¹ ² ³ ⁴ ⁵ Андрей Фокин. OpenAI представила нейросеть для генерации видео по текстовому описанию (рус.). N + 1 (19 февраля 2024). Дата обращения: 27 февраля 2024. Архивировано 22 февраля 2024 года.

[3] Phenaki (англ.). Google Research. Дата обращения: 27 февраля 2024. Архивировано 27 февраля 2024 года.

[4] Artificial Intelligence: Google Announces Imagen, Its Text-To-Video Tool (англ.). DailyAlts (6 октября 2022). Дата обращения: 27 февраля 2024. Архивировано 27 февраля 2024 года.

[frbs-5] ¹ ² Сергей Колесников. Sora неизбежна: каким может быть будущее видеотехнологий (рус.). Forbes (25 февраля 2024). Дата обращения: 27 февраля 2024. Архивировано 26 февраля 2024 года.

[wrd-6] ¹ ² ³ Steven Levy. OpenAI’s Sora Turns AI Prompts Into Photorealistic Videos (англ.). Wired (15 февраля 2024). Дата обращения: 27 февраля 2024. Архивировано 15 февраля 2024 года.

[frbs2-7] ¹ ² Сергей Мингазов. OpenAl открыла доступ тестировщикам к генератору видео на основе текста Sora (рус.). Forbes (16 февраля 2024). Дата обращения: 27 февраля 2024. Архивировано 27 февраля 2024 года.

[nbc-8] ¹ ² Angela Yang. OpenAI teases ‘Sora,’ its new text-to-video AI model (англ.). NBC News (16 февраля 2024). Дата обращения: 27 февраля 2024. Архивировано 15 февраля 2024 года.

[9] Cade Metz. OpenAI Unveils A.I. That Instantly Generates Eye-Popping Videos (англ.). The New York Times (15 февраля 2024). Дата обращения: 3 марта 2024. Архивировано 15 февраля 2024 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]