规划类政策解读  政策解读
规划类行业新闻  行业新闻
规划成果  规划成果
产业调研成果 产业调研成果
招商策划成果 招商策划成果
概念规划成果 概念规划成果
地产策划成果 地产策划成果
投融资顾问成果 投融资顾问成果
园区规划成果 园区规划成果
产业规划成果 产业规划成果
企业战略成果 企业战略成果
首页 > 走进中机院 > 中机院观点 > 中机院观点

60秒文生视频火爆出圈,有望带动算力和设备需求升级

来源:原创  时间:2024-02-20  点击:1130
2024年2月16日,OpenAI发布文生成视频模型Sora,可根据文字提示生成60秒视频,输出的视频堪比影视CG效果。OpenAI Sora文生视频一经发布就炸翻整个AI圈,也是ChatGPT掀起GenAI热潮时隔一年后,OpenAI再次史诗级更新。

2024年2月16日,OpenAI发布文生成视频模型Sora,可根据文字提示生成60秒视频,输出的视频堪比影视CG效果。OpenAI Sora文生视频一经发布就炸翻整个AI圈,也是ChatGPT掀起GenAI热潮时隔一年后,OpenAI再次史诗级更新。


1、文生视频及原理是什么?

文生视频(Text-to-Video)是基于文本通过生成式AI生成视频的模式。文生视频技术的原理是通过模型学习和理解文本提示,并根据提示生成相应的视频内容。模型的训练数据通常来自大量的图像和视频数据集,包括图像数据集(如ImageNet)和视频数据集(如Webvid)。模型通常采用深度学习技术,如卷积神经网络(CNN)和循环神经网络(RNN),来对训练数据进行学习和理解。在模型训练完成后,输入文本提示即可生成相应的视频内容。


2、文生视频训练方法是什么?

为了训练文生视频模型,需要大量的图像和视频数据集,并采用深度学习技术对数据进行学习和理解。目前,主要的文生视频模型训练方法包括自监督学习、有监督学习和无监督学习。自监督学习是指使用无标签数据进行训练,有监督学习是指使用有标签数据进行训练,而无监督学习则是指使用未标记的数据进行训练。这些方法都有其优缺点,需要根据具体应用场景进行选择。


3、文生视频经历了几个阶段?

文生视频发展经历三个阶段,自回归和扩散模型成为主流。

60秒文生视频火爆出圈,有望带动算力和设备需求升级

第一阶段,图像拼接生成阶段。

图像拼接是将多个重叠的图像对齐成一个大的组合,它代表了一个3D场景的一部分。拼接可以看作是场景重建的一种特殊情况,其中图像仅通过平面单应性进行关联。图像拼接在运动检测和跟踪、增强现实、分辨率增强、视频压缩和图像稳定等机器视觉领域有很大的应用。


第二阶段,GAN/VAE/Flow-Based生成阶段。

GAN通过生成器和判别器对抗训练提升图像生成能力。GANs(GAN,Generative Adversarial Networks)生成对抗网络是扩散模型前的主流图像生成模型,通过生成器和判别器进行对抗训练来提升模型的图像生成能力和图像鉴别能力,使得生成式网络的数据趋近真实数据,从而图像趋近真实图像。


第三阶段,自回归和扩散模型阶段。

自回归模型采用Transformer结构中的自注意力机制。自回归模型(Auto-regressive Model)采用Transformer进行自回归图像生成。Transformer整体主要分为Encoder和Decoder两大部分,能够模拟像素和高级属性(纹理、语义和比例)之间的空间关系,利用多头自注意力机制进行编码和解码。采用该架构模型的文生图通常将文本和图像分别转化成tokens序列,然后利用生成式的Transformer 架构从文本序列(和可选图像序列)中预测图像序列,最后使用图像生成技术(VAE、GAN等)对图像序列进行解码,得到最终生成图像。


扩散模型是当前主流路径,通过添加噪声和反向降噪推断生成图像。扩散模型(Diffusion Model)是通过定义一个扩散步骤的马尔可夫链,通过连续向数据添加随机噪声,直到得到一个纯高斯噪声数据,然后再学习逆扩散的过程,经过反向降噪推断来生成图像,通过系统地扰动数据中的分布,再恢复数据分布,逐步优化过程。


4、文生视频应用于哪些领域?

文生视频技术是一种新兴的人工智能技术,随着文生图技术的精进与成熟,对于文生视频的技术的发展和关注逐渐演变及增加,可以为影视、广告、短视频、游戏等领域提供创意和效率。


从影视行业来看,AI视频工具让创作者可以便捷地创建、编辑、调整内容,或将影响产业链的价值比例构成,如IP、创意的价值相对拍摄、剪辑、制作将有所提升。内容创作和剪辑工具也将迎来新变化。


从游戏行业来看,AI生成技术的成熟将增加素材的丰富度,对于有较大相关需求的游戏有积极影响。同时类比AI生图技术,AI视频技术的进步有望对各美工环节进一步提效,改进行业生产效率。

60秒文生视频火爆出圈,有望带动算力和设备需求升级

5、文生视频代表企业都有谁?

清华CogVideo:首个开源的中文文本生成视频模型,基于自回归模型


CogVideo是由清华团队2022年发布的基于预训练的CogView2(文本生成图像模型)9B-参数转换器。CogVideo是当时最大的、首个开源的文本生成视频模型,支持中文prompt,参数高达94亿。CogVideo采用的Transformer结构,和CogView的几乎一致,例如使用夹层范数(Sandwich LayerNorm)和PB-Relax来稳定训练。


阿里达摩院:通义文生视频大模型


通义-文本生成视频大模型-英文-通用领域-v1.0是由阿里达摩院提供的、发布在阿里ModelScope平台上的开源文生视频大模型,目前仍在集成中,暂未开放公测。通义-文本生成视频大模型仅支持英文输入,基于多阶段文本到视频生成扩散模型。


OpenAI:全球人工智能引领者,ChatGPT和Sora发布者


2024年2月16日,OpenAI发布文生视频模型Sora,并一次给出多达48个由Sora直接生成、未经修改的视频,最长的时长可达60秒,远高于现有主流模型的3-4秒的时长和15-16秒的极限时长,风格上涵盖写实、动画、剪纸、3D、风景、微观、细节特写等多种。目前该模型正在红队测试阶段,从而进行风险评估。


谷歌Phenaki:首个可生成长视频的自回归模型


Phenaki由Google Research开发制作,该模型是第一个能够从开放域时间变量提示中生成视频的模型,能够根据一系列开放域文本提示生成可变长度的视频。通过将视频压缩为离散的令牌的小型表示形式,词例化程序使用时间上的因果注意力,允许处理可变长度的视频。转换器以预先计算的文本令牌为条件,使用双向屏蔽转换器使得文本生成视频令牌,生成的视频令牌随后被取消标记化以创建实际视频。


Runway Gen-1 & Gen-2:商用文生视频的明星应用


Runway 是基于生成式AI的图像和视频编辑软件供应商,是目前面向C端客户商业化的公司,由Cristóbal Valenzuela,Alejandro Matamala 和Anastasis Germanidis创立于2018年,是福布斯AI50榜单最有前途的人工智能公司之一,其总部位于美国纽约。公司坚持在AIGC(人工智能生产内容)领域,细分领域从原来的图片转换到视频的编辑与生成。Runway可以支持用户进行图像处理、文本生成图像、更改视频风格、文生视频等多项服务。


6、文生视频面临难点是什么?

难点一:文生视频更困难

第一,技术实现本身更困难。从本质看,视频是连续的多帧图像,然而文生图到文生视频并非简单的图片组合,而文生视频在文生图的基础上增加了时间维度。


第二,文生视频需突破瓶颈多。可用的文生视频需具备一定的时长,优良的画面质量,一定的创意逻辑性及还原指令要求能力。


难点二:计算难度大

第一,计算成本高。由于生成视频模型复杂度提升及其时长、分辨率提高等因素,文生视频对算力需求进一步加大。


第二,计算复杂性提升。文生视频需要进行高维特征融合,模型复杂度显著提升。


难点三:数据要求高

第一, 缺乏高质量配对数据集。视频的合理性及连贯性体现模型的架构能力、创造力、理解能力。例如,当用户输入“一只大象在厨房做饭”这类文字指令时,模型需理解文字指令内容,并根据训练数据库选取画面及对象组合,过程中可能出现缺乏相应素材、难以合理组合人物、难以合理架构场景等问题。文生视频需要大量的文本-视频配对数据,但当前缺乏相应数据集,数据标注工作量极高。


第二,缺乏具备多样性的数据集。由于用户的文本指令要求各异,缺乏多样数据集使得模型无法生成预期效果。


难点四:技术融合难度大

多领域融合技术复杂性提升。文生视频涉及自然语言处理、视觉处理、画面合成等领域,跨学科多领域使其需攻克的技术难点增加。


7、文生视频发展机遇是什么?

机遇一:跨时代文生视频模型推出,将推动算力需求上升


通过文本生成高质量图片对算力要求已经达到了一定程度。与其他视觉语言模型一样,文生视频模型通常在大型文本、视频等对数据集上进行训练。因此,大量工作侧重于开发更易于训练的更好、更通用的数据集,算力需求有望将持续上升。


机遇二:应用场景将带动AI服务器更新换代


随着AI应用场景的逐步落地,图像、游戏、机器视觉等领域均迅猛发展,承担服务器芯片基座、数据传输和连接部件功能的AI服务器PCB,迎来更新换代。AI服务器PCB区别于普通服务器的首先是层数增加。AI服务器PCB价值量是普通服务器价值量的5倍至6倍,随着AI大模型和应用的落地,市场对AI服务器的需求日益增加,市场扩容在即。


机遇三:大模型推理侧数据量将快速拉动光模块需求


光模块由光电子器件、功能电路和光接口等组成,光电子器件包括发射和接收两部分。数据中心因为流量爆发带来的光模块需求仍将是光模块发展的核心驱动力。随着AIGC(人工智能生产内容)的快速发展,国内外大模型推理侧数据量的快速上升,将进一步催化光模块的大幅提升。



上一篇:乡村振兴推动农村产业融合发展的路径探索
下一篇:数字赋能农业产业全链路建设应用——以浙江省金华市浦江县葡萄产业为例
规划首页 | 业务领域 | 规划收费标准 | 资源优势及资质 | 咨询业绩 | 官网地图
Copyright 2000-2020 中机产城规划设计研究院 版权所有 北元律师事务所提供法律支持
地址:北京市丰台区总部基地汉威国际广场4区3号楼5层
全国免费咨询热线:400-666-8495
传真:010-51667252-666
备案号:京ICP备08008382号-3
扫一扫关注
中机院
园区规划
产业规划
中机院微信