爆“卷”的AI视频，大厂向左，创企向右-河北省中小企业技术创新服务协会

协会通告

供求信息

爆“卷”的AI视频，大厂向左，创企向右

发布时间：2024/8/12 13:47:53

“生成的人物一转身就变成老外，怎么解决呢？”

“没有办法，10s中动作大的，人物一致性有问题，只能抽卡，多刷几个，选择一个变化不大的。”

在一个以Ruanway学院为主题的群中，不断有各种针对AI视频生成的问题产生，而群内有AI视频生成使用经验的，则也在积极分享自己的使用方法论，并解答相关问题。

这样的AI视频生成相关的群聊并不在少数，且每个群都相当活跃，大部分用户对AI视频生成工具都保持了相当高的兴趣，并在各种平台上分享自己基于AI视频生成工具所创造出的视频内容。

国内用户积极对AI视频生成工具探索和使用的背后，是今年2月份Sora的发布，作为行业发展风向标，彻底引爆了国内AI视频大模型生成赛道。

3月字节跳动旗下剪映Dreamina（即梦）开放内测；4月，AI企业生数科技发布号称首个国产自研视频生成大模型Vidu；6月，快手可灵AI正式开放内测。

7月，商汤推出最新AI视频模型 Vimi，阿里达摩院也发布AI视频创作平台“寻光”，爱诗科技则发布PixVerse V2，快手可灵宣布基础模型再次升级，并全面开放内测，而智谱AI也宣布AI生成视频模型清影（Ying）正式上线智谱清言。

同时，这些AI视频大模型生成工具大部分都已经向公众开放使用。7月30日，生数科技的AI视频大模型Vidu也正式面向全球公众开放使用。

历经大半年，国内大模型赛道终于进入Sora时刻。从AI跳舞、火柴人，到5秒~16秒的高质量视频生成，AI视频大模型的生成能力整体都迈入了下一个阶段。

不过，相比于至今仍未开放的Sora，中国的AI视频大模型已然开启加速模式。在技术能力不断迭代升级的同时，还在持续进行技术应用和商业化落地探索。

事实上，相比于ChatGPT等聊天机器人，AI视频生成大模型作为一个具有工具属性的产品，天然就具备商业化变现能力，现阶段开放给公众使用的AI视频生成工具也皆采用付费模式。

如智谱清影上线的定价策略是：首发测试期间，所有用户均可免费使用；付费5元，解锁一天（24小时）的高速通道权益，付费199元，解锁一年的付费高速通道权益。

不过，当前AI视频生成赛道的商业化仍处于非常早期阶段。

“说实话，我们也不知道未来商业策略会是什么样，或什么形式最好，目前所谓的收费策略更多是一种早期尝试，试试看市场和用户反馈，后面会及时调整。”智谱AI CEO张鹏如此说道。

AIGC智能创意平台筷子科技创始人兼CEO陈万锋也表示：“目前C端用户基于AI视频大模型平台开发出的视频应用指向型不强，这些平台也并不知道C端用户将会如何使用这些视频。”

从技术的迭代更新，到探寻技术的应用和商业化变现，国内AI视频生成赛道玩家们无疑是在加足马力狂奔。但从当前行业现状来说，却也仍存在诸多挑战。

01AI视频军备竞赛，都在“卷”什么
用AI生成视频，并不是新物种，只不过此前AI视频生成的时长一直卡在2s-4s，且整体视频生成效果体验并不足够令人惊艳。

Sora一发布，则直接展示了其生成的1分钟视频，且其视频所展示的画面效果惊人，就算在视频动态运动情况下，随着空间的移动和旋转，视频中出现的人物和物体也会保持场景一致性移动。

Sora展示的视频内容

这可以说震惊了整个AI届。Sora背后的技术架构，也被业界所了解并跟进。

此前AI视频生成的技术路线主要有2大类：

一类是Diffusion Model（扩散模型技术路线），主要玩家包括Runway、Pika Labs等。

一类是基于Transformer架构的大语言模型生成视频技术路线。

去年12月底，谷歌发布了基于大语言模型的生成式AI视频模型VideoPoet，这在当时被视为生成视频领域中，扩散模型之外的另外一种解法和出路。

Diffusion Model将一张图片通过引入噪声使其变成原始马赛克，在通过引入“神经网络”，如基于卷积神经网络（CNN）的UNet结构，从某个时间点的画面，减去预测的噪音，得到的就是最原始没有噪音的画面，也就是最终生成的画面。

大语言模型则是通过视频数据来对大模型进行训练，使其能够理解视频数据中的基本Token词汇以及所对应的视频画面。当用户给予指令词之后，其就能够根据学习到的Token词汇生成对应的视频内容。

两种技术路线都存在各自的优劣势，单一模型所生成的视频在时长和画面效果上，都难以实现根本性突破。Sora则选择了将扩散模型和Transformer模型结合的技术架构体系-DiT（Diffusion ＋ Transformer ）架构。

有业内观点认为，Sor