新闻资讯
|
|
视频新闻 | |
协会新闻 | |
国内新闻 | |
国际新闻 | |
协会通告 |
河北省中小企业技术创新服务协会 |
河北省中小企业技术创新服务协会 |
河北省中小企业技术创新服务协会 |
河北省中小企业技术创新服务协会 |
河北省中小企业技术创新服务协会 |
河北省中小企业技术创新服务协会 |
河北省中小企业技术创新服务协会 |
供求信息 |
建设银行:创新推进普惠金融 服务 |
河北 省级中小企业创业辅导基地开 |
具备五个条件可申报河北省中小企 |
农行河北分行助力小微企业发展 |
资金投资合作 |
无边界培训:企业人力资本新引擎 |
技术创新方法培训服务 |
科技查新咨询服务 |
“生成的人物一转身就变成老外,怎么解决呢?”
“没有办法,10s中动作大的,人物一致性有问题,只能抽卡,多刷几个,选择一个变化不大的。”
在一个以Ruanway学院为主题的群中,不断有各种针对AI视频生成的问题产生,而群内有AI视频生成使用经验的,则也在积极分享自己的使用方法论,并解答相关问题。
这样的AI视频生成相关的群聊并不在少数,且每个群都相当活跃,大部分用户对AI视频生成工具都保持了相当高的兴趣,并在各种平台上分享自己基于AI视频生成工具所创造出的视频内容。
国内用户积极对AI视频生成工具探索和使用的背后,是今年2月份Sora的发布,作为行业发展风向标,彻底引爆了国内AI视频大模型生成赛道。
3月字节跳动旗下剪映Dreamina(即梦)开放内测;4月,AI企业生数科技发布号称首个国产自研视频生成大模型Vidu;6月,快手可灵AI正式开放内测。
7月,商汤推出最新AI视频模型 Vimi,阿里达摩院也发布AI视频创作平台“寻光”,爱诗科技则发布PixVerse V2,快手可灵宣布基础模型再次升级,并全面开放内测,而智谱AI也宣布AI生成视频模型清影(Ying)正式上线智谱清言。
同时,这些AI视频大模型生成工具大部分都已经向公众开放使用。7月30日,生数科技的AI视频大模型Vidu也正式面向全球公众开放使用。
历经大半年,国内大模型赛道终于进入Sora时刻。从AI跳舞、火柴人,到5秒~16秒的高质量视频生成,AI视频大模型的生成能力整体都迈入了下一个阶段。
不过,相比于至今仍未开放的Sora,中国的AI视频大模型已然开启加速模式。在技术能力不断迭代升级的同时,还在持续进行技术应用和商业化落地探索。
事实上,相比于ChatGPT等聊天机器人,AI视频生成大模型作为一个具有工具属性的产品,天然就具备商业化变现能力,现阶段开放给公众使用的AI视频生成工具也皆采用付费模式。
如智谱清影上线的定价策略是:首发测试期间,所有用户均可免费使用;付费5元,解锁一天(24小时)的高速通道权益,付费199元,解锁一年的付费高速通道权益。
不过,当前AI视频生成赛道的商业化仍处于非常早期阶段。
“说实话,我们也不知道未来商业策略会是什么样,或什么形式最好,目前所谓的收费策略更多是一种早期尝试,试试看市场和用户反馈,后面会及时调整。”智谱AI CEO张鹏如此说道。
AIGC智能创意平台筷子科技创始人兼CEO陈万锋也表示:“目前C端用户基于AI视频大模型平台开发出的视频应用指向型不强,这些平台也并不知道C端用户将会如何使用这些视频。”
从技术的迭代更新,到探寻技术的应用和商业化变现,国内AI视频生成赛道玩家们无疑是在加足马力狂奔。但从当前行业现状来说,却也仍存在诸多挑战。
01AI视频军备竞赛,都在“卷”什么
用AI生成视频,并不是新物种,只不过此前AI视频生成的时长一直卡在2s-4s,且整体视频生成效果体验并不足够令人惊艳。
Sora一发布,则直接展示了其生成的1分钟视频,且其视频所展示的画面效果惊人,就算在视频动态运动情况下,随着空间的移动和旋转,视频中出现的人物和物体也会保持场景一致性移动。
Sora展示的视频内容
这可以说震惊了整个AI届。Sora背后的技术架构,也被业界所了解并跟进。
此前AI视频生成的技术路线主要有2大类:
一类是Diffusion Model(扩散模型技术路线),主要玩家包括Runway、Pika Labs等。
一类是基于Transformer架构的大语言模型生成视频技术路线。
去年12月底,谷歌发布了基于大语言模型的生成式AI视频模型VideoPoet,这在当时被视为生成视频领域中,扩散模型之外的另外一种解法和出路。
Diffusion Model将一张图片通过引入噪声使其变成原始马赛克,在通过引入“神经网络”,如基于卷积神经网络(CNN)的UNet结构,从某个时间点的画面,减去预测的噪音,得到的就是最原始没有噪音的画面,也就是最终生成的画面。
大语言模型则是通过视频数据来对大模型进行训练,使其能够理解视频数据中的基本Token词汇以及所对应的视频画面。当用户给予指令词之后,其就能够根据学习到的Token词汇生成对应的视频内容。
两种技术路线都存在各自的优劣势,单一模型所生成的视频在时长和画面效果上,都难以实现根本性突破。Sora则选择了将扩散模型和Transformer模型结合的技术架构体系-DiT(Diffusion + Transformer )架构。
有业内观点认为,Sor
|