生数科技发布“最强国产Sora”可根据文本描述直接生成16秒

2024-04-29 13:58:44

财经新闻网消息：DeI财经新闻网

4月27日，在中关村论坛未来人工智能先锋论坛上，盛树科技联合清华大学发布了带有“时长长、高一致性、高动态”性能标签的大视频模型Vidu，可根据文本描述直接生成。高清视频内容长达16秒，分辨率为1080P。DeI财经新闻网

高一致性是团队强调的一个特点。清华大学人工智能研究院副院长、盛树科技首席科学家朱军表示，目前国内大型视频模型生成的视频时长大多在4秒左右，而Vidu可以在1秒内生成16秒的视频时长。时间。同时，视频画面能够保持连贯流畅，随着摄像机的移动，人物和场景在时间和空间上都能保持高度的一致性。DeI财经新闻网

动态方面，除了推、拉、动之外，Vidu的动态镜头开始涉及到画面内远景、近景、中景、特写的切换，以及直接生成远景、追焦等和过渡效果。在物理定律方面，朱军表示，Vidu可以模拟细节复杂的场景，符合真实物理世界的物理定律，比如合理的光影效果、细腻的人物表情等，还可以生成超现实的内容深度和复杂性（例如“戴珍珠耳环的猫”）。DeI财经新闻网

在圣树科技发布的视频资料中，确实有不少用户反映认可了其在时间和空间上的一致表现。这是视频模型在长期内容生成中需要克服的关键问题。DeI财经新闻网

一致的性能不能独立于视频时长来讨论。目前，Vidu公布的最长持续时间为16秒，而Sora的最长持续时间为1分钟。今年2月Sora上线后，圣数科技成立了内部研究团队，加快原创视频方向的研发进度。 3月份，内部实现了8秒视频生成，4月份升级为16秒视频生成，但团队并未公布有关技术突破的更多细节。DeI财经新闻网

一位从事多模态大模型开发的技术人员告诉界面新闻，时长并不是最关键的因素，因为只要相机移动足够慢，单个场景的时长是可控的。 Sora最初的惊喜主要在于展示了纯模型拼接多个场景的能力，以及从符合客观物理定律的大规模多视点生成视频的整体能力。DeI财经新闻网

但维杜的视频中并没有充分展示这一点。 “每个镜头长度都很短，没有复杂的语义切换元素。” 他表示，总体来说，Vidu 相比目前的开源解决方案主要是在时空分辨率上进行了提升，但没有本质区别。DeI财经新闻网

从现有信息来看，技术方面，Vidu采用了自主研发的U-ViT架构，与Sora是相同的集成架构。该架构不使用插帧的多步过程来生成视频，而是通过单步“端到端”直接生成内容，并且从文本到视频的转换是直接且连续的。DeI财经新闻网

这意味着Vidu无法回避模型训练的法则（Law of Scale），需要不断积累更大的参数和更多的算力。DeI财经新闻网

除了算力限制外，一位有训练多模态大模型经验的企业家告诉界面新闻，生成数据的差距是国产视频模型与Sora的重要区别。大视频模型需要大量的数据采集，其路线是一个逐步细化和确定的过程。从实现的角度来看，这是一个确定性事件，但需要一些时间。DeI财经新闻网

因此，圣树科技虽然两个月的时间取得了这样的进步，已经是算法和工程能力的突破，但要在同等性能下追平Sora的1分钟性能，真正全面对标Sora，还必须有更多的进步。还有很长的路要走——至少不是像“两个月的两倍”这样简单的线性估计。DeI财经新闻网

“16秒和1分钟之间的差距看起来大约是四倍，但中间累积的误差可能无法用四倍以上的计算能力或工程能力来补偿。” 一位大模型领域的投资人告诉界面新闻。DeI财经新闻网

他还指出，事实上，与Sora一样，Vidu目前还没有发布足够的材料。从其公布的材料来看，一致性表现确实不错，但目前还很难做出更准确的判断。DeI财经新闻网

从这个角度来看，维杜和索拉的直接可比维度可能更多在于镜头语言所代表的动态，以及对物理世界规律的理解和模拟能力。至于由长时长和一致性组成的核心性能，还需要等待后续的版本迭代来进一步对比。DeI财经新闻网

免责声明 ① 本网所刊登文章均来自网络转载;文章观点不代表本网立场,其真实性由作者或稿源方负责 ② 如果您对稿件和图片等有版权及其他争议,请及时与我们联系,我们将核实情况后进行相关删除 ③ 联系邮箱:215858170@qq.comDeI财经新闻网

全部评论

财经资讯频道推荐

互联网金融相关排行