中金：Sora实现AI+视频场景效果突破

2024-02-20 21:01:14

财经新闻网消息：NBh财经新闻网

中金公司认为，Sora通过架构的帮助，在AI+视频场景上取得了突破，并展现了出色的扩展性。展望未来，我们判断基于架构的大型模型有望在更多模态领域得到复制，并看好多模态领域的技术进步。NBh财经新闻网

其核心要点如下：NBh财经新闻网

延续DiTs架构，Sora实现了高质量的长视频生成。根据技术报告，Sora延续了DiTs架构，随着训练计算量的增加，生成能力显着提升（）。与之前的模型相比，我们认为其最突出的创新是：1）LDM自编码器实现了时间维度压缩，使得长视频生成成为可能； 2）直接在LDM中分块潜在视频并直接使用建模，同时解除输入格式限制，可以创新性地实现任意像素和长宽比的视频生成； 3）我们判断其训练数据集可能包含具有物理信息的合成数据，以便模型能够展示其对物理的理解。对信息的初步了解； 4）复用DALL·E 3的重新标注技术，为视频数据生成高质量的文本标注，并使用GPT扩展提示词，提高生成效果。NBh财经新闻网

_有机化工原料的生产技术及进展_视频模型展示怎么做 NBh财经新闻网

技术基础1：扩散模型是当前图像/视频生成的主要技术路线。扩散模型通过神经网络（主要是U-Net）从纯噪声图像中学习去噪过程，通过给出噪声来完成图像生成任务。潜在扩散模型（模型）通过降维进一步提高训练效率、降低训练成本，已成为图像生成的主要技术路线。基于预训练的图像生成模型，学术界提出通过生成关键帧并按时间序列对齐，可以将图像生成模型转换为视频生成模型。但该类模型存在生成时间短、稳定性差等缺点。NBh财经新闻网

_视频模型展示怎么做_有机化工原料的生产技术及进展 NBh财经新闻网

技术基础二：架构的引入使得扩散模型能够达到规模效应。 DiTs(·)用一种更具可扩展性的网络取代了之前扩散模型的骨干U-Net卷积网络，从而实现了更强的可扩展性，即可以通过增加参数规模和数量来快速提升模型的性能训练数据。性能方面，该模型在图像生成任务上表现良好。 WALT首次将该架构引入视频生成模型中，利用窗口注意力降低对算力的需求，展示了良好的视频生成能力。NBh财经新闻网

视频模型展示怎么做__有机化工原料的生产技术及进展 NBh财经新闻网

我们相信Sora通过架构的帮助，在AI+视频场景效果上取得了突破，并展现了出色的可扩展性。展望未来，我们判断基于架构的大型模型有望在更多模态领域得到复制，并看好多模态领域的技术进步。NBh财经新闻网

_视频模型展示怎么做_有机化工原料的生产技术及进展 NBh财经新闻网

风险NBh财经新闻网

技术进步不及预期；应用实施未达到预期；行业竞争加剧。NBh财经新闻网

免责声明 ① 本网所刊登文章均来自网络转载;文章观点不代表本网立场,其真实性由作者或稿源方负责 ② 如果您对稿件和图片等有版权及其他争议,请及时与我们联系,我们将核实情况后进行相关删除 ③ 联系邮箱:215858170@qq.comNBh财经新闻网

全部评论

财经资讯频道推荐

互联网金融相关排行