财经新闻网消息:
中金公司认为,Sora通过架构的帮助,在AI+视频场景上取得了突破,并展现了出色的扩展性。 展望未来,我们判断基于架构的大型模型有望在更多模态领域得到复制,并看好多模态领域的技术进步。
其核心要点如下:
延续DiTs架构,Sora实现了高质量的长视频生成。 根据技术报告,Sora延续了DiTs架构,随着训练计算量的增加,生成能力显着提升()。 与之前的模型相比,我们认为其最突出的创新是:1)LDM自编码器实现了时间维度压缩,使得长视频生成成为可能; 2)直接在LDM中分块潜在视频并直接使用建模,同时解除输入格式限制,可以创新性地实现任意像素和长宽比的视频生成; 3)我们判断其训练数据集可能包含具有物理信息的合成数据,以便模型能够展示其对物理的理解。 对信息的初步了解; 4)复用DALL·E 3的重新标注技术,为视频数据生成高质量的文本标注,并使用GPT扩展提示词,提高生成效果。
技术基础1:扩散模型是当前图像/视频生成的主要技术路线。 扩散模型通过神经网络(主要是U-Net)从纯噪声图像中学习去噪过程,通过给出噪声来完成图像生成任务。 潜在扩散模型(模型)通过降维进一步提高训练效率、降低训练成本,已成为图像生成的主要技术路线。 基于预训练的图像生成模型,学术界提出通过生成关键帧并按时间序列对齐,可以将图像生成模型转换为视频生成模型。 但该类模型存在生成时间短、稳定性差等缺点。
技术基础二:架构的引入使得扩散模型能够达到规模效应。 DiTs(·)用一种更具可扩展性的网络取代了之前扩散模型的骨干U-Net卷积网络,从而实现了更强的可扩展性,即可以通过增加参数规模和数量来快速提升模型的性能训练数据。 性能方面,该模型在图像生成任务上表现良好。 WALT首次将该架构引入视频生成模型中,利用窗口注意力降低对算力的需求,展示了良好的视频生成能力。
我们相信Sora通过架构的帮助,在AI+视频场景效果上取得了突破,并展现了出色的可扩展性。 展望未来,我们判断基于架构的大型模型有望在更多模态领域得到复制,并看好多模态领域的技术进步。
风险
技术进步不及预期; 应用实施未达到预期; 行业竞争加剧。
免责声明 ① 本网所刊登文章均来自网络转载;文章观点不代表本网立场,其真实性由作者或稿源方负责 ② 如果您对稿件和图片等有版权及其他争议,请及时与我们联系,我们将核实情况后进行相关删除 ③ 联系邮箱:215858170@qq.com