财经新闻网消息:
Open AI于2月16日发布了首款视频模型Sora,可直接输出长达60秒的视频,且包含高度细致的背景、复杂的多角度镜头、多个情感人物,效果震撼。
业界普遍认为,AI多模态能力的快速发展将使智能计算资源更加稀缺。 360创始人周鸿祎在表达对Sora的看法时提到,Open Al训练这个模型应该多看视频。
业内人士表示,多模态训练和推理将进一步增加对计算基础设施的需求。
值得注意的是,谷歌也在同一天发布了其大作矩阵1.5。 扩展后,这种多模式大型模型可以一次处理大量信息,包括长达一小时的视频、11 小时的音频、超过 30,000 行代码或超过 700,000 个单词的代码库。
《Sora》三大亮点凸显
2 月 16 日,Open AI 发布了第一个 视频模型 Sora。 从Open AI目前展示的信息来看,Sora具有三大亮点,在AIGC领域取得了里程碑式的进展。
首先,Sora可以生成60秒的长视频,可以保持视频主体和背景的高度流畅性和稳定性; 其次,单视频多角度拍摄,Sora可以实现一个视频多角度拍摄,分镜头切换逻辑清晰,非常流畅。 ; 然后还有理解现实世界的能力。 Sora对光影反射、运动图案、镜头移动等细节处理得很好,大大提高了真实感。
目前Sora并未完全对外开放,仅邀请部分测试者体验。
随后,Open AI解释了Sora的工作原理:Sora采用架构,是一种扩散模型,具有很强的可扩展性。
Sora从一段类似静态噪声的视频开始,通过多个步骤逐渐去除噪声,将视频从最初的随机像素转变为清晰的图像场景。
视频和图像是称为“补丁”的较小数据单元的集合。 每个“补丁”类似于GPT中的一个标记(Token)。 通过统一的数据表达方式,可以应用在更广泛的可视化数据上。 训练和扩散变化,包括不同的时间、分辨率和纵横比。
据悉,Sora是基于过去对DALL·E和GPT的研究。 它利用DALL·E 3的重述提示词技术为视觉模型训练数据生成高度描述性的注释,使模型能够更好地遵循文本指令。 。
周鸿祎说话很快
就像Open AI将于2022年底公开-3.5一样,Sora在发布当天立即引起了全球的关注。
360创始人周鸿祎很快发微博,提到了自己对Sora的看法。 周鸿祎对空给予了高度评价。 他认为Sora的诞生意味着AGI(通用人工智能)的实现可能从10年缩短到一两年。
在他看来,空只是一个小小的考验。 它展现的不仅仅是其视频制作能力,而是大模型理解和模拟现实世界后将带来新的成果和突破。 他认为,人工智能可能不会那么快颠覆所有行业,但它可以激发更多人的创造力。
“很多人担心《空》对影视行业的影响,但视频的主题、剧本、镜头策划、台词配合都需要人的创造力,或者至少是提示文字。而一个视频或电影是由无数个60秒组成的。” ”周鸿祎直言,“今天的Sora可能会给广告行业、电影预告片、短视频行业带来巨大的颠覆,但可能不会那么快被打败,它可能会成为一种创作工具。”
谈及Sora最大的优势,周鸿祎表示,以前文盛视频软件都是在2D平面上操作图形元素。 视频可以看作是多个真实图片的组合,并没有真正掌握世界的知识。 “但在Sora生成的视频中,它可以像人类一样理解坦克的冲击力巨大。坦克可以撞毁汽车,但不会出现汽车撞坦克那样的情况。”
他表示,此次Open AI利用大语言模型的优势,让Sora实现了理解现实世界和模拟世界的两层能力。 “这样生成的视频是真实的,可以跳出2D范围来模拟真实的物理世界。”
“马斯克说人类愿意承认失败”
值得注意的是,就在Sora发布几个小时后,特斯拉CEO马斯克就在X平台上回复多条帖子“输出”自己的观点。 有网友在评论Sora生成的走在东京街头的60秒时尚女人时表示:“gg Pixar(皮克斯动画制作公司)”(编者注:gg是Good Games的缩写,意思是“玩得好”) ,我投降”),马斯克随后回复,“gg(人类)。” 随后,马斯克还表示,经过人工智能增强的人类将在未来几年创造出最好的作品。
谷歌1.5同日发布
事实上,在发布Sora之前,Open AI CEO 就对未来两年AI的发展充满期待。 在他看来,人工智能有望在三个方面得到大幅提升:推理能力和可靠性、多模态(语音输入/输出、图像、视频)、可定制性和个性化。
认为,至少在未来5到10年,AI大模型技术将处于非常陡峭的增长曲线; 同时他透露,Open AI新一代模型将是多模态大模型,支持语音、图像、Code、视频,并在个性化定制方面实现重大更新,推理能力更强、准确率更高; 此外,他认为AI大模型的幻觉问题有望在新一代大模型中得到解决。
值得注意的是,另一巨头谷歌的举动也证实了奥特曼的猜想。 在Sora发布的同一天,也发布了其大模型矩阵的最新力作——1.5,距离上一版本1.0发布仅2个月。
作为新版本的最大亮点,在1.5版本中率先出现的多模态通用模型1.5 Pro,将稳定处理上下文上限拓展至100万条。 横向对比,两个月前发布的1.0 Pro的上下文理解限制为32,000,而老对手Open AI的GPT-4 Turbo仅支持128,000。
这意味着1.5 Pro可以一次处理大量信息——包括1小时的视频、11小时的音频、超过30,000行代码,或者超过700,000字的代码库,展现了其多模态能力。
对算力的需求将大幅增长
真正具有多模态能力的大型模型的出现,例如Open AI的Sora和 1.5 Pro,首先会对基础计算能力提出更高的要求。
周鸿祎这次提到Open Al训练Sora模型应该可以读很多视频。 “人工智能一旦连接上摄像头,观看所有的电影和视频,它对世界的理解将远远超过文字学习。一张图胜过千言万语,而视频传达的信息质量也远远超过一张图片。”图片。” 周鸿祎说道。
国泰君安也认为,Sora模式将推动AI多模态领域快速发展,AI创造等相关领域将迎来深入变革,AI赋能范围将进一步扩大,多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态、多模态等。模态相关的训练和推理应用将进一步增强对人工智能的理解。 计算基础设施的相关需求。
一些组织此前计算过,图像训练数据大大增加了训练代币的数量。 例如,将224*224的图片划分为16*16的2D小块,即单个图片相当于(224*224)/(16*16)=196。 图像训练材料的加入导致训练代币数量大幅增加,从而显着提高了AI训练的算力要求。
视频训练数据将大大增加训练代币的数量。 与图像训练材料相比,视频训练材料增加了时间维度,训练过程更加复杂,生成的训练token数量更大,对算力的需求更大。
此时,北美四大云厂商的资本支出增幅可见一斑。 近日,北美四大云厂商陆续发布了2023年第四季度业绩。数据显示,Meta、He、He在2023年第四季度的资本支出总计432亿美元,同比同比增长9.46%,增速全年首次转正。
以Meta为例,预计2024年全年资本支出在300亿美元至370亿美元之间,较2023年第三季度的预测上限额外增加20亿美元。该公司解释道认为这一增长主要是由于服务器需求的增长,包括人工智能和非人工智能领域的硬件,以及数据中心的建设。
华为在《智能世界2030》报告中预测,到2030年,人类将进入YB数据时代,通用算力增长10倍,人工智能算力增长500倍。 在需求加速、供给不足的今天,智能算力已成为稀缺资源。
免责声明 ① 本网所刊登文章均来自网络转载;文章观点不代表本网立场,其真实性由作者或稿源方负责 ② 如果您对稿件和图片等有版权及其他争议,请及时与我们联系,我们将核实情况后进行相关删除 ③ 联系邮箱:215858170@qq.com