财经新闻网消息:
谷歌的出现,再次让大家的目光聚焦到多模态大模型上。
.0号称具备原生多模态能力,可以处理视频、音频、图像、文本和代码等多种形式的内容,性能优于现有的“拼接”多模态大模型。 从官方技术文档中的例子来看,它不仅可以在双模式(例如图片或视频)之间进行转换,还可以处理需要多模式转换的复杂任务。
多模态的意义在于,它为AI应用带来更多可能性,是通用人工智能(AGI)发展的关键。
从这个角度来看,此次发布是AI行业发展的里程碑事件,其所代表的原生多模态大模型有望拓展大模型的应用场景和边界。 国盛证券表示,AIGC的出现有望为行业贡献大模型泛化能力的新范式,加速AIGC的转型。
作为科技巨头,谷歌拥有丰富的软硬件生态系统。 国海证券表示,如果谷歌全面整合其产品,其搜索引擎和办公软件将能够与微软和365竞争; 此外,谷歌还可能在搭载该系统的移动设备上推出类似的AI助手,充分发挥其在2C端的用户优势,顺应当前AI手机的发展趋势。
▌多个多模态AI应用惊艳亮相
近年来,多模态人工智能应用惊艳亮相,包括热门的Pika,以及阿里巴巴、字节跳动的Magic、微软的GAIA三大图像转视频工具。
皮卡大家都已经很熟悉了。 它是一个对标Gen-2的AI视频生成平台。 关于Magic,《科创板日报》此前曾进行过详细报道。 11 月 26 日发布了 GAIA 相关论文。AI 工具同样有效,可以让肖像/照片“张开嘴说话”,而且还带有音频。
也有不少科技公司在文胜视频领域取得了新进展:元发布工具Emu Video可以根据文本和图像输入生成视频片段; Gen2推出Brush动态画笔功能,只需在图像上的任意位置进行画笔,即可使所有静止的物体移动; AI推出Video,可以从图像生成高质量的视频剪辑。
开元证券表示,科技巨头对于多模态大车型的竞争日趋激烈,同时也在带动底层多模态大车型能力的不断突破。 随着GPT等AI应用形态的出现,AI应用有望迎来快速增长期。
免责声明 ① 本网所刊登文章均来自网络转载;文章观点不代表本网立场,其真实性由作者或稿源方负责 ② 如果您对稿件和图片等有版权及其他争议,请及时与我们联系,我们将核实情况后进行相关删除 ③ 联系邮箱:215858170@qq.com