财经新闻网消息:
①李飞飞,全球顶尖人工智能专家,现任斯坦福大学终身教授、斯坦福大学人工智能实验室主任、谷歌前副总裁、谷歌云首席科学家;
②李飞飞认为,未来计算机视觉的重点方向是体现智能;
③随着人工智能的成熟,构建人工智能模型变得越来越容易,但为人工智能创建数据集仍然是一个主要痛点。
通过嵌入大的语言模型,机器人变得更加智能,视觉模型也堆积起来。 机器人将如何改进?
AI科学家李飞飞领导的团队近日发布了体现智能的最新成果:将大型模型与机器人连接,将复杂的指令转化为具体的行动计划。 人类可以自由地使用自然语言向机器人发出指令。 更重要的是,通过LLM(大型语言模型)+VLM(视觉语言模型)的结合,进一步提高了机器人与环境交互的能力,无需额外的数据和训练即可完成任务。
李飞飞团队将该系统命名为“与需要额外预训练的传统方法相比,该方法让机器人在零样本的前提下完成,解决了机器人训练数据稀缺的问题。
李飞飞是华裔女科学家、世界顶尖人工智能专家。 她现在是斯坦福大学终身教授,也是斯坦福大学人工智能实验室主任。 她曾任谷歌副总裁、谷歌云首席科学家。 这位前Open AI研究员,曾担任特斯拉人工智能和自动驾驶视觉总监,是他的得意弟子。
李飞飞的研究领域涉及计算机视觉、机器学习、深度学习、认知神经科学等,近年来他的研究重点是AI智能体,即具身智能。 在她看来,计算机视觉未来的重点是体现智能。 她认为,实体人工智能可能会给我们带来重大转变,从机器学习的简单能力(例如识别图像)到学习如何通过多个步骤执行复杂的类似人类的任务(例如制作煎蛋卷)。
▌不仅能听懂人类语音,而且不需要额外的数据和训练
回过头来,为什么说它是体现智能领域的重大突破呢? 当然不是因为李飞飞的学术地位。
它解决了机器人训练的一个主要问题——数据稀缺。
研究工作中,通过LLM(大语言模型)+VLM(视觉语言模型)相结合,“人类自然语言输入——代码生成反馈给机器人——机器人接收指令并规划路径——最终完成任务”。
使用自然语言(打开最上面的抽屉,小心花瓶!)向机器人发出指令,机器人完成
这个过程的意义在于,机器人的交互能力大大提高。 通过LLM+VLM有了眼睛和理解,就相当于拥有了和人类一样的学习能力,即从真实环境中收集数据并实时学习,而不是依赖预先输入的数据。 数据库“查找问题的答案”。
李飞飞团队还表示,这些操作不需要任何训练,也不需要使用基本操作。 只要掌握上述基本流程,就可以完成任何给定的任务,实现现实世界中的零样本机器人操控。
可操作对象是开放的,无需预先划定范围。 您可以打开瓶子,按下开关,然后拉动充电线。
对于数据对于机器学习的重要性以及获取数据的难度,李飞飞有着充分的发言权。 她于 2006 年领导建立的数据集是世界上第一个用于计算机视觉算法的大规模人工注释照片数据集。 它包含超过一千万个标记图像,可用于训练复杂的机器学习模型。 它被称为改变人工智能历史的数据集。 然而,这些数据的收集和处理极其艰巨,来自全球167个国家的近5万名工作人员花了三年时间通过众包完成。
如何解决训练数据稀缺的问题将成为实体智能乃至人工智能发展的最大障碍。
李飞飞在2022年发表的论文中明确表示,随着人工智能的成熟,人工智能模型的建立变得越来越容易,包括亚马逊、谷歌和微软在内的公司提供了自动机器学习()产品,让用户能够无需编写任何代码即可根据自己的数据构建最先进的人工智能模型。 但由于规划和注释的成本,为人工智能创建数据集仍然是一个主要痛点,并且创建适当的数据集和数据管道来开发和评估人工智能模型正日益成为最大的挑战。
目前,仍存在一些局限性。 依赖于外部感知模块,对于嵌入的大模型仍然需要手动输入提示词,仍然需要通用的动态模型来完成更丰富的动作。
然而,却引起了学术界和工业界的热烈讨论。 一位前微软研究员评价说,这项研究处于最重要、最复杂的人工智能系统的最前沿。 其他研究人员、人形机器人初创公司创始人等都“点赞”了这份研究报告。
项目官网已开通,相关论文已上线,代码即将发布。 目前,李飞飞的团队只迈出了第一步。 这个框架如何完善,未来如何应用到机器人产品上,我们拭目以待。
免责声明 ① 本网所刊登文章均来自网络转载;文章观点不代表本网立场,其真实性由作者或稿源方负责 ② 如果您对稿件和图片等有版权及其他争议,请及时与我们联系,我们将核实情况后进行相关删除 ③ 联系邮箱:215858170@qq.com