财经新闻网消息:
由于人工智能对数据的巨大需求,数据资源几乎耗尽。 因此,各家企业开始探索一种获取数据的“新方式”——“创造”自己的数据。 然而,之前的合成数据大部分用于大型AI模型训练。 这次,打造了一个用于机器人训练的“数据粮仓”。
和德克萨斯大学奥斯汀分校的一篇新研究论文介绍了一种名为“”的系统,只需少量人类演示即可自动生成大规模机器人训练数据集。 高级科学家 Jim Fan 表示,该公司将开源一切,包括生成的数据集。
生成的数据大小是多少? 通过 10 次人类演示,可以生成 1,000 个合成示例; 通过200次真人演示,可直接生成5万条训练数据,涉及18个任务和多种模拟环境。
生成的数据集是什么样子的?
同一场景可以在原始数据的基础上进行不同阶段的“进化”:
它还可以在各种任务重置分布中生成不同的数据集,包括组装物品、倒咖啡、清洁杯子等:
可以生成不同的新机械臂:
还有长期任务训练数据:
现实世界的场景数据也没有问题:
值得注意的是,研究人员比较了不同源数据集生成的数据。 然而,他们发现两组结果具有可比性,这表明“(源)数据质量在大规模数据机制中可能并不那么重要”。
不仅如此,研究人员还将 10 次人体演示和 200 次人体演示生成的数据进行了比较,结果也没有太大差异。 因此,论文也承认,更多的人类演示数据是否会造成冗余和不必要的不必要的数据标注成本,还需要进一步研究。
为什么痴迷于合成数据? 除了文章开头提到的源数据资源有限之外,收集数据也极其昂贵和耗时。 通过此类系统,只需少量数据即可自动生成大规模丰富的数据集,并且这些数据集可以水平分布。 跨越多个场景、物体能力和机械臂,它还可以用于长期或高精度的任务。 它可以被称为“扩展机器人学习的强大且经济的方式”。
“合成数据将为我们的‘饥饿’模型提供下一波数万亿数据。” 资深科学家 Jim Fan 在介绍中表示,“机器人技术发展速度远远落后于其他 AI 领域的关键原因之一是,缺乏数据——你无法获取(机器人的)控制信号。 ) 来自网络。”
“我们正在迅速耗尽来自互联网的高质量真实数据,由合成数据诞生的人工智能将是未来的发展方向。”
免责声明 ① 本网所刊登文章均来自网络转载;文章观点不代表本网立场,其真实性由作者或稿源方负责 ② 如果您对稿件和图片等有版权及其他争议,请及时与我们联系,我们将核实情况后进行相关删除 ③ 联系邮箱:215858170@qq.com