财经新闻网消息:
在AI大模型对数据的巨大需求下,AI企业正在探索一种获取数据的“新方式”——从无到有“创造”数据。
微软、谷歌等公司已经开始测试使用合成数据来训练人工智能模型。 CEO Aiden Gomez 表示,合成数据可以应用于很多训练场景,但目前还没有完全推广。
现有的(通用)数据源似乎已经接近性能极限,开发人员认为网络上可用的通用数据不再足以驱动人工智能模型的性能。 戈麦斯指出,网络极其嘈杂和混乱。 “它无法为您提供真正想要的数据。网络无法满足我们所有的需求。”
此前,Bard等聊天机器人的训练数据大部分来自互联网,如电子书、新闻文章、博客、推文、视频、图片等。然而,随着AIGC技术变得越来越复杂,获取高质量数据变得越来越困难。 开发人工智能模型的科技公司也因数据使用不当而受到批评。
在 5 月份的一次活动中,首席执行官 Sam 被问及是否担心监管机构调查可能侵犯用户隐私的行为。 他不置可否,并表示他“非常有信心很快所有数据都将被合成”。
▌真实人体数据价格高昂
为了大幅度提高AI模型的性能,提高其在科学、医学、商业等领域的水平,AI模型需要“独特且复杂”的数据集。 而这种数据需要来自科学家、医生、作家、演员、工程师等“专家”,或者需要从制药公司、银行、零售商等大型企业获取专业数据。
这带来了人工智能公司转向合成数据的另一个原因——数据太昂贵。
更不用说那些技术含量极高的医药和科学数据了,戈麦斯“不喜欢”戈麦斯和推特给出的高额数据采集价格。
其中,数据接口的使用收费将于本月开始。 据第三方软件开发商 Selig 称,每 1000 个 API 响应的费用为 0.24 美元,相当于谷歌每月约 200 万美元。
根据今年3月发布的API政策,企业需要为捕获推文的API每月支付4万美元到20万美元不等的费用,对应5000万到2亿条推文。 根据计算数据,评分最低的包仅占整体推文的0.3%左右。
在这种情况下,合成数据自然就成为了一种经济高效的解决方案,不仅可以避免这些数据的高昂价格,还可以生成一些更复杂的数据来训练AI。
▌如何使用合成数据进行训练?
如何用合成数据训练人工智能大型模型? 戈麦斯举了一个例子:
在训练高级数学模型时,可能会使用两个人工智能模型进行对话,一个扮演数学老师,另一个扮演学生。 随后,两个模型会聊到三角函数等数学问题,“其实一切都是模型‘想象’出来的。”
如果模型在此过程中说错了什么,人类会在检查对话时纠正它。
微软研究院最近的两项研究也表明,合成数据可用于训练 AI 模型,这些模型通常比 GPT-4 和 的 PaLM-2 更小、更简单。
在其中一篇论文中,GPT-4 使用简单到四岁孩子都能理解的单词生成了一个名为“”的短篇小说综合数据集。 该数据集用于训练一个简单的大型语言模型,该模型可以生成流畅且语法正确的故事。
在另一篇论文中,人工智能可以使用合成代码进行训练,并在后续编码任务中提供相对良好的性能。
▌蜂蜜还是砒霜?
有客户想要合成数据,供应商自然而然地涌现出来,比如 Scale AI 和 .ai 等初创公司。 .ai 由美国国家安全局和中央情报局的前情报分析师创立。 它已与谷歌、汇丰银行、Riot Games 等公司合作,利用合成数据增强现有数据,并帮助训练人工智能模型。
.ai首席执行官阿里表示,合成数据的关键在于它能够保护数据集中所有个人的隐私,同时保持数据的统计完整性。
同时,合成数据还可以消除现有数据中的偏差和不平衡。 “比如,对冲基金可以研究黑天鹅事件,我们可以创建一百个变体,看看模型是否可以被破解;而对于银行来说,欺诈事件通常不到总数据的百分之一,软件可以生成数千个欺诈案例,并用它们来训练 AI 模型。”
不过,也有人对合成数据并不乐观。
反对者认为,并非所有合成数据都经过精心调整、反映或改进了现实世界。
来自牛津、剑桥、帝国理工学院等机构的研究人员发现,合成数据的负面影响甚至堪比“毒药”。 如果训练时使用大量的AI内容,会导致模型崩溃(模型),产生不可逆转的缺陷。
新一代模型的训练数据可能会受到上一代模型生成的数据的污染,从而导致对现实世界感知的误解。 随着时间的推移,模型会忘记部分真实的底层数据。 即使在近乎理想的长期学习状态下,这种情况也无法避免——研究人员将其描述为“AI模型患有‘痴呆症’”。
即使是合成数据从业者也承认,对质量较差的合成数据进行培训可能会阻碍进步。
越来越多的在线内容是由人工智能生成的。 随着时间的推移,这确实会导致性能退化,因为这些大型模型生成的知识是重复的,没有任何新的见解。
免责声明 ① 本网所刊登文章均来自网络转载;文章观点不代表本网立场,其真实性由作者或稿源方负责 ② 如果您对稿件和图片等有版权及其他争议,请及时与我们联系,我们将核实情况后进行相关删除 ③ 联系邮箱:215858170@qq.com