财经新闻网消息:
图片来源@视觉中国
文字| 李志勇
开源大型模型LLaMA 2会起到类似的作用吗? 文中我们提到,基于数据飞轮,它已经达到了前所未有的人工智能水平。 它利用自己生成的数据来训练自己,并迅速达到围棋领域的高点,远远超过人类。 但事实上,用数据飞轮来描述这个过程有点过于笼统了。 数据飞轮是智能飞轮的一部分。 我的一个从事人工智能算法工作的朋友经常形容自己的工作是一名大炼金师。 按照这个比喻,什么是智能飞轮? 基本上就是九转金丹的配方(算法)、炉子(算力)和材料(数据飞轮)的结合体。 得到之后,有很大概率炼制出九变金丹,吃了之后,基本上就会立刻成仙。 那么到底什么是智能飞轮呢? 关键影响因素有哪些? 新型智能飞轮更容易出现在哪些领域?
智能飞轮
(数据飞轮)
从纯粹的技术角度来看,智能飞轮与经常提到的三个要素有关:算力、算法、数据。 (比技术更关键的是领域,参见:成功的关键是什么,大型模型谁能做好?这里就不重复了。)算力基本靠资本,算法靠团队,而且数据也比较复杂。 这不仅仅是有钱的问题。
从智能飞轮的角度来看,算力确实是一座炼金炉。 该算法确定轮子有多大或轮子类型。 数据飞轮决定智能飞轮能否转动。 例如,它已经开始旋转,但仅限于围棋; 它还没有开始旋转。 如果是的话,整个世界都会被旋转进去,因为它的轮子太大了,涵盖了世界太多的方面。
算力算法其实和过去的其他业务场景是类似的。 人工智能与其他人工智能的核心区别在于数据。 坏消息是,由于生产和消费之间的不平衡,数据可能会很快枯竭。
如果我们把模型训练看成消费端,把人和物的一切行为看成生产端,那么消费的速度显然大于生成的速度。 数十年积累的数据可以在几次培训课程中消耗掉。
数据的产生并不像想象的那么容易。
有效数据从哪里来?
并非所有数据都对模型有用。 比如说我们训练小艾这样的唤醒词,如果你的数据量很大,但是都是铁岭人的,那么无论有多少数据,训练结果在广东肯定效果不好。
因此,数据首先要有效,其次才是海量。
对于人工智能背景下的数据,从形而上学和哲学的角度可能更容易抓住要点。
假设我们有一个“本初真理”的世界,里面只有本质,比如圆的正则周长、面积、原点等之间的关系,而我们的现实世界其实就是本质的多种表现形式(希腊圣贤将此称为:苍白传真)。
现在大模型正在通过海量的真实数据反向逼近本质和本初世界,而此时得到的真实表达类型越齐全,逼近的距离无疑会越近。 例如,给出的爬虫类型越多,每种类型的特征越丰富,模型就越能找到爬虫的本质部分并将其包含在内。 仅给出一只鳄鱼或全部鳄鱼都很难接近爬行动物的本质。
这是智能飞轮面临的最大挑战。 你可以花钱把过去的数据整理出来,交给模型。 问题是接下来怎么办?
对于上面爬虫的例子,后续增量大部分都是鳄鱼,和过去有重叠。 重叠对于接近本质没有什么帮助。 如果帮助小了,智能就提升不了,自然也就没有智能飞轮了。 (鳄鱼太多会导致鳄鱼不是爬行动物的结果)
算法不能解决这个问题。
有新的算法更有可能放大轮子的尺寸或结构,这对于飞行与否没有太大帮助。 它对构建更好的应用程序有很大帮助。
那么,我们到哪里去找这么多有助于接近本质和真相的数据呢?
目前只有两种方法:一种方法是加大收集的范围和力度,也就是说等待现实世界的生产,但是得到更完整的; 另一种方法是自生成。 让人工智能产生的数据能够辅助人工智能的进化。 前者对应于多模态,而后者首先是领域本身的属性。
多模态能解决问题吗?
2010年左右开始的人工智能浪潮就是从多模态开始的。 虽然不同的创业者往往从不同的维度入手,但最大的两个分支:视觉和声音,依赖于声、光、热、磁声、光几个关键的感知维度。需要补充的是:声音不仅是共同认知,还包括声纹、噪音检测、故障检测等,光不仅包括人脸识别,还可以利用红外来检查物品的质量和问题,深度摄像头可以用来感知三维场景等等。
传感器的低成本和更高的精度是多模态的基础。
多模态肯定可以解决数据数量的问题,但不能解决质量的问题。
从数量上来说,只要有一定数量的摄像头,每天就可以获得大量的信息。
但就质量而言,信息的维度有多少,部署的传感器就有多少。 如果你真的想获得这些信息,就需要纯粹靠自己慢慢的部署和积累。 没有把握。 因此,多模态可以帮助在长轴上慢慢解决问题,但注定需要非常大的成本和时间,而且无法辅助启动智能飞轮。
这很像大排量的汽车配备了小供油管,无论你怎么努力,都不够。
数据可以自己生成吗?
自我生成的数据存在一个悖论。
如果原始真理和本质配合全量的规则生成数据,那么本质的表达就足够了,这样你生成的数据是多样的、有意义的,这对智能飞轮一定有帮助。 但如果规则是偏颇的,就会产生大量的重复数据,相当于原来类别中的垃圾数据。 从他们那里只能返回部分规则和本质。
这时,问题的关键就变成了去哪里寻找一种随机性,并且这种随机性的结果在领域或者特定的范围内是真实的。 你创建一些关于爬行动物的数据,它必须和蛇或者其他东西一样,恐龙就可以,否则就会对爬行动物的概念构成污染。
从这个角度看待大型模型的幻觉是有启发性的,提供了原始的可能性。 但这种错觉对于构建虚拟世界很有用,但对于现实问题却无用。 如果让它产生幻觉,可能会有一个智能飞轮,但没有人知道它会飞到哪里。
(这种虚幻的缺点在数据生成情况下可能不是真正的缺点)
那么为什么?
因为规则恰好是明确的,任何符合围棋规则的尝试都是真理的一部分。 这个时候,“幻觉”其实有助于穷尽可能性。
从这里我们可以总结出数据自生成的关键:“幻觉”+规则。 为了实现目标,当然最终还有目标的反馈,比如成功或失败。 幻觉加规则可以快速产生结果并提供结果的快速反馈,这对于数据生成非常关键。
下一个在哪里?
还有其他领域符合这个特性,可以像这样激活智能飞轮吗?
从前面的描述中我们可以发现,这个领域的特点是前端加载,但与算法和数据的现状关系不大。
满足这个特性,就意味着更有可能快速炼制出九变金丹。
除了游戏之外,我立刻想到的就是编程。
编译器等确保编程规则足够清晰,使其几乎不可能。
在很多场景下,测试驱动开发可以用来定义最终结果是否正确。
过去的数据量足以点燃第一把火。 性能、稳定性等非功能指标也可以定量测量。
编程的难点在于,当一个新领域到来时,必须能够将这种模糊性的需求描述成一个可衡量的数值目标。 这样,软件产品就会成为一个是非明确的系统。 在这种情况下,各种内部构造可以完成模型。
如果这是真的,那么程序员行业肯定会面临巨大的变革。
这并不是说这个职业会被淘汰,而是工作的内涵将与过去有很大不同。
医疗救治情况如何? 虽然本账号的很多读者都会关注这个领域,但遗憾的是医疗并不是一个有智能飞轮的领域。 需要的是依靠算法和其他进步来推动一点点。 (这并不是说人工智能无能为力。类似沃森的系统肯定不会出现。)
由于疾病本身并不十分清楚,“幻觉”和规则无法产生有效的数据。 如果你根据这样的模拟数据做一个模型,然后指导真人去看医生,然后在反馈中纠正,那是一点也不靠谱的。 光谱。 反馈的成本也太高了。 也许人类都死了,还不足以验证幻象。
企业运营管理状况如何? 这有部分可能。
这似乎有点矛盾。 理论上,医院也是一种企业。 为什么医院做不到,企业却可以?
因为企业内部存在很大差异,既有封闭的系统,也有开放的复杂系统。
企业中的场景和任务实际上是在封闭和开放之间连续的。 例如,总是有送货员和首席执行官等工作。 前者是封闭式的,后者是开放式的。 那么,不同企业不同工种的比例是不同的。 例如,工厂或清洁公司可能更加封闭,而大学可能更加开放。
该比率决定了组织的性质。
这导致在很多接近封闭场景的情况下都可以找到最优解。 关键是要明确边界。 切割到极致其实和Go是一样的。 例如,即使你不需要大规模的物流模型,你也可以使用算法来求解最优分布(求解器),因为它有明确的边界。
最后我想说的是,具有明显自反性的领域会更加困难,比如股票交易。 从理论上讲,股票与游戏非常相似。 数据非常充足,获取数据并不困难。 符合规则的结果立即得到反馈。 但股市的反射性是如此明显,以至于它几乎没有规则。 在这种情况下,这种意义上的智能飞轮就没用了,需要换一个角度和方法。
概括
结论是,智能飞轮的存在是一个领域特性,与计算能力和算法关系不大。 如果字段错误,则飞轮没有数据。 在没有数据飞轮的情况下,适合慢战,多模态和逐步积累的结合。 这也意味着,在XX我们提到的系统型超级应用对应的长尾曲线中,具有智能飞轮效应的将会跑在前面。 对于纯大型模型的开发者,他们负责主导; 对于基于系统的超级应用开发者来说,核心是找到智能飞轮的区域并相应地部署策略; 对于长尾曲线上的应用,快速输出是更适合的体验。 人工智能的未来格局越来越清晰。
免责声明 ① 本网所刊登文章均来自网络转载;文章观点不代表本网立场,其真实性由作者或稿源方负责 ② 如果您对稿件和图片等有版权及其他争议,请及时与我们联系,我们将核实情况后进行相关删除 ③ 联系邮箱:215858170@qq.com