财经新闻网消息:
我只听说过社交媒体试图让用户停留更长时间,但从未听说过主动限制人数。 现在睁开眼睛,埃隆·马斯克正在为所有推特用户添加“轻微保护”,而这一切实际上是人工智能强迫的?
如今,用户每天可以浏览的推文最大数量并不取决于手速或不愿熬夜,而是有一个明确的数字:10,000个经过验证的(即付费“蓝鸟”服务)账户,10,000个未经验证的账户有1000个账户,但新注册的未验证账户只有500个。
这是马斯克面对愤怒的用户两次提高标准。 至于原因,是“为了解决极端水平的数据抓取和系统操纵问题”。
他指的是人工智能公司,这些公司需要大量数据来训练他们的模型。 去年12月,马斯克切断了与的数据连接,今年4月又指责微软非法使用的数据。
马斯克正面临集体诉讼,因为他采取了积极的措施来阻止数据抓取。 该诉讼一共有16名原告,都是个人,换句话说,都是普通的网民。 他们声称秘密“从互联网上窃取了 3000 亿个单词”,并在未经许可的情况下从互联网用户那里窃取了“大量私人信息”用于培训目的。
一方面是多年来积累了大量UGC内容的互联网用户和平台,另一方面是新兴的AIGC公司。 一场围绕数据捕获和隐私安全的战争已经开始。
A
周五敲锣打鼓。 周五。 终于到了周末,但推特用户却傻眼了。 屏幕上显示错误消息,提醒他们超出了“速率限制”,违反了 的规则,查看了太多推文。
人们根本不知道这意味着什么。 老板马斯克出面表示,确实存在速率限制,并宣布:为了解决极端程度的数据抓取和系统操纵问题,已验证的、未验证的和新的注册都不允许。 经过验证的帐户每天的推文数量限制为 6000、600 和 300 条。
此前,马斯克刚刚宣布 将禁止未登录用户浏览内容,这也是用户可以接受的。 限制真是实锤了,用户都麻痹了,再看看验证与非验证的区别,纷纷扬眉:莫非你们是想用这一招来推销“青鸟订阅”? 评论区里,不止一位用户评论道:“现在还得用钱赢?”
不满之声不绝于耳,的竞品Hive、、等出现在热门话题中,墓碑的一个meme被广泛使用。 在争议期间,马斯克两次将标准提高到已验证用户的浏览量为 10,000 次,未验证用户的浏览量为 1,000 次。
马斯克的一个虚假账户开玩笑说:“我设定了限制,因为你们这些推特成瘾者需要离开。我正在为世界做好事。” 这种保值增值的想法是好的。 马斯克的反手是转发,他还单独发了一条信息“去拜访你的朋友和家人吧”。
但玩笑归玩笑,马斯克对自己的“测试”给出了明确的解释:处理数据爬行。 用户的不满还在于限流方法是否有效,而不在于数据爬取的问题。
AI初创公司来“抓取数据”有多严重? 马斯克在推文中表示,流量激增迫使 开启了备份服务器:“仅仅为了帮助一些估值高得离谱的 AI 初创公司,在紧急情况下开启大量在线服务器,真是令人尴尬。令人恼火。”
限流事件前一天,Epic Games CEO Tim 也发推抱怨 也在筑墙。 马斯克回答说:“数百(甚至更多)区块正在极其积极地抓取 数据,以至于影响用户体验。我们应该做什么?我对所有想法持开放态度。”
刚才还在抱怨的蒂姆很快就提出了严肃的建议,比如在 的服务条款中加入禁止数据爬取、用信息安全工程保护平台、对大规模滥用 的公司采取法律行动等。
值得注意的是,马斯克在回复中提到,“绝对”会对那些窃取数据的人采取法律行动:“(乐观地)从现在起两到三年后,期待在法庭上见到他们。”
不管“付费订阅添柴加火”的猜想是否是小人之心,马斯克高举用户隐私大旗或许多少有些自私。 今年4月,有传言称马斯克将成立新的人工智能公司X.AI来与之对抗。 如果你真的想训练一个大的语言模型,的用户数据当然只适合你自己。
不管怎样,平台主动限流都是可以的。 马斯克已经准备好与AI初创公司决一死战。
乙
就在马斯克出手限制整个平台流量的时候,AICG热潮的“发起者”和创造者却卷入了集体诉讼。
该诉讼由美国加州北区地方法院提起,共有 16 名原告,全部匿名,均为个人。 诉状很长,足有157页,开头是斯蒂芬·霍金的一句话:“强大人工智能的崛起要么是人类历史上最好的事情,要么是最糟糕的事情。” 它向微软注资了数百亿美元。
核心指控是,当它使用从互联网收集的数据“训练其技术”时,侵犯了“无数个人的版权和隐私”。
起诉书称,该公司从互联网上秘密抓取 3000 亿字并窃听“书籍、文章、网站和帖子,包括未经同意获得的个人信息”,违反了隐私法。 其中提到爬取大量网络数据,包括社交媒体中的数据。
他们还指出了一个专有的人工智能语料库,该语料库积累了大量的个人数据,包括来自帖子和链接到的网站的数据。
这是对训练模型的指控。 此外,原告还声称,用户与产品的交互以及产品中的隐私信息也被大规模非法访问和盗用。
这并不是它第一次在美国面临集体诉讼。 去年11月,程序员对微软、谷歌和微软发起集体诉讼,指控他们涉嫌违反开源许可,并使用他们贡献的代码来训练专有的AI工具。
当时还没有上线,但现在回想起来,当时AI训练的问题就已经暴露出来了。 如今,最新的集体诉讼针对的是更广泛的用户和更广泛的被侵犯的人(基本上都是受害者)。 更重要的是,在AIGC的疯狂之下,任何法律先例都可能影响未来。
代理该案的克拉克森公共利益律师事务所在一份声明中称,该集体诉讼是“具有里程碑意义”的联邦案件,也是对整个人工智能领域的警告。
从这个角度来看,肩上的担子确实很重。
由于数据抓取和隐私安全,造成了很多麻烦,而平台的锁定和用户翻脸只是冰山一角。
在欧洲,许多国家都对此进行了调查。 即使在今年4月,意大利也因担心违反欧洲数据保护法而被暂时禁止。
整个人工智能领域的监管正在推进。 法国于5月启动了人工智能行动计划。 其中,在AIGC方面,法国隐私监管机构特别关注一些AI模型从互联网收集数据并构建数据集来训练大型语言模型的做法。
其中最重要的是欧盟人工智能监管法案(EU AI Act),目前该法案已进入最后阶段。 该法案很可能成为全球人工智能治理的典范。
C
平台、用户、监管,三股力量已形成围攻,誓要尽快为AIGC建立规则,从大规模模型训练的起点开始。
一方面,时间已经不多了,AIGC 发展得太快了。
我们不知道马斯克所说的“估值高得离谱的人工智能初创公司”指的是谁。 但这话一出,确实引起了不少点击。 毕竟AIGC领域融资一波又一波,都是游资。
初创公司中,估值近300亿美元,总融资规模113亿美元。 它是 AIGC 中最富有的; 然后是第二富豪,估值超过40亿美元。 日前,其以13亿美元融资震惊硅谷,估值已达40亿美元,而且成立仅一年多。
大事件可能还没有到来。 它使用自己的大语言模型。 此次获得13亿美元,并宣布将建造2.2万颗 H100芯片,打造全球最大的人工智能集群。 如此大规模的计算能力,目标参数和数据集的数量必然是惊人的。
另一方面,事实证明,当暴露出问题的时候,想要“修复”就没那么容易了。 几代大型语言模型,GPT-2数据集有40GB文本,GPT-3(即发布时使用的模型)训练数据有570GB。 至于今年发布的GPT-4,数据集的大小根本没有透露。
从一开始就没有正确记录大量数据。 谷歌前研究科学家 Nicia 在接受采访时表示,科技公司不会跟踪他们如何收集或注释人工智能训练数据,甚至数据集中的内容。
所做的事情就像一个黑匣子,而且是建在密室里的黑匣子。 现在需要透明且保护隐私,例如列出爬取了哪些数据,解释在使用过程中将如何使用,以及根据用户的要求删除某些数据。 这条数据其实是非常困难的。
对于网民和监管者来说,还有一个不可忽视的原因——在社交媒体发展壮大的年代,个人网络数据保护意识还处于萌芽阶段,到了应战之时却发现:它已经错过太多了。
当扎克伯格 2018 年首次出席国会时,他的社交媒体平台已经存在 14 年了。 当时,它陷入了“剑桥丑闻”,该公司首席技术官表示,8700万用户受到影响。 这也是数据抓取造成的一个大错误。
今年5月奥特曼出席美国国会听证会时,国会议员频频对自己在社交媒体时代的缺乏行动表示遗憾。
一个又一个,大模型还在训练,数据采集就是一个线程。 只有抓住了它,我们才有希望理清AIGC的困惑。
参考:
1、新浪科技:《马斯克和微软杠上了?微软指责微软非法使用其数据》
2、黑马程序员:“这些程序员被起诉了!” 要求赔偿649亿”
3、界面新闻:《欧盟人工智能法案出炉,企业能打多少分,核心争议是什么?》 ”
4、腾讯科技:“对数据的渴求有正有负?多国指责其违反数据保护法”
5、网易科技:“意大利恢复上线但监管麻烦才刚刚开始”
免责声明 ① 本网所刊登文章均来自网络转载;文章观点不代表本网立场,其真实性由作者或稿源方负责 ② 如果您对稿件和图片等有版权及其他争议,请及时与我们联系,我们将核实情况后进行相关删除 ③ 联系邮箱:215858170@qq.com