“数据小偷”网络爬虫机器人用于收集数据用于大模型训练

2023-08-10 18:01:23

财经新闻网消息：gRS财经新闻网

①最近承认推出了一款名为的网络爬虫机器人，用于抓取和收集数据以进行大型模型训练；gRS财经新闻网

② 表示将严格遵守任何付费专区的规则，不会捕获需要付费的信息，也不会收集可追踪个人身份的数据；gRS财经新闻网

③这似乎并不能恢复公众对大车型第一公司的信任。gRS财经新闻网

数据、算力、算法被视为生成式AI的三大核心要素，很难说哪个更重要。gRS财经新闻网

然而，对于这样的明星公司来说，算力基本上是一个经济问题。大公司凭借“有钱能力”囤积了大量昂贵的硬件，数据稀缺的问题更是让人头疼。总是让他们陷入道德危机。gRS财经新闻网

_微信公众号反爬虫机制_怀疑女朋友出轨但她不承认 gRS财经新闻网

例如，其获取公共数据来训练人工智能模型的行为长期以来一直备受争议。据国外科技媒体最新报道，其近日承认推出了一款名为的网络爬虫机器人，用于爬取和收集数据以进行大规模模型训练。gRS财经新闻网

▌涉嫌“数据窃贼”gRS财经新闻网

网络爬虫是一种模拟人类（网络用户）行为，自动浏览和收集网络信息的计算机程序。网络爬虫可以保存其访问的数据，数据抓取器分析并重用这些数据，推断互联网用户的偏好，然后将其推送到匹配的用户群体。gRS财经新闻网

_微信公众号反爬虫机制_怀疑女朋友出轨但她不承认 gRS财经新闻网

目前尚不清楚该机器人在网上潜伏了多久，一些人怀疑它已经秘密收集每个人的在线数据数月或数年。gRS财经新闻网

面对此类“指控”，该公司积极为自己辩护，表示将严格遵守任何付费专区的规则，不会捕获需要付费的信息，也不会收集可追踪个人身份的数据。gRS财经新闻网

此外，还推出了封锁方法。用户可以修改他们的.txt文件，或者屏蔽他们的IP地址，并拒绝爬虫的访问。该公司最近还宣布与美联社达成协议，支付人工智能训练数据所需的美联社内容费用。gRS财经新闻网

怀疑女朋友出轨但她不承认_微信公众号反爬虫机制_ gRS财经新闻网

▌失去的信任gRS财经新闻网

作为一种数据收集手段，爬虫技术本身并无合法与非法之分。然而，对其爬虫工具进行限制的举措似乎并不能恢复公众对这家模范大公司的信任。gRS财经新闻网

老牌科幻杂志《克拉克世界》主编、雨果奖得主尼尔·克拉克（Neil）表示：“而其他大型模型公司已经多次表明他们不尊重作者、艺术家的权利和其他创意人士。主要基于他人的受版权保护的作品。”gRS财经新闻网

他还举了一个例子，CCBot是Crawl组织运营的另一款爬行机器人。 Crawl是目前人工智能模型训练数据的主要供应商。 “据我所知，还没有人成功要求 Crawl 删除数据，”Clark 说。 “我试过了，但是没有任何反应。”gRS财经新闻网

另一方面，普通人在与大公司对抗时往往处于劣势。正如克拉克所说，如果像美联社这样的大公司愿意为他们的数据付费，为什么不为其他人的信息付费呢？ “我询问过，但没有得到答复。”gRS财经新闻网

然而克拉克本身却站在相反的一边。他创立的“克拉克世界”正面临着人工智能生成内容的洪流。克拉克曾指出，去年底开刊后，AI产生的垃圾投稿激增，检测此类作品的成本很高，期刊暂时暂停了征稿。gRS财经新闻网

_怀疑女朋友出轨但她不承认_微信公众号反爬虫机制 gRS财经新闻网

▌结论gRS财经新闻网

此前，其曾因版权问题被多方起诉，包括克拉克森律师事务所推动的集体诉讼，以及包括畅销书作家保罗·特伦布莱（Paul）、莫娜·阿瓦德（Mona Awad）等名人的实名诉讼。）。gRS财经新闻网

随着生成式AI技术的进一步迭代，类似的争议只会越来越多。gRS财经新闻网

大公司更容易成为舆论批评的对象。即使他们敢于承担责任，要实现数据采集完全合规也不容易。由于参数数量巨大，大型模型需要借助分布式计算、云服务等技术进行训练和部署，这增加了数据被盗、篡改、误用或泄露的风险。gRS财经新闻网

如何平衡个人隐私保护与鼓励技术创新，如何在企业生存与合规生产之间找到最优路径，已经是每个致力于生成人工智能的企业都无法回避的问题。gRS财经新闻网

免责声明 ① 本网所刊登文章均来自网络转载;文章观点不代表本网立场,其真实性由作者或稿源方负责 ② 如果您对稿件和图片等有版权及其他争议,请及时与我们联系,我们将核实情况后进行相关删除 ③ 联系邮箱:215858170@qq.comgRS财经新闻网

全部评论

互联网金融相关排行