机器人管理公司 Kasada 和机器人监控公司 Dark Visitors 的研究显示,字节跳动的 Bytespider 抓取网络数据的速度比 OpenAI 用于 ChatGPT 平台的网络抓取工具 GPTbot 快 25 倍。它的抓取速度也比 Anthropic 用于其 Claude 平台的抓取工具 ClaudeBot 快 3000 倍。
抓取狂潮
据《财富》报道,自首次亮相以来,Bytespider 的活动只增不减,过去六周内抓取量明显飙升。
字节跳动似乎正试图快速收集尽可能多的数据,以赶上Google、Meta 和 OpenAI 等其他科技巨头,这些公司都使用网络爬虫收集大量在线数据来训练他们的大型语言和多模态模型(LLM 或 LMM)。
然而,与其他人工智能公司使用的一样,字节跳动的抓取工具并不遵守 robots.txt 文件,该文件旨在向抓取工具发出信号,避免从特定网站获取数据。
尽管 robots.txt 不具有法律强制力,但对它的忽视引发了争议,因为网络抓取通常被视为侵犯版权,特别是在用于训练人工智能模型时。
由于生成式人工智能工具严重依赖网络数据来运作,因此抓取数据已成为一个有争议的问题,许多个人和组织认为他们的作品被无偿复制。这种做法已经存在了几十年,主要针对搜索引擎,但人工智能的兴起带来了新的法律和道德问题。
字节跳动的 AI 努力
字节跳动积极抓取数据之际,该公司正受到严格审查,尤其是在美国。美国总统乔·拜登已签署立法,要求字节跳动出售 TikTok 或将其关闭,理由是出于国家安全考虑。
尽管如此,字节跳动似乎决心提升其人工智能能力。
字节跳动的抓取狂潮表明该公司正在开发一种新的大型语言模型。今年早些时候的报道表明,字节跳动在生成式人工智能竞赛中落后,甚至依赖 OpenAI 来帮助建立自己的模型,此举违反了 OpenAI 的服务条款。
2023 年初,字节跳动推出了基于聊天的 LLM 项目 Duabo,但该模型的开发在最近的数据收集工作之前就完成了。
字节跳动新AI项目的一个潜在应用是改进 TikTok 的搜索功能。TikTok 最近更新了其搜索功能,专注于广告关键词,让广告商可以实时定位热门词汇。借助基于最新网络数据训练的更强大的 AI 模型,TikTok 可以进一步增强其搜索功能,为目前依赖Google的广告商创造更具竞争力的环境。
快速的数据收集和人工智能的进步表明,字节跳动不仅渴望迎头赶上,而且有可能重塑搜索和人工智能的格局,尤其是在 TikTok 庞大的用户群的背景下。
如果成功,这些努力可能会让 TikTok 的搜索环境对希望通过精准、数据驱动的关键词和趋势吸引更多受众的广告商具有极大的吸引力。