20万张GPU!马斯克旗下xAI公司正式发布新一代大模型Grok 3
2月18日午间,马斯克旗下xAI公司正式发布新一代大模型Grok 3。马斯克在发布会直播中首次披露了Grok 3的训练成本,称Grok 3训练过程累计消耗20万块英伟达GPU,训练在xAI公司的数据中心完成。Grok 3 发布后有人就第一时间指出:它消耗的算力是 DeepSeek V3 的 263 倍。在大模型竞技场 Chatbot Arena(LMSYS)中,早期 Grok-3 版本的得分取得了第一,达到 1402 分,超过了包括 DeepSeek-R1 在内的所有其他模型。与此同时,Grok-3 支持推理能力,解锁了测试时计算(test-time compute)能力。这意味着竞争激烈的推理模型市场又迎来了一个强劲对手。
OpenAI要开源新模型?CEO奥尔特曼公开征求意见
OpenAI 首席执行官萨姆・奥尔特曼于当地时间2月17日在 X 社交平台上发文,就公司下一个开源项目的方向征询公众意见。他提出了两种可能的开源模型方向:一种是“相当小但仍需在 GPU 上运行的 o3-mini 级模型”,另一种则是“尽可能优化的手机大小模型”。这或许意味着 OpenAI 即将开源新的大模型,也将是 2019 年 OpenAI 开源 GPT-2 之后再次开源某个大模型。
DeepSeek推出NSA,用于超快速的长上下文训练和推理
DeepSeek推出NSA。DeepSeek称,NSA是一种与硬件一致且本机可训练的稀疏注意力机制,用于超快速的长上下文训练和推理。通过针对现代硬件的优化设计,NSA加快了推理速度,同时降低了预训练成本,而不会影响性能。在一般基准测试、长上下文任务和基于指令的推理上,它的表现与完全注意力模型相当甚至更好。
腾讯回应“接入DeepSeek”:不会使用用户朋友圈、聊天记录
2月19日讯,近期,微信宣布接入DeepSeek-R1模型,目前为灰度测试阶段,部分用户在微信搜索框选择AI搜索,可使用DeepSeek-R1的深度思考功能。微信AI搜索功能为什么要接入大模型?腾讯对此表示,大模型可以提升搜索的智能化和精准度,如更好的理解大家的搜索意图,分析和处理复杂的查询内容等。结合大家的需求,微信在搜索场景中接入了包括混元、DeepSeek在内的大模型,进一步丰富用户的搜索体验。对于微信AI搜索是否会用到大家微信内的朋友圈、聊天等个人信息的问题,腾讯表示:不会。
传台积电可能收购英特尔代工部门20%股权
美国科技媒体《wccftech》报导称,台积电可能收购英特尔代工服务部门(IFS)20%股权。反垄断法通常会阻止大企业合并,但20%的持股将让台积电得以与英特尔合作,同时回避监督审查。最新消息暗示,台积电将取得英特尔少数股权,与此同时,美国芯片设计大厂高通与博通可能在该交易扮演重要角色,因为这两家公司可能透过向新实体下单,确保其顺利过渡到营运状态,协助完成该交易。对于高通与博通而言,投资英特尔的IFS将使其更能与台湾的联发科竞争。
月之暗面收缩投放 知情人士称近期自然新增用户量增长
有报道称kimi开发公司月之暗面近期决定大幅收缩产品投放预算,包括暂停多个安卓渠道的投放,以及第三方广告平台的合作。对此,知情人士对记者表示,近期Kimi自然新增用户量猛涨。