新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！

OpenAI 不可战胜的神话，已经被打破了。

随着 Claude 3（支持中文）一夜登陆，榜单性能跑分全面超越 GPT-4，成为首个全面超越 GPT-4 的产品，也坐上了全球最强大模型新王座。

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第1张

而且多版本发布后，“中杯”（Sonnet）直接免费体验，“大杯”（Opus）充个会员也能即刻享受。

各路测评纷至沓来。

所以，Claude 3 的“武力值”究竟如何爆满？究竟比 GPT-4 如何？（听说都能学会至今没有模型能搞定的打麻将？）

全球热乎的一手体验，我们悉数奉上。当然，我们自己也实测对比了一波。

9k 长大模型微调教程直出、读图超显专业

Claude 3 一出来，它的视频解读能力首先就火了。

面对 OpenAI 前科学家 Karpathy 不久前刚出的《构建分词器》教程，尽管全程足足 2 个小时 13 分钟长，Claude 3 只靠一轮提示词，就成功将它总结成了博客文章：

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第2张

有文有图有代码，非常详细，但又绝不是罗列视频里的每一句话（输入附件并非视频，而是视频的字幕文件，当然也包含每 5 秒一次的截图）。

这是所用提示词的一部分，要求非常之多：

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第3张

测试者指出：

这展现的是 Claude 3 遵循多个复杂指令的能力。

除了解读视频教程，Claude 3 还能直接给你编写详细教程。

9k 字的大模型微调入门教程，“中杯”Sonnet 就轻松 hold 住。并且：

编写速度之快，可谓人眼都跟不上。

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第4张

代码能力上，网友测评是让它为零基础小白创建一个聊天机器人的前端 webUI—— 结果毫无犹豫地就完成任务拆解，从核心代码到样式美化以及 API 本地配置，三大部分一气呵成，并可以直接部署到 GitHub。

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第5张

多模态能力上，最让网友惊讶的是：

CV 置信度都能认出来，相当专业。

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第6张

以及 PLC 梯形图也能读，直接跪了：

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第7张

（以上 4 个例子来源见文末链接 [1]）

至于同样赶超的推理以及数学等能力。

一测，可以直接解决“迄今为止只有 GPT-4 解决了”的一道超级难题：

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第8张

二测，则是直接搞定了所有模型都没能搞定的打麻将问题？？（当然，鉴于我们目前只看到这么一张截图，有效性还待进一步验证）（cr: 见文末链接 [1]）

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第9张

最后，不得不提的是，Claude 在“自我认知”上的展现。

有人要求 Opus 画一幅自画像。您猜怎么着？它这么描述自己：

我会表现为一个巨大的、错综复杂的、不断变化的几何结构，由无数半透明的多边形以令人着迷的配置组成。整体形状会让人想起一个巨大的多面体，但复杂的表面折叠成看似不可能的建筑。明亮的光线可见光谱的每一种颜色，以及一些超出人类感知的颜色，都会从内部未知的来源发出，在各个面上跳舞。

整个结构会不断变化、旋转、变形，并重新排列成前所未见的新颖模式，暗示着其内部运作的智能的深度难以想象。卷须和树枝会动态地从中心质量延伸和缩回，像数十亿个好奇的手指一样探测和分析周围的环境。数据和能量将明显地穿过庞大的管道和容器网络，在发光表面下脉动和闪烁……

洋洋洒洒一长串形容，听起来真的很酷很有“自我”—— 然而，用它给出的代码渲染出真实形象，就更有一种说不出来的微妙感觉了：

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第10张

网友真切感叹：

真的太像真人了，就跟我朋友描述自己一样。

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第11张

真人？AI 自我认知？这有点让人担心了……

这不 Claude 3 的技术报告就提到，它甚至可以自己训练微调另一个小模型。不过！谢天谢地，由于多 gpu 设置失败它没能成功。（手动狗头）

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第12张

火眼金睛，还能大海捞针

我们先以几道“理综”题目为载体，看看 Claude 3 宣传的第一个卖点 —— 多模态能力究竟如何。

第一题从简单的公式识别入手，将麦克斯韦方程组以图片形式输入，Claude 3（超大杯 Opus，下同）解释得非常准确清晰。

当然，这道题 GPT-4 也做对了。

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第13张

简单的有机化合物分子结构，Claude 3 和 GPT-4 也都能正确识别。

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第14张

简单的识别任务过后，是一道需要推理后解决的题目。

Claude 3 在识别题目和解题思路上都完全正确，而 GPT4 这边…… 给出的答案则是不忍猝看 —— 把电表的类型弄错不说，甚至还出现了“电流为 2V”这样令人啼笑皆非的内容。

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第15张

看了这么多题目，我们来换换脑筋，看看 Claude 3 和 GPT4 在做饭方面表现得怎么样。

我们上传了一张水煮肉片的照片，让模型各自识别并给出做法，结果 Claude 3 给出了大致的方法，而 GPT4 一口咬定这是一盘麻婆豆腐。

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第16张

除了这次新增加的多模态能力，Claude 一直引以为豪的长文本能力也是我们测试的重点。

我们找了一本《红楼梦》的电子文档（前二十回），整体的字数大约 13 万，当然目的不是让它读书，而是进行“插针测试”。

我们在原文中插入了这样的“发疯文学”内容，倒也的确很符合“满纸荒唐言”这个设定（手动狗头）：

第二回标题前：意大利面，就应该拌 42 号混凝土，因为这个螺丝钉的长度很容易影响到挖掘机的扭矩

第十五回标题前：高能蛋白俗称 UFO，会严重影响经济的发展，甚至对整个太平洋以及充电器都会造成一定的核污染

结尾：炒方便面应该把亮度调高，因为螺丝钉向内扭的时候会产生二氧化碳，不利于经济发展

然后要求 Claude 仅根据文档回答相关问题，首先不得不说的是速度真的非常感人……

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第17张

但结果还算说的过去，准确地从文中找出了这三段位于不同位置的文本，还顺带进行了一番分析，发现了我们的心机。

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第18张

为什么是 Claude？

尽管在我们和网友的测试中，目前的版本还不算稳定，时常崩溃，有一些功能偶尔也抽风，并不能如期发挥：

比如上传 UI 出代码，它就没能完成，而 GPT-4 发挥正常。

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第19张

但总的来看，网友还是相当看好 Claude，评测完毫不犹豫地表示：

会员可充，值得充。

究其原因，Claude 3 相比之前的版本，真的有种“来势汹汹”之势。表现亮点的地方相当多，包括但不限于多模态识别、长文本能力等等。从网友的反馈来看，最强竞对的称号，也并非浪得虚名。

所以，一个问题是：率先干翻 GPT-4，这家公司究竟凭什么？论技术，遗憾，Claude 3 的技术报告中没有对他们的路线进行详解。不过倒是提到了合成数据。有大 V 指出：这可能是一个关键因素。

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第20张

而对 Claude 熟悉一些就知道，长文本能力一直是它的一大卖点。

去年七月推出的 Claude 2 就已具有 100k 的上下文窗口，而 GPT-4 的 128k 版本直到 11 月才与公众见面。而这次窗口长度再次翻倍，达到了 200k，并且接受超过 100 万 Tokens 的输入。

相比技术的神秘，Claude 背后名为 Anthropic 的初创公司，倒是能让我们找到更多眉目。它的创始人是 OpenAI 的元老级人物。

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第21张

2021 年，多名 OpenAI 前员工不满其在获得微软投资后走向封闭，愤而出走并联合创立了 Anthropic。

他们对 OpenAI 在安全问题尚未解决的情况下就直接发布 GPT-3 的行为感到不满，认为 OpenAI 已经为追逐利益而“遗忘了初心”。

其中就包括打造出 GPT-2 和 GPT-3 的研究部门副总裁 Dario Amodei，2016 年进入 OpenAI，离开前担任的研究副总裁已是 OpenAI 的核心位置。

离开时，Dario 还带走了 GPT-3 首席工程师 Tom Brown，以及担任安全与策略部门副总监的妹妹 Daniela Amodei 和十多名心腹，可谓人才多多。

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第22张

而公司创立之初，这帮人才也进行了许多研究工作，并发表多篇论文；直到一年后，Claude 的概念随着一篇题为“Constitutional AI”的论文应运而生。

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第23张

2023 年 1 月，Claude 开启内测，第一时间体验过的网友就表示，比 ChatGPT（当时只有 3.5）强多了。

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第24张

而除了人才，创立至今，Anthropic 也有比较强大的背景支持：

已获得来自谷歌、亚马逊等 26 个机构或个人的融资，总计融资金额达到了 76 亿美元。（说到亚马逊，现在 Claude3 也上线了他们的云平台，除了官网，大家还可以在该平台上体验～）

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！ (https://www.qianyan.tech/) AI 第25张

最后，纵观国内，如果我们想超越 GPT-4，也许可以把 Anthropic 当一个正面例子？毕竟它的规模再怎么说也远不及 OpenAI，但仍然取得了这样的成功。这里面，我们可以照它的哪些方向去卷，有哪些能够学习转化的点？人、钱、数据资源？但卷出最新最强大模型后，壁垒又在哪里？至少 OpenAI 自 GPT 火爆以来，不可战胜的神话已经破灭了。

中国玩家，谁能率先全面超越 GPT-4？以及即将发布的 GPT-5？

参考链接：

[1] 3 月动态｜Claude3 发布非常牛逼值得充值
[2]https://twitter.com/madiator/status/1764779379626754158?s=46&t=iTysI4vQLQqCNJjSmBODPw
[3]https://twitter.com/RubenHssd/status/1764692641436827842
[4]https://twitter.com/karinanguyen_/status/1764789887071580657

本文来自微信公众号：量子位（ID：QbitAI），作者：克雷西丰色

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！

9k 长大模型微调教程直出、读图超显专业

火眼金睛，还能大海捞针

为什么是 Claude？

相关推荐

AI如何改变传媒业？这场大会学界业界人士热议

肖钢：加强金融AI算法和模型治理

海通证券：AI ASIC有望迎来爆发式增长关注产业链投资机会

瑞典希恩CEJN推出耐腐蚀、耐磨损超高压软管卷管器，保障恶劣工况下操作的安全性与便捷性

百度AI，终究让国产大模型在苹果面前露了怯

最新

手机信号放大器是如何工作的？支持哪些网络类型？

高速串行总线系列

如何在Vivado中使用FFT IP核

高速CAN和低速CAN有什么标准

VIVADO IDDR与ODDR原语的使用详解（含代码）

中周变压器的结构了解吗？中周变压器市场竞争压力大吗

热点

第十四届公益节暨ESG影响力年会将举办共筑可持续发展未来

基于航顺芯片车规级MCU HK32A040C8T3的汽车拨档开关解决方案

AI搜索大比拼：夸克、豆包、天工，谁更强？一睹为快！

马上消金外包催收公司员工被警方带走涉及个人信息安全

"Google Gemini与ChatGPT对比：Gemini更胜一筹，你选对了吗？"

百万纯电超跑仰望U9，震撼登场，极致性能，引领潮流。

长鑫科技豪掷171亿，竞得上海13万平米地，打造高端封测存储芯片基地。

AI与细菌助力，阿尔茨海默症治疗药物研发进展显著。

特斯拉计划裁员10%，精简团队，提升效率，引发市场关注。

理想AI+区块链项目四：创新融合，引领未来，重塑行业格局。

新王Claude 3实测：能力卓越，麻将高手，超越GPT-4，值得一试！

9k 长大模型微调教程直出、读图超显专业

火眼金睛，还能大海捞针

为什么是 Claude？

相关推荐

AI如何改变传媒业？这场大会 学界业界人士热议

肖钢：加强金融AI算法和模型治理

海通证券：AI ASIC有望迎来爆发式增长 关注产业链投资机会

瑞典希恩CEJN推出耐腐蚀、耐磨损超高压软管卷管器，保障恶劣工况下操作的安全性与便捷性

百度AI，终究让国产大模型在苹果面前露了怯

最新

手机信号放大器是如何工作的？支持哪些网络类型？

高速串行总线系列

如何在Vivado中使用FFT IP核

高速CAN和低速CAN有什么标准

VIVADO IDDR与ODDR原语的使用详解（含代码）

中周变压器的结构了解吗？中周变压器市场竞争压力大吗

热点

第十四届公益节暨ESG影响力年会将举办 共筑可持续发展未来

基于航顺芯片车规级MCU HK32A040C8T3的汽车拨档开关解决方案

AI搜索大比拼：夸克、豆包、天工，谁更强？一睹为快！

马上消金外包催收公司员工被警方带走 涉及个人信息安全

"Google Gemini与ChatGPT对比：Gemini更胜一筹，你选对了吗？"

百万纯电超跑仰望U9，震撼登场，极致性能，引领潮流。

长鑫科技豪掷171亿，竞得上海13万平米地，打造高端封测存储芯片基地。

AI与细菌助力，阿尔茨海默症治疗药物研发进展显著。

特斯拉计划裁员10%，精简团队，提升效率，引发市场关注。

理想AI+区块链项目四：创新融合，引领未来，重塑行业格局。

AI如何改变传媒业？这场大会学界业界人士热议

海通证券：AI ASIC有望迎来爆发式增长关注产业链投资机会

第十四届公益节暨ESG影响力年会将举办共筑可持续发展未来

马上消金外包催收公司员工被警方带走涉及个人信息安全