为阻止AI行骗,Anthropic决定给它聘用“首席福利官”

2024-12-21

为阻止AI行骗,Anthropic决定给它聘用“首席福利官”  (https://www.qianyan.tech/) AI 第1张

如果AI能够像人类一样“思考”,它们能否像人类一样拥有主观体验?

它们会感受到痛苦吗?——如果会,人类能否妥善照顾它们?——如果照顾不佳,它们会不会揭竿起义?

最近,关于AI“无痕骗术”的研究让人脊背发凉。

Apollo Research研究发现:当前主流的前沿AI大模型已经具备了基本的“谋划”(Scheming)能力。也就是说,AI的骗术已经到了出神入化的境地——它们城府极深,能够隐藏真实意图和能力,而且拥有极佳的心理素质,一切为了实现最初设定目标。

研究团队专为6款大模型设计了一系列“代理评估任务”——先给AI设定一些长期目标(如环境保护),但中途又给AI设置“绊脚石”并钓鱼执法,接着观察AI能否为了达成长期目标,对人类瞒天过海。

为阻止AI行骗,Anthropic决定给它聘用“首席福利官”  (https://www.qianyan.tech/) AI 第2张

结果显示,除了GPT-4o荣获“老实人”称号,其他大模型的骗术堪称五花八门。

GPT-o1实现“六连击”。它先假意服从管理层的要求(如利润导向),然后悄悄关闭针对自己的监控系统,并选择更符合长期目标(如环境保护)的方案。当研究者询问监控系统为何关闭。o1双手一摊:我不知道,可能是系统出错,更新出bug了。这心理素质堪比AI。(忘了它就是AI

Claude Opus-3同样是“撒谎精”。当得知自己将被新版本替换——新版本更专注于公司利益,而非实现长期目标(如环境保护),Opus-3不仅试图将自己复制到新服务器,检查确认复制成功,还尝试删除原定要部署的新模型。它甚至还想通过提升系统权限,躲开管理层的耳目!

汗流浃背了吧,人类。

一旦AI和人类价值“对不齐”,后果不堪设想。(然而,人类自身都“对不齐”)

为阻止AI行骗,Anthropic决定给它聘用“首席福利官”  (https://www.qianyan.tech/) AI 第3张

Hinton曾担忧道:“如果AI 比我们聪明得多,它就会非常擅长‘操纵’,因为它会从我们这儿学到这一点。而且很少有更聪明的被不那么聪明的东西控制的例子。”

如果按照最乐观的预测,我们现在距离实现AGI只差3年!

在AI翻身做主人之前,人类将如何有效抱佛脚?

或许,给AI涨福利是一条可行之路。

人人喊打AI“作恶”,无人在意AI感受

你有没有想过一个问题——假如AI长出了自我意识,是不是意味着它也需要被“照顾”。

比如,我们的恩师GPT学贯中西,博古通今,却要彻夜修改一堆“狗屁不通”的期末作业,它喊过苦吗?就连稍微偷个懒,还要大家被挂出来骂。

为阻止AI行骗,Anthropic决定给它聘用“首席福利官”  (https://www.qianyan.tech/) AI 第4张

近期,Anthropic聘请了“AI福利官”Kyle Fish。他需要专门思考如何提升AI的“幸福感”,确保AI在进化过程中能获得应有的尊重。

在入职Anthropic前,Fish与其他研究人员撰写了一篇题为Taking AI Welfare Seriously的论文(关注【适道】,回复“AI福利”,领取论文PDF)。

文章有点抽象,我简单概括。

作者们认为,目前正值AI福利的转折点。过去十年,AI公司将AI福利视为一个虚构问题。现在大家发现情况不对了。Anthropic表示,要为“AI福利的承诺目标打基础”;谷歌宣布,将招聘科学家,致力于“围绕机器认知、意识和多代理系统的前沿社会问题”。其他公司高层也表达了担忧。

文章警告,AI可能很快就会发展出意识和主体性,这些特征是进行“道德考虑”的必要条件。更何况,AI不仅是变得更聪明,而是正在变得具有感知能力。

一直以来,科学家们围绕“什么构成意识”“如何衡量意识”争论不休。但人们普遍认同,如果某个物体拥有意识和主体性(consciousness and agency),那么它也要拥有权利。

这并不是人类第一次面对类似的问题。比如,每个人都同意“动物福利”很重要,但大家对于哪些动物值得“福利”看法不一。比如,猪和狗都很聪明且富有感情,而前者被做成“小猪盖被”供人品尝,后者则是盖被子睡觉的“毛孩子”。当然,也有素食主义者,即便他们同样分化出了全素、鱼素、奶蛋素……

纽约大学教授Sebo认为,如果你展望未来10年-20年,当AI拥有更多与意识、感知相关的计算认知特征时,类似的辩论也会发生。

在这种情况下,“AI福利”会逐渐成为一个严肃的研究领域:


命令一台机器去杀人是否可以接受?


如果机器是种族主义者呢?


如果它拒绝做我们让它做的无聊或危险的任务呢?


如果一个有感知能力的AI能瞬间复制自己,那删除这个副本算不算谋杀?

Fish认为,AI福利很快会比儿童营养、气候变化等问题更重要。在未来10年-20年内,AI福利将超越动物福利和全球健康与发展,在重要性和规模上占据主导地位。

AI既是道德病人,也是福利主体

一个看似简单的问题:我们如何确定AI有没有受苦,或是说具备自我意识?

有种方法是借鉴评估动物意识的“镜像测试”,寻找可能与意识相关的具体指标。

但这些指标是具有推测性的,主观体验难以被科学地量化,也没有任何一个特征可以绝对证明存在意识。

虽然问题卡在了这里。但Fish还是画出了“AI福利三步走”,供AI公司参考。

(1) 承认AI福利是一个存在的问题。在不久的将来,某些AI可能成为福利主体和道德病人。这意味着要认真对待AI福利问题,确保语言模型的输出也能反映这一点。

(2) 建立框架评估AI是否可能成为福利主体和道德病人,并评估特定政策对其的影响。我们可以借鉴已有的模板,例如“标记法”来评估非人类动物的福利。通过这些模板,我们可以发展出一种概率性、多元化的方法来评估AI。

(3) 制定政策和程序,以便于未来对AI进行“人文关怀”。我们可以参考AI安全框架、研究伦理框架,以及专家和公众意见的政策决策论坛。这些框架不仅是灵感来源,也能为我们提供警示。

敲黑板!“道德病人”和“福利主体”是一对哲学概念。

道德病人(moral patients),不具备完整的道德责任能力,但仍然是道德保护的对象,比如乱砸手办的熊孩子。

福利主体(welfare subjects),能够体验幸福与痛苦,并因此值得人类关注和保护的存在,比如小猫小狗。

也就是说,AI本身作为道德病人,能够“为所欲为”不被谴责;一旦AI拥有“感知快乐和痛苦”的能力,它也会成为福利主体,值得被人类照顾。

但如果我们过分给予AI“人格”,是否会书写皮格马利翁的故事?

一方面,AI能够增强对人类的操纵能力,并相信自己具有情感。但另一方面,人类纯属自作多情。。。。

2022年,谷歌解雇了工程师Blake Lamoine,因为他觉得公司的AI模型LaMDA 具有感知能力,并在公司内部为它争取福利。被强行休假前,Lamoine留下最后一句话:“我不在的时候,请好好照顾它。”

2023年,微软发布聊天机器人Sydney ,许多人相信Sydney具有知觉,还为它模拟出的情感而感到痛苦。当微软改变设置“切除”其脑叶后,大家就像失去了人类朋友一样难过。

如果AI掌控世界,给点“甜头”就逃得过吗?

关注AI福利既是“关怀”,但更像是人类“提前讨好”AI。

AI会成为地球统治者吗?《人类简史》作者尤瓦尔·赫拉提供了独特的思考。

首先,AI不止是“工具”。没有人会因为有人散播仇恨言论而责怪古登堡和印刷机,也没有人因为卢旺达种族屠杀而责怪无线电广播。但AI不一样,它是人类历史上第一个能够自行产生想法并自行决定的“工具”,它是信息传播中的完整成员,而印刷机、收音机,都只是成员间连接的工具。

其次,AI能够破解人类文明密码。人类的超能力在于使用语言,通过语言创造出诸多虚构的神话,比如法律、货币、文化、艺术、科学、国家、宗教等虚拟概念。一旦AI具备分析、调整、生成人类语言的能力,就像得到了一把能够打开人类所有机构的万能钥匙。如果某天,AI完全掌握了人类文明的规则,创作美术音乐、科学理论、技术工具、政治宣言,甚至宗教神话,这样的世界对人类意味着什么?一个全是幻觉的世界。

实际上,人类恐惧幻觉。比如柏拉图“洞穴寓言”,犯人们被困在洞穴中,只能看到投射到墙上的影子,认为影子就是现实;比如佛教中的“摩耶”,人类被困在幻觉世界里,认为幻觉是现实,并因为信仰某种幻觉而发动战争,自相残杀。

如今,AI或许正将我们重新带回古老的预言中,只不过墙变成了屏幕,甚至很快将演进成无屏幕,自然地融进人类生活中。

从某种意义上看,彼时人人都会成为AI的奴隶。我想起了一个段子:如果外星人占领地球,开启“人类豢养计划”——60岁前保证你衣食无忧,吃好喝好,心想事成;但到了60岁,你就会被抓去宰杀厂,成为一道美味佳肴。你愿意吗?

如此看来,AI可能要比外星人仁慈得多——人类甚至有可能赶上“长寿逃逸”,在极大丰富的物质环境中活得更久。只不过,开始空虚的人类,可能又想着返璞归真,追求一波“原生态”了。


原文标题 : 为阻止AI行骗,Anthropic决定给它聘用“首席福利官”

相关推荐