d/acc一周年:防御加速的进展与AI监管思考

2025-07-13 03:48:13

d/acc:一年后的回顾

去年,我写了一篇关于技术乐观主义的文章,阐述了我对技术的热情,以及它能带来的巨大效益。同时也表达了对某些问题的谨慎态度,主要是关于超级智能AI及其可能带来的毁灭风险或不可逆的权力丧失。

文章的核心观点是倡导一种去中心化、民主且差异化的防御性加速理念。既要加速技术发展,又要聚焦于提升防御能力而非破坏能力的技术,并致力于分散权力,避免由少数精英代表所有人判断是非。防御模式应该像民主的瑞士,而非中世纪封建领主的城堡。

一年来,这些想法有了显著发展。我在"80,000小时"平台上分享了这些观点,收到了大多数积极的回应,也有一些批评。这项工作取得了实际成果:可验证开源疫苗领域有了进展;人们更认识到健康室内空气的价值;"社区笔记"继续发挥积极作用;预测市场作为信息工具迎来突破之年;零知识证明在政府身份识别和社交媒体领域得到应用;开源成像工具在医学和脑机接口领域获得应用,等等。

去年秋天,我们举办了首个重要的d/acc活动:"d/acc发现日"(d/aDDy),汇聚了来自d/acc各个领域(生物、物理、网络、信息防御和神经技术)的演讲者。长期致力于这些技术的人们更了解彼此的工作,外部人士也越来越意识到一个更宏大的愿景:推动以太坊和加密货币发展的价值观可以拓展到更广阔的世界。

d/acc的内涵与外延

d/acc的核心思想是:去中心化、民主且差异化的防御性加速。构建能够使攻防平衡向防御倾斜的技术,并且在实施过程中不依赖于将更多权力交予中央权威机构。这两个方面紧密相连:任何去中心化、民主或自由的政治结构,在防御易于实施时往往能蓬勃发展,而在防御困难时则会遭遇挑战。

理解同时实现去中心化、防御性和加速性重要性的一种方式,是将其与放弃这三个方面中的任意一个所产生的理念进行对比:

去中心化加速,但忽视"差异化防御"部分
差异化防御加速,但忽略"去中心化和民主"
去中心化防御,但排斥加速

通过d/acc,我们致力于实现以下目标:

在当今世界日益部落化的趋势下坚守原则,构建特定事物使世界变得更加安全、美好。
认识到指数级技术进步意味着世界将变得极为奇特,人类在宇宙中的"足迹"必然会不断增加。我们保护脆弱事物免受伤害的能力必须持续提升,唯一出路是勇往直前。
构建能够切实保护我们的技术,而不是基于"好人(或好的AI)掌控一切"的假设。我们通过构建在用于构建和保护时自然比用于破坏时更为有效的工具来达成这一目标。

思考d/acc的另一种视角是回归到21世纪00年代末欧洲海盗党运动的框架:赋权。我们的目标是构建一个能够保留人类能动性的世界,实现消极自由,即避免他人(无论是普通公民、政府,还是超级智能机器人)对我们塑造自身命运的能力进行积极干预,同时实现积极自由,即确保我们拥有知识和资源去践行这一能力。

难题:AI安全、紧迫时间线与监管困境

去年我的文章收到的最具说服力的反对观点来自AI安全社区。其论点为:"当然,如果我们有半个世纪的时间来发展强AI,我们可以集中精力构建所有这些有益的事物。但实际上,看起来我们可能仅有三年时间发展到通用AI,再过三年发展到超级智能。因此,如果我们不想让世界陷入毁灭或以其他方式陷入不可逆转的困境,我们不能仅仅加速有益技术的发展,还必须减缓有害技术的发展,这意味着需要通过可能会触怒权势阶层的强有力监管措施。"

对新监管持谨慎态度的理由:

去年,主要的AI监管提案是加州的SB-1047法案。它要求最强大模型(训练成本超1亿美元或微调成本超1000万美元)的开发者在发布前采取一系列安全测试措施。如果AI模型开发者未能足够谨慎,将对其追究责任。许多批评者认为该法案"对开源构成威胁";我对此持有异议,因为成本阈值意味着它仅影响最强大的模型。然而,回顾过去,我认为该法案存在一个更为严重的问题:如同大多数监管措施一样,它过度适应了当前的情况。对训练成本的关注在面对新技术时已被证明是脆弱的:近期最先进的DeepSeek v3模型的训练成本仅为600万美元,而且在像o1这样的新模型中,成本通常从训练更多地转移到了推理阶段。

最有可能对AI超级智能毁灭场景负责的行为者:

实际上,最有可能对AI超级智能毁灭场景负责的行为者是军队。正如我们在过去半个世纪的生物安全(及更早时期)中所目睹的那样,军队愿意采取一些可怕的行动,而且他们极易犯错。如今,AI在军事领域的应用正在迅速发展(如在乌克兰、加沙地区的应用)。并且,任何政府通过的安全监管措施,默认情况下都会豁免本国军队以及与军队密切合作的公司。

应对策略:

尽管如此,这些论点并非让我们束手无策的理由。相反,我们可以将它们作为指引,尝试制定引发这些担忧最少的规则。

策略1:责任

如果某人的行为以某种方式造成了可依法追究的损害,他们可能会被起诉。这并不能解决来自军队和其他"凌驾于法律之上"的行为者所带来的风险问题,但这是一种非常通用的方法,可避免过度拟合,正因如此,倾向于自由意志主义的经济学家通常支持这种做法。

到目前为止所考虑的主要责任目标如下:

用户:即使用AI的人。
部署者:为用户提供AI服务的中间人。
开发者:构建AI的人。

将责任归于用户似乎最符合激励机制。虽然模型的开发方式与最终使用方式之间的联系往往不明确,但用户决定了AI的具体使用方式。对用户追究责任会产生一种强大的压力,促使人们以我认为正确的方式使用AI:专注于为人类思维构建机械套装,而非创造新的自我维持的智能生命形式。前者会定期响应用户意图,因此除非用户希望,否则不会导致灾难性行动。而后者则存在最大的风险,即可能失控并引发经典的"AI失控"场景。将责任尽可能靠近最终使用端的另一个好处是,它最大限度地减少了责任导致人们采取在其他方面有害的行动的风险(例如闭源、了解你的客户(KYC)和监控、国家/企业勾结秘密限制用户,如银行拒绝为某些客户提供服务,将世界上大片地区排除在外)。

有一种经典的反对仅将责任归于用户的观点:用户可能是普通个人,没有太多钱,甚至可能是匿名的,这样就没有人能够实际为灾难性的损害买单。这种观点可能被夸大了:即使有些用户太小而无法承担责任,AI开发者的普通客户却不是,因此AI开发者仍然会受到激励,去构建能够让用户确信他们不会面临高责任风险的产品。也就是说,这仍然是一个有效的观点,需要加以解决。你需要激励管道中的某个有资源采取适当谨慎措施的人这样做,而部署者和开发者都是容易找到的目标,他们仍然对模型的安全性有很大影响。

部署者责任似乎是合理的。一个常见的担忧是它对开源模型不起作用,但这似乎是可以管理的,特别是因为最强大的模型很有可能是闭源的(如果结果是开源的,那么虽然部署者责任最终可能不是非常有用,但也不会造成太大危害)。开发者责任也存在同样的担忧(尽管对于开源模型,需要微调模型以使其做一些原本不被允许的事情存在一定障碍),但同样的反驳理由也适用。作为一般原则,对控制施加一种"税",本质上是说"你可以构建你无法控制的东西,或者你可以构建你能够控制的东西,但如果你构建你能够控制的东西,那么20%的控制权必须用于我们的目的",这似乎是法律体系应有的合理立场。

一个似乎尚未得到充分探索的想法是将责任归于管道中的其他行为者,这些行为者更有可能拥有充足的资源。一个非常符合d/acc理念的想法是,对AI在执行某些灾难性有害行动过程中所接管(例如通过黑客攻击)的任何设备的所有者或操作者追究责任。这将创造一种非常广泛的激励,促使人们努力使世界(特别是计算和生物领域)的基础设施尽可能安全。

策略2:工业规模硬件上的全球"软暂停"按钮

如果我确信我们需要比责任规则更"强有力"的措施,我会选择这个策略。目标是在关键时期具备将全球可用计算能力降低约90%-99%的能力,持续1-2年,为人类争取更多准备时间。1-2年的价值不应被高估:一年的"战时模式"在自满的情况下很容易抵得上一百年的常规工作。实现"暂停"的方法已经在探索中,包括一些具体的提案,如要求硬件注册和验证位置。

一种更先进的方法是使用巧妙的加密技术手段:例如,生产出来的工业规模(但非消费级)AI硬件可以配备一个可信硬件芯片,只有在每周获得来自主要国际机构(包括至少一个非军事附属机构)的3/3签名时,才允许其继续运行。这些签名将与设备无关(如果需要,我们甚至可以要求在区块链上发布零知识证明),所以这将是全有或全无的:没有实际方法可以授权一个设备继续运行而不授权所有其他设备。

这在最大化利益和最小化风险方面似乎"符合要求":