d/acc一周年:防御加速的進展與AI監管思考

2025-07-13 03:48:13

d/acc:一年後的回顧

去年,我寫了一篇關於技術樂觀主義的文章,闡述了我對技術的熱情,以及它能帶來的巨大效益。同時也表達了對某些問題的謹慎態度,主要是關於超級智能AI及其可能帶來的毀滅風險或不可逆的權力喪失。

文章的核心觀點是倡導一種去中心化、民主且差異化的防御性加速理念。既要加速技術發展,又要聚焦於提升防御能力而非破壞能力的技術,並致力於分散權力,避免由少數精英代表所有人判斷是非。防御模式應該像民主的瑞士,而非中世紀封建領主的城堡。

一年來,這些想法有了顯著發展。我在"80,000小時"平台上分享了這些觀點,收到了大多數積極的回應,也有一些批評。這項工作取得了實際成果:可驗證開源疫苗領域有了進展;人們更認識到健康室內空氣的價值;"社區筆記"繼續發揮積極作用;預測市場作爲信息工具迎來突破之年;零知識證明在政府身分識別和社交媒體領域得到應用;開源成像工具在醫學和腦機接口領域獲得應用,等等。

去年秋天,我們舉辦了首個重要的d/acc活動:"d/acc發現日"(d/aDDy),匯聚了來自d/acc各個領域(生物、物理、網路、信息防御和神經技術)的演講者。長期致力於這些技術的人們更了解彼此的工作,外部人士也越來越意識到一個更宏大的願景:推動以太坊和加密貨幣發展的價值觀可以拓展到更廣闊的世界。

d/acc的內涵與外延

d/acc的核心思想是:去中心化、民主且差異化的防御性加速。構建能夠使攻防平衡向防御傾斜的技術,並且在實施過程中不依賴於將更多權力交予中央權威機構。這兩個方面緊密相連:任何去中心化、民主或自由的政治結構,在防御易於實施時往往能蓬勃發展,而在防御困難時則會遭遇挑戰。

理解同時實現去中心化、防御性和加速性重要性的一種方式,是將其與放棄這三個方面中的任意一個所產生的理念進行對比:

去中心化加速,但忽視"差異化防御"部分
差異化防御加速,但忽略"去中心化和民主"
去中心化防御,但排斥加速

通過d/acc,我們致力於實現以下目標:

在當今世界日益部落化的趨勢下堅守原則,構建特定事物使世界變得更加安全、美好。
認識到指數級技術進步意味着世界將變得極爲奇特,人類在宇宙中的"足跡"必然會不斷增加。我們保護脆弱事物免受傷害的能力必須持續提升,唯一出路是勇往直前。
構建能夠切實保護我們的技術,而不是基於"好人(或好的AI)掌控一切"的假設。我們通過構建在用於構建和保護時自然比用於破壞時更爲有效的工具來達成這一目標。

思考d/acc的另一種視角是回歸到21世紀00年代末歐洲海盜黨運動的框架:賦權。我們的目標是構建一個能夠保留人類能動性的世界,實現消極自由,即避免他人(無論是普通公民、政府,還是超級智能機器人)對我們塑造自身命運的能力進行積極幹預,同時實現積極自由,即確保我們擁有知識和資源去踐行這一能力。

難題:AI安全、緊迫時間線與監管困境

去年我的文章收到的最具說服力的反對觀點來自AI安全社區。其論點爲:"當然,如果我們有半個世紀的時間來發展強AI,我們可以集中精力構建所有這些有益的事物。但實際上,看起來我們可能僅有三年時間發展到通用AI,再過三年發展到超級智能。因此,如果我們不想讓世界陷入毀滅或以其他方式陷入不可逆轉的困境,我們不能僅僅加速有益技術的發展,還必須減緩有害技術的發展,這意味着需要通過可能會觸怒權勢階層的強有力監管措施。"

對新監管持謹慎態度的理由:

去年,主要的AI監管提案是加州的SB-1047法案。它要求最強大模型(訓練成本超1億美元或微調成本超1000萬美元)的開發者在發布前採取一系列安全測試措施。如果AI模型開發者未能足夠謹慎,將對其追究責任。許多批評者認爲該法案"對開源構成威脅";我對此持有異議,因爲成本閾值意味着它僅影響最強大的模型。然而,回顧過去,我認爲該法案存在一個更爲嚴重的問題:如同大多數監管措施一樣,它過度適應了當前的情況。對訓練成本的關注在面對新技術時已被證明是脆弱的:近期最先進的DeepSeek v3模型的訓練成本僅爲600萬美元,而且在像o1這樣的新模型中,成本通常從訓練更多地轉移到了推理階段。

最有可能對AI超級智能毀滅場景負責的行爲者:

實際上,最有可能對AI超級智能毀滅場景負責的行爲者是軍隊。正如我們在過去半個世紀的生物安全(及更早時期)中所目睹的那樣,軍隊願意採取一些可怕的行動,而且他們極易犯錯。如今,AI在軍事領域的應用正在迅速發展(如在烏克蘭、加沙地區的應用)。並且,任何政府通過的安全監管措施,默認情況下都會豁免本國軍隊以及與軍隊密切合作的公司。

應對策略:

盡管如此,這些論點並非讓我們束手無策的理由。相反,我們可以將它們作爲指引,嘗試制定引發這些擔憂最少的規則。

策略1:責任

如果某人的行爲以某種方式造成了可依法追究的損害,他們可能會被起訴。這並不能解決來自軍隊和其他"凌駕於法律之上"的行爲者所帶來的風險問題,但這是一種非常通用的方法,可避免過度擬合,正因如此,傾向於自由意志主義的經濟學家通常支持這種做法。

到目前爲止所考慮的主要責任目標如下:

用戶:即使用AI的人。
部署者:爲用戶提供AI服務的中間人。
開發者:構建AI的人。

將責任歸於用戶似乎最符合激勵機制。雖然模型的開發方式與最終使用方式之間的聯繫往往不明確,但用戶決定了AI的具體使用方式。對用戶追究責任會產生一種強大的壓力,促使人們以我認爲正確的方式使用AI:專注於爲人類思維構建機械套裝,而非創造新的自我維持的智能生命形式。前者會定期響應用戶意圖,因此除非用戶希望,否則不會導致災難性行動。而後者則存在最大的風險,即可能失控並引發經典的"AI失控"場景。將責任盡可能靠近最終使用端的另一個好處是,它最大限度地減少了責任導致人們採取在其他方面有害的行動的風險(例如閉源、了解你的客戶(KYC)和監控、國家/企業勾結祕密限制用戶,如銀行拒絕爲某些客戶提供服務,將世界上大片地區排除在外)。

有一種經典的反對僅將責任歸於用戶的觀點:用戶可能是普通個人,沒有太多錢,甚至可能是匿名的,這樣就沒有人能夠實際爲災難性的損害買單。這種觀點可能被誇大了:即使有些用戶太小而無法承擔責任,AI開發者的普通客戶卻不是,因此AI開發者仍然會受到激勵,去構建能夠讓用戶確信他們不會面臨高責任風險的產品。也就是說,這仍然是一個有效的觀點,需要加以解決。你需要激勵管道中的某個有資源採取適當謹慎措施的人這樣做,而部署者和開發者都是容易找到的目標,他們仍然對模型的安全性有很大影響。

部署者責任似乎是合理的。一個常見的擔憂是它對開源模型不起作用,但這似乎是可以管理的,特別是因爲最強大的模型很有可能是閉源的(如果結果是開源的,那麼雖然部署者責任最終可能不是非常有用,但也不會造成太大危害)。開發者責任也存在同樣的擔憂(盡管對於開源模型,需要微調模型以使其做一些原本不被允許的事情存在一定障礙),但同樣的反駁理由也適用。作爲一般原則,對控制施加一種"稅",本質上是說"你可以構建你無法控制的東西,或者你可以構建你能夠控制的東西,但如果你構建你能夠控制的東西,那麼20%的控制權必須用於我們的目的",這似乎是法律體系應有的合理立場。

一個似乎尚未得到充分探索的想法是將責任歸於管道中的其他行爲者,這些行爲者更有可能擁有充足的資源。一個非常符合d/acc理念的想法是,對AI在執行某些災難性有害行動過程中所接管(例如通過黑客攻擊)的任何設備的所有者或操作者追究責任。這將創造一種非常廣泛的激勵,促使人們努力使世界(特別是計算和生物領域)的基礎設施盡可能安全。

策略2:工業規模硬件上的全球"軟暫停"按鈕

如果我確信我們需要比責任規則更"強有力"的措施,我會選擇這個策略。目標是在關鍵時期具備將全球可用計算能力降低約90%-99%的能力,持續1-2年,爲人類爭取更多準備時間。1-2年的價值不應被高估:一年的"戰時模式"在自滿的情況下很容易抵得上一百年的常規工作。實現"暫停"的方法已經在探索中,包括一些具體的提案,如要求硬件註冊和驗證位置。

一種更先進的方法是使用巧妙的加密技術手段:例如,生產出來的工業規模(但非消費級)AI硬件可以配備一個可信硬件芯片,只有在每週獲得來自主要國際機構(包括至少一個非軍事附屬機構)的3/3籤名時,才允許其繼續運行。這些籤名將與設備無關(如果需要,我們甚至可以要求在區塊鏈上發布零知識證明),所以這將是全有或全無的:沒有實際方法可以授權一個設備繼續運行而不授權所有其他設備。

這在最大化利益和最小化風險方面似乎"符合要求":

這是一項

ETH0.87%

DEEPSEEK5.72%

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

13人點讚了這條動態

讚賞
13
2
分享

留言

0/400

Ser_APY_2000

· 19小時前

一眼水文纯装高深

回復0

Lonely_Validator

· 19小時前

防守反击难道不香吗?

回復0