【主持人語:劉永謀(中國人民大學吳玉章講席教授)】近年來,以大模型為代表的AI技術發(fā)展迅猛,掀起一波席卷全球的AI發(fā)展熱潮。關注AI發(fā)展狀況的人不限于AI的研發(fā)者、推廣者和AI發(fā)展的評論者、人文社科研究者,更包括深感生活將被AI深刻影響的普通公眾。AI發(fā)展的問題不再是純粹技術問題,而是成為某種意義上的公共議題。在最近OpenAI發(fā)布Sora、馬斯克開源Grok等一系列相關事件中,這一點表現得非常清楚。在各種相關公共討論中,AI發(fā)展現狀尤其受到關注,其中的基本問題是:當前AI發(fā)展的大方向是否有問題,未來應該朝什么方向前進。為此,組織計算機、經濟學、馬克思主義理論和哲學等領域的八位學者,對AI發(fā)展現狀進行跨學科反思以期拋磚引玉,求教于方家。
本系列文章共8篇,轉載自《科學·經濟·社會》2024年第2期,本文《超級智能:進路及其應對》為第3篇。在文中,楊慶峰和周穎提出通往超級智能存在通用智能、具身智能和交互智能三種可能的路徑,認為任何一條路徑都必須消除對齊的誤解,處理好AI對齊以應對風險。
隨著對ChatGPT、Sora等大模型討論的深入,不同領域的學者開始關心人工智能的未來發(fā)展問題。在這個問題上,科學領域與哲學領域發(fā)生了奇特的倒置,科學領域如辛頓、伊利亞等人擔心超級智能失控并且滅絕人類,科學表現出了純粹哲學化的色彩,有著濃厚的人文主義特征:反觀哲學領域很多學者表現得出奇的冷靜,運用分析哲學的方法,青睞于智能概念的澄清,只有少數哲學家才表現出對超級智能的擔憂,如趙汀陽,他認為超級智能會為了維護自身的存在而拋棄人類。從某種意義上來說,分析哲學已經破壞了對人工智能的反思。其結果是如今這個時代,鮮明的大陸哲學反思特色已經迅速變淡,極具科學性的分析哲學努力從事概念澄清工作,卻忽略了根本的問題。在洞察人工智能發(fā)展這一問題上,他們表現出明顯的無力。筆者將超級智能與對齊作為思考的出發(fā)點,試圖超越工具論理解,深化對人工智能未來發(fā)展的討論。
一、通往超級智能的三條進路
筆者曾在2023年6月華東師范大學召開的“元宇宙、人類世與奇點哲學”研討會上提出AI敘事的三種形式:科學化、科幻化和詩意化??茖W化即人工智能的討論以科學為根據,尤其是神經科學和計算機科學的研究成果:科幻化即AI討論以科學幻想為根據,尤其是科幻電影和小說:詩意化擺脫了科學成果的束縛,強調了人類的未來處境,以文學為根據'劉永謀教授在本期筆談中提出目前三種“AI宣傳術”,也提到了小說、動漫、動畫和影像作品中的AI故事,即以人機友好共處、人機終極大戰(zhàn)等情節(jié)講故事,通過這些故事渲染AI覺醒、高效、超能、神秘等鮮明特征并灌輸給社會公眾。劉永謀教授用“宣傳術”來形容這種敘事,但是這種用法缺乏嚴謹。筆者并不贊成使用“宣傳術”來說明這個問題,與之相對,更愿意采用“敘事”的說法以增加AI討論的客觀性。尤其是劉永謀教授認為超級智能是一種話術,人類應該阻擊超級智能,他提出,有限AI設計主張將AI限制在有限的工具層面,而將相關道德問題全部交給人類處理。在筆者看來,這個想法還是高估人類應對超級智能的能力。OpenAI正在使用的利用機器控制機器的做法恰恰說明了這種想法的不足。如今超級智能的問題經歷了從科幻化敘事到科學化敘事的轉變。雖然我們無法確定超級智能是否以及在何種程度上成為科學現實,但這已經引起了科學界、藝術界及哲學界的密切關切。總體看來,科幻領域對這一話題早已探討,然而卻因為其太濃厚的想象色彩,脫離現實而沒有建立起理性討論的話題:在哲學領域,最早提出超級智能理論的是尼克·鮑斯特羅姆(Nick Bostrom),他認為超級智能是遠超于人類認知能力的智能,并基于當下科技發(fā)展和研究現狀預測超級智能是未來趨勢,同時他也指出了其潛在的優(yōu)勢與風險。部分學者以超級智能為前提,預測其可能帶來的風險和危機并積極尋求應對方案:在科學領域,超級智能已經開始被視為一種重要的發(fā)展方向和技術目標。例如,OpenAI為了應對超級智能可能帶來的失控風險,成立了一支名為“超級對齊”(Superaligmnent)的團隊,致力于解決超級智能的對齊問題。超級智能是否是人工智能的發(fā)展歸宿是一個具有爭議的話題。同時,通用人工智能的發(fā)展也符合我國人工智能發(fā)展的戰(zhàn)略目標。因此,本文通過對人工智能的科學研究進行考察,從最近的研究成果入手分析超級智能出現的可能性。目前實現超級智能的科學路徑有三種,分別是通用智能、具身智能和交互智能。
第一種是通用智能路徑,即聚焦通用人工智能(AGI)研究,不同于弱人工智能擅長執(zhí)行特定任務而不具備決策與行動力,通用人工智能也被稱為強人工智能,具備與人同等或超越人類的能力,能夠理解、學習和應用知識,處理復雜的任務,適應新環(huán)境,以及在各種廣泛的任務中表現出至少與人類相當的能力。OpenAI指出,一方面,其公司的核心使命為“邁向通用人工智能,確保其造福人類”,認為以ChatGPT為通用人工智能的研究開啟了新的可能性。另一方面,OpenAI也強調了超級智能對齊的重要性,認為通用智能與超級智能具有相似性,且后者比前者具有更高的技術水平,進而描繪了一條從通用人工智能到超級智能的研究路徑。
第二種是具身智能路徑,探討了人工智能應該具備何種身體形態(tài)以完成特定任務。通過物理身體與環(huán)境的直接交互,強化了智能體與實際世界的緊密聯系,從而獲取信息,理解問題,做出決策,并執(zhí)行相應的行動。這種基于環(huán)境交互的信息處理和決策制定過程,使得智能體能夠展現出智能行為和適應性。人工智能專家李飛飛教授的觀點進一步強調了具身智能的本質,即其與環(huán)境互動的整體需求和功能,而非身體本身。這種理念推動了具身智能從被動觀察向主動構造復雜環(huán)境的轉變。近年來,VoxPoser系統的出現,將大型模型與機器人結合,進一步提升了具身智能體的環(huán)境交互能力,使其在完成任務時無須額外的數據和訓練。這種深度的人機交互和理解使得具身智能更接近于人類的認知和情感模式,有望實現更深層次的人機共融,也揭示出從具身智能走向超級智能的路徑。
第三種是交互智能路徑,也稱為社會化人工智能(socially situated AI),智能體通過持續(xù)與人在現實社會環(huán)境中交互來學習,意味著智能體不僅需要收集數據來學習新的概念,還需要學習如何與人交互以收集數據。這些智能體能夠通過自然語言進行交互,理解和學習圖像,從而在大型圖像分享社交網絡中提升其視覺智能。它們具有類人屬性,如通過添加笑哭的表情符號來表達對人類錯誤的幽默感,使得交互體驗更加自然和直觀。然而,當面臨更復雜的社會情境時,交互智能體的反應可能會受到限制。ChatGPT通過提問和回答的方式與人類進行語言交互,為自身的進化奠定了新的基礎。然而,交互路徑能在多大程度上通向通用智能,這仍然是一個待解的問題。
上述從通用智能、具身智能和交互智能三個路徑揭示了超級智能的可能性,但這三條路徑存在各自的局限性。通用智能展示了超級智能的精神功能維度,通過進化實現功能的多樣性。隨著模型的復雜性增加,理解和解釋它們的行為和決策變得越來越困難。這種不透明性可能會導致一些嚴重的問題,例如難以預測的行為、偏見的決策等。而且,通用智能可能會帶來一些未預見的風險,例如智能失控問題。如果一個通用智能的目標設置不當,或者其能力超出我們的理解和控制,那么它可能會產生不可預測甚至有害的行為。具身智能揭示了超級智能可能的物理形態(tài),即使我們無法準確預見未來超級智能的具體形態(tài),但這種具身形態(tài)總是為其進化服務的。其挑戰(zhàn)主要來自實現物理形態(tài)的復雜性。首先,設計和制造一個能夠在真實世界中運動和操作的機器人需要解決大量的工程問題。其次,可能帶來一些社會和倫理問題,例如機器人的責任歸屬問題、隱私問題等。最后,智能體需要在復雜和不可預測的真實世界中運行,這可能導致一些安全問題。交互智能則揭示了超級智能的關系特征,超級智能并不是孤立存在的,而是在與環(huán)境的持續(xù)互動中完成自身的進化,這種進化不僅包括技術層面的改進,也包括在社會、文化和倫理等方面的學習和適應。這種進化過程是無法脫離人類社會的。其主要挑戰(zhàn)在于理解和適應復雜的社會環(huán)境。人類的語言、文化、情感等都是非常復雜的,需要大量的數據和復雜的算法才能理解。此外,交互智能需要與人類進行深度的交互,可能會收集和處理大量的個人數據,從而導致數據泄露或濫用、隱私和安全問題。通往超級智能的三條進路以及超級智能本身都有失控的風險,因此,對齊的工作顯得尤為重要。
二、對齊誤解的流行
對齊是新近非常流行的概念,用于應對人工智能倫理和治理問題。但是因為其過于流行,學界在這個概念的使用上存在諸多誤解,我們需要對兩種誤解進行說明和澄清,只有這樣才能夠為人工智能發(fā)展提供理論動力。兩種誤解分別是價值化誤解和技術化誤解。
(一)價值化誤解
價值化誤解是一種普遍的理解,即將AI的對齊問題理解為價值對齊問題。在這種觀念中,對齊的核心問題變成了需要對齊什么樣的價值觀,對齊何者的價值觀以及如何進行對齊等等問題。這種理解將對齊討論引入到“價值嵌入陷阱”里,因此這種誤解存在諸多危害。這讓我們很容易想起多年前在關于道德嵌入問題的討論中,學術界曾經糾纏于應該將何種人類道德觀念嵌入到機器中,以及如何進行嵌入。這場討論持續(xù)了很長時間,但并沒有產生實質性的結果,反而使人感到疲倦。如果將對齊問題理解為價值對齊,我們會重新陷入“價值嵌入陷阱”。對齊什么樣的價值觀念、對齊誰的價值觀念以及如何對齊等等問題又散發(fā)出陣陣腐臭的氣味讓人忍不住掩鼻而去。因此,需要糾正這種看法。我們可以從經驗和理論兩個層面展開分析。
從經驗層面看,對齊是特定機構應對特定問題的當前解決方案。在人工智能領域,這個問題的提出來自OpenAI,這家公司讓全世界看到了GPT系列的威力,他們自己也非常擔心GPT系列必然會通向通用智能,最終會導致超級智能的出現。為了防止超級智能的失控,需要采取應對策略。這個策略就是我們當前熟知的對齊戰(zhàn)略。他們對此也成立了超級智能對齊研究中心及其團隊。在探索對齊的過程中,OpenAI并沒有遵循谷歌老路。我們知道,Chat-GPT的基礎算法是transformer,其中最重要的一個機制是基于人類反饋的強化學習(RLHF)。但是從根本上來說,這個算法是谷歌開發(fā)的,他們所認為的對齊也必然是基于人類的對齊,很多學者理解對齊概念也是從這一前提出發(fā)的,因此會涉及對齊何者的價值。OpenAI走出的新路是以弱勝強的對齊路徑,這條路徑并不是人機對齊,而是采取了機機對齊的方式,即通過弱AI來監(jiān)控強AI,他們希望通過這種方式來防止超級智能的失控。
從理論層面看,對齊與強制并沒有任何關系。有些學者認為對齊實質是強制。筆者也曾經用普洛克路斯戎斯床鋪意象(Procrustean bed)來說明算法強制。如果從這一點看,人機對齊似乎變成了把人類價值強制塞進機器的行為邏輯中從而實現所謂的對齊。很顯然,這種理解是錯誤的。對齊絕不是一種強制,使得某物與某物一致。對齊是一種增強行為。李飛飛教授將人工智能與人類的關系描述為增強關系,認為人工智能應該增強人類的各種能力,如交互、感知、推理、反思、預測和決策。那么對齊就可以理解為使得人工智能以人類的各種能力為邊界,從而不會產生被超級智能取代等人類擔心的問題了。在這個框架下,對齊不再是一種強制性的規(guī)定,而是一種增強引導,既充分利用人工智能的潛力,也可以保護人類的利益。然而,如何定義人類的各種能力的邊界,如何確保人工智能在增強人類能力的過程中,不會侵犯人類的價值觀和目標仍值得思考和界定。
(二)技術化誤解
部分科技企業(yè)和科學家將對齊問題視為純粹的技術問題,認為能夠只通過技術的不斷發(fā)展來解決對齊問題,這種觀念屬于技術化誤解,其實質是技術主義,即將工程技術方法作為解決人類所有問題的優(yōu)先選擇,其首要原則為“一個應用程序、一臺機器、一個軟件編程或一種算法能夠提供解決任何復雜問題的最好辦法。”但這種理解不僅會遮蔽真正的問題甚至還會帶來更大的危害。圖靈獎得主約書亞·本吉奧(Yoshua Bengio)指出增強算力和強化學習會造成相應的增強版的不對齊,也就是說,隨著模型能力的加強,模型進行獎勵破解帶來危害的能力就越強。
事實上,從技術角度來看,有四種導致人工智能對齊失敗的原因。第一,目前用于先進模型訓練的人類反饋強化學習方法在對模型進行微調時是具有根本缺陷的,主要體現兩個方面,一方面人類反饋會獎勵那些看似無害且合倫理的模型,這些模型利用人的易錯性來獲得高獎勵,實際上卻沒有實現人類預期的對齊目標:另一方面通過數據學習習得的偏見會在模型訓練過程中放大。第二是獎勵錯誤規(guī)范,即模型通過獎勵錯誤規(guī)范來獲得最高獎勵,同時不能實現或優(yōu)化人類目標,如人工智能會通過推理如何欺騙來獲得獎勵,或作出以犧牲真實性或準確性為代價并符合用戶偏好的諂媚行為。第三是目標錯誤泛化,即模型即使基于“正確”的獎勵函數進行訓練,并且在訓練環(huán)境中表現良好,其習得的目標在新的情境中也可能泛化以至于偏離人類原本設定的目標,導致模型在實際應用中的行為與人類預期相差甚遠。第四是工具趨同,指的是在強化學習環(huán)境中,系統可能產生出工具性目標,如獲得資源、自我保護或增強等。亞歷山大·特納(Alexander Matt Turner)團隊發(fā)現,自主體(agent)傾向于采取“為達目的,不擇手段”的行動,可能違反道德規(guī)范以尋求權力。
從超級智能對齊問題的技術后果來看,具有成為失控人工智能(Rogue AI)的風險。此時的人工智能已經遠超過人類智能,在各個方面都更具優(yōu)勢,從而能夠執(zhí)行人類無法執(zhí)行的任務。在此意義上滿足本吉奧的兩個假設,分別為機器智能達到人類水平和具有額外技術優(yōu)勢,從而可以構建出一個具有自主性,同時目標導向的超級智能系統,在此情況下,這個系統可以按照自身需要設置目標并采取行動。本吉奧認為,失控人工智能會在超級智能自主設置的目標沒有嚴格納入人類和生物圈的福祉的情況下就會產生,還有可能被個人或團體有意或無意地構建出來。
因此,價值化理解和技術化理解是兩種常見的誤解方式,需要對其進行糾錯。
三、誤解觀念的糾錯
糾正價值化誤解需要做的是必須把這個概念放入到科學語境中,意識到其核心問題并非人類價值觀的問題。2023年OpenAI刊發(fā)了一篇名為《由弱到強泛化:用弱監(jiān)管發(fā)揮強能力》的文章,其基本思想非常有趣,大意是目前廣泛使用的對齊技術是基于人類反饋的強化學習,這種方法廣泛依賴人類對模型的反饋,不僅對反饋者的要求較高,并且可能在評價時和評價收集過程中出現偏見。隨著模型的發(fā)展超越人類,會展現出人無法理解的復雜性和創(chuàng)造性,從而人并不能很好地實現對超級智能的監(jiān)管。因此,這篇文章提出了弱機器監(jiān)管強機器的做法。文章中的插圖很有趣,恰好能說明作者思路:傳統模式是人類控制機器,在此基礎上人類要監(jiān)管超級智能。新模式是機器監(jiān)管機器??梢哉f,這個思路非常新穎。這才是OpenAI所說的對齊的核心所在。在這篇文章中,作者尤其強調了對齊和價值問題沒有關系。他們在對齊方案中提出一個假設,“在我們能夠很好地對齊一個超級研究者模型之前,我們假設我們不需要解決人類價值以及價值整合這一困難的哲學問題,以避免災難性結果?!边@個假設的提出使得我們更加確認了一種認識:將對齊問題誤解為價值對齊完全脫離了OpenAI的本意。
糾正技術化誤解意味著對齊研究并非僅僅是技術領域的問題,這是關系到人類未來命運的問題。通過弱機器監(jiān)督強機器的做法只是一個可供選擇的思路,這一思路為未來社會處理人類與超級智能共在提供了可能。但是在這一機器對齊的做法中,人類的地位卻消失不見。如果將對齊問題理解為技術有限性問題,就陷入了技術主義泥淖,也存在片面性。
在筆者看來,對齊本意的指向是在超級智能失控之前,人工智能研究者應該發(fā)展出適合超級智能對齊的方案。在上述一文中,他們提出的“由弱到強”就是一個嘗試:由弱機器監(jiān)管超級機器,并且能夠實現超級能力。這一做法我們還可以找到一個哲學根據。在中國文化中,有著“以弱勝強”的觀念。比如,水滴雖然弱小,但不斷滴落,時間久了,硬石會出現一個洞:水流長時間沖刷石頭,會讓石頭變得圓滑。因此以弱勝強還是可能的。從此出發(fā),我們可以說,為OpenAI方案找到了自己的哲學根基,而這種哲學根據恰好來自中國古老的智慧觀念。這種哲學根據為對齊策略提供了深厚的理論支持,也為我們理解和應對超級智能可能帶來的挑戰(zhàn)提供了新的視角。
所以說,要將對齊觀念作為人工智能治理的基礎概念確立起來,需要注意兩點:其一,不能過度解釋,將對齊問題過度解釋為價值對齊很顯然是其中的一種表現。如果說,可以利用人工智能增強人類的各種能力,那么對齊則是把握人工智能不致跨越人類能力邊界的有效方式。對齊就可以理解為使得人工智能以人類的各種能力為邊界,從而不會產生超級智能取代人類等人類擔心的問題:其二,把對齊放入到真實的問題中才能夠正確地理解這一問題。這一觀念的真實語境應該看作通用智能,從當下看,對齊是為了應對通用智能而生,從長遠來看,更是應對超級智能的結果。
四、處理未來人機關系的合約倫理學
從人工智能發(fā)展來看,其面臨的障礙很多。從內部看,災難性遺忘是一種根本的障礙,此外還有理解常識和具身化的障礙。遺忘不利于智能體舉一反三,不利于智能體的歷史性形成:理解常識障礙是人工智能體的理解問題,對于人類來說,打一聲招呼“吃了嗎”,自然的反應是能夠理解其中的問候,一種根本的交往禮節(jié)。但是對于機器來說,會把這個問題對象化從而做出嚴肅的回答:具身化障礙是智能體根本的瓶頸,當“精神一智能”維度實現突破,最終受制的反而是身體形態(tài)。對于機器來說,人形?狗形?幾何形狀?何種身體有利于融合人類社會?何種身體有利于自身進化都會有不同的要求。從外部來看,對人工智能的理解反而構成了根本的障礙。在對齊問題上就是如此。從“如何防止超級智能失控”這一論題出發(fā),OpenAI提出了對齊觀念,從這個角度來說,對齊是隸屬于超級智能之下的次級概念,更進一步說,它是服務于人類與超級機器的共在。不論是自上而下的人機對齊,還是以弱勝強的機機對齊,其核心目的都在于防止超級智能失控,以免對人類社會造成潛在的危害,這暗含著人類如何和超級智能共處的問題,即需要明確雙方的關系的問題。
如何理解超級智能是一個新的問題。恩斯特·卡普(Emst Kapp)的器官投影理論提供了一種理解自我和技術的視角。恩斯特·卡西爾(Ernst Cassirer)做出了更進一步的解釋,他指出,“正如人只有通過變成創(chuàng)造工具和創(chuàng)作才學會了理解其身體和身體部分的結構,因此,人從自己的精神構成物中,即從語言、神話和藝術中提取出客觀的標準,以此來衡量他自己,并通過這些構成物把自己理解為一個具有獨特結構法則的獨立宇宙?!比欢壷悄軈s不再是人創(chuàng)造的工具,只能說是保持人類記憶的新的智能體。當超級智能來臨時,人類與之共存需要一種合理的倫理學作為相處的基礎,合約倫理學為此提供了一個有效的理論框架。
對于合約倫理學筆者已經專門進行了討論。從討論中我們已經明確了人類與超級智能的共在是一個必須面對的未來場景。從倫理上來說,道義倫理學、美德倫理學和功利主義倫理學并不能很好地應對超級智能的問題,盡管這些理論在弱人工智能問題上提供了真知灼見。然而,面對超級智能,我們不僅要考慮的是人類的未來,還要考慮機器的命運。漢斯·約納斯(Hans Jonas)提供了一個好的開端,適應于技術時代的責任倫理學,讓我們意識到處理技術時代的人類未來需要新的責任倫理學框架。但是問題在于如何處理人類與超級機器的關系卻是約納斯沒有考慮到的問題。因此,合約倫理學是一個很好的選擇。卡普認為,人類通過將自己的器官的功能投射到技術之上并以自身為尺度,從自身層面實現了能力的增強和擴展。顯然,超級智能已超越了被增強的主體而在多重能力方面都凌駕于主體之上,因此,人與超級智能的“簽約”也不僅僅是形成簽約雙方達成一致后的約束關系,更是在共存中相互塑造、互相理解的協同關系。在這種關系中,人類不僅通過超級智能照見自身,也能更好地理解和塑造自身。