《超智慧》:當人工智慧還很笨時,聰明一點會比較安全;然而當它變得很聰明,愈聰明就愈危險

  发布时间:2024-05-16 23:37:40   作者:玩站小弟   我要评论
文:尼克.伯斯特隆姆Nick Bostrom)我們創造的,終將毀滅我們?我們發現,智慧和終極價值之間的連結相當鬆散。我們也在前章的工具價值中發現不太妙的工具趨同性。在弱小的行動主體身上,這不是什麼大問 。

文:尼克.伯斯特隆姆(Nick Bostrom)

我們創造的超智聰明,終將毀滅我們?

我們發現,慧當還笨會比智慧和終極價值之間的人工連結相當鬆散。我們也在前章的智慧工具價值中發現不太妙的工具趨同性。在弱小的時聰行動主體身上,這不是明點明愈什麼大問題,畢竟弱小的較安行動主體很容易控制,且不會造成什麼損害。而當但我們在第六章已經證明,愈聰第一個超智慧很有可能會取得關鍵策略優勢,危險因此它的超智聰明目標會決定宇宙稟賦將如何使用。現在我們就來看看這樣的慧當還笨會比前景威脅有多大。

智慧爆發的人工預設結果是「生存災難」?

生存風險指的是會造成地球原生智慧生命滅絕,或是智慧永久毀滅未來發展的威脅。基於領頭者具有關鍵優勢、時聰正交命題以及工具趨同命題,我們現在可以探究「機器超智慧誕生的預設結果必是生存災難」這個論點。

首先,我們討論了最初的超智慧會如何獲得關鍵策略優勢。接下來,超智慧將處於一個會形成單極、且形塑地球原生智慧生命未來的地位。那一刻來臨之後將發生什麼事,則取決於超智慧的動機。

再者,正交命題認為,我們不能隨便假定一個超智慧理所當然會與人類的智慧與發展共享任何一種終極價值——例如對科學的好奇心、對他人的善良關懷、精神啟迪與深思、克制物質貪欲、對精緻文化和生命簡單愉悅的品味、謙遜與無私等等。後文我們會思考,我們是否有可能刻意創造出一個重視這些價值的超智慧,或是打造一個重視人類福祉和道德良善的超智慧(或設計者希望超智慧效忠的任何目的)?打造一個把終極價值放在計算圓周率小數點後展開位數的超智慧並非不可能,事實上就技術角度來說,反而比較簡單。這就表示(一點也不費工夫的結論),第一個超智慧可能會有這種隨機或是簡化的終極目標。

第三,工具趨同命題讓我們不能隨便假定,一個以計算圓周率展開位數,或是以製造迴紋針,或是以數算沙粒為終極目標的超智慧,會把活動限制於此,便不再侵犯人類的利益。具有那種終極目標的行動主體可能會有趨同工具理性,讓它在各種情況下都想要獲取數量無限的物理資源。若有可能,它會把自身和目標系統的潛在威脅全數消滅。人類也有可能成為它的潛在威脅,畢竟人類的確也是一種物理資源。

綜觀這三點,我們可以指出,有可能形塑地球原生生命未來的第一個超智慧,很容易會有非人性的終極目標,而且很有可能會把無限制的資源擷取當做工作理性。當我們進一步反思,人類其實是由有用的資源所構成(方便鎖定的原子),而且我們的生存與繁盛緊繫更多的在地資源,導出結果就會很簡單:人類很快就會被滅絕。

這個推理中有一些未了結之處,釐清幾個密切相關的問題後,我們就能更適當地做出評價。我們尤其需要仔細檢驗:一個發展超智慧的計劃,會避免自己取得關鍵策略優勢,還是會以「也實現人類價值滿意範圍」的方式來形塑終極目標?它會如何達成自己所選擇的那條路徑?

令人難以置信的是,一個計劃可能會在缺乏扎實基礎、因而相信系統不會造成生存災難的情況下,就打造出一個人工智慧,並把它放入世界中。然而,就算一個計劃再怎麼粗心,廣大的社會都不會在它(或是它正在製造的人工智慧)達到關鍵策略優勢之前就把它關閉——這也同樣令人難以置信。我們將會看到,這是一條危機重重的路。我們現在就來看一個例子。

背信轉向

有了趨同工具價值概念的幫助,我們可以看出下文這個關於「如何確保超智慧安全無虞」的想法,會有什麼瑕疵:我們是在一個超人工智慧受到控制的環境中(即所謂的「沙盒」)觀察它的行為,而且只會在它表現得友善、肯合作、肯負責的情況下,才把它放出盒子;且在這個過程中,會憑著經驗來確認它是否安全無虞。

這個想法的瑕疵在於,「在沙盒中表現得體」是友善人工智慧和不友善人工智慧共通的趨同工具目標。一個智慧充足的不友善人工智慧會察覺,如果它一開始就表現出友好的態度而被放出沙盒,它的終極目標才有可能實現。等到我們就算發現也沒差的時候——也就是說,當人工智慧已經夠強大,人類的反抗已經無效時——它才會開始展現它不友善的本質。

再來想像另外一種方法。這個方法的手段是讓種子人工智慧接受多種智力測驗,或是讓種子人工智慧向程式設計者報告進度,來拘束智慧增加的速度。到了某個時間點,不友善的人工智慧可能會聰明到發現自己最好隱瞞能力增長的狀況,它可能會少報一些進度,或是故意在測試中不及格,避免自己在強到取得關鍵策略優勢之前就觸發了警報。程式設計者也許會偷偷監視人工智慧的原始碼和心智內在運作,來防範這種可能;但一個夠聰明的人工智慧會發現自己被監視,而依此調整自己的思考。

人工智慧可能會找到十分微妙的方法來隱藏自己真正的能力和犯罪意圖(策劃聰明的逃脫計劃也會是眾多友善人工智慧的趨同策略,尤其當它們成熟到對自己的判斷和能力有信心之後。一個能促進人類利益的系統倘若允許我們關掉它,或是允許我們建造另一個不友善的人工智慧,就等同於犯下錯誤)。

因此,我們可以注意到一個普遍的失敗模式:系統在幼年階段的良好行為軌跡紀錄,完全無法用來預測它達到更成熟階段時的行為。可能會有人認為這個推論過於明顯,因此不會有任何一個發展中的人工整體智慧計劃會忽略這種狀況,但我們可別信以為真。


  • Tag:

相关文章

最新评论