AI會不會有被壟斷的一天？首先，你得知道訓練ChatGPT和訓練鸚鵡有何相似之處

发布时间：2024-05-12 13:19:29 作者：玩站小弟

文：李亞倫清華大學資訊系統與應用研究所博士班二年級學生、清大人社AI中心文字標註系統總工程師）最近有人問我：「那個ChatGPT、GPT4那麼厲害，聽說是因為用了RLHF技術，那是不是代表已經不需要人。

文：李亞倫（清華大學資訊系統與應用研究所博士班二年級學生、會不會有T和清大人社AI中心文字標註系統總工程師）

最近有人問我：「那個ChatGPT、被壟GPT4那麼厲害，天首聽說是先得訓練訓練相因為用了RLHF技術，那是知道之處不是代表已經不需要人類標註，AI自己就可以學了呢？」我回答道：「不是鸚鵡有何，還是會不會有T和需要人類標註，只是被壟這個標註跟我們傳統的資料標註不太一樣。」那麼到底是天首哪裡不同呢？如果還是需要人類標註，這個訓練出來的先得訓練訓練相AI會不會很容易受人類標註者偏見或暗示的影響？

由於每個人都有自己的立場與偏好，由一小群標註人員所標註出來的知道之處內容，真的鸚鵡有何能代表不同的使用者群體嗎？特別是這一小群人還是專為某家公司服務。

有沒有可能，會不會有T和這一小群被選中的被壟標註人員，在給AI訓練的天首標註資料中，放入了偏袒自己的標註訊息，以至於AI生成的內容更偏袒標註員或其所處公司的利益相關人士？而這群人將成為AI時代的權貴階級，透過密語或暗示，可以命令AI做一般人的命令無法做到的事情，例如操縱股價之類的？

另一方面，為了不讓資料標註過程被一小群人把持，是否有可能開放像OpenAI這樣的私有企業的資料標註過程給一般民眾參與，讓標註的制定過程更加透明、民主與公共化？

什麼是RLHF?

為了瞭解ChatGPT是如何把標註過程私有化，我們要先解釋一下RLHF的運作方式。RLHF的全名是Reinforcement Learning from Human Feedback，中文直譯是「從人類反饋的增強式學習」。這名稱聽起來有點繞口，什麼是從人類反饋，什麼又是增強式學習？這個新方法跟傳統的AI用標註資料訓練又有甚麼不同？

下圖是在ChatGPT官網上可以找到的RLHF訓練流程圖，我們可以看到大致分成三步驟：

蒐集示範資料，透過監督式學習對GPT3進行微調。
蒐集對比資料，訓練獎勵模型。
使用增強式學習，使模型的輸出內容在獎勵模型的引導下，盡可能得到最高分。

看到這裡，你可能已經開始頭大了，一下是監督式訓練，一下是獎勵模型，一下又是增強式訓練……接下來，我會用兩個與日常生活比較貼近的比喻，來解釋監督式學習與增強式學習的概念。

監督式學習

監督式學習很像補習班教學生，反正就給一大堆練習題，叫學生自己做，做完自己對答案，自己訂正，下次再遇到同樣題目要答對。

不過，如果只有這樣就太簡單了，學生可以把題目背起來但還是什麼都不會。因此考試不會出跟練習題一模一樣，會稍有不同，如果這樣學生還能答對，就代表他學會了。學生若能在考試中答對的越多，就表示他真的從練習題中學到了東西。

增強式學習

增強式學習比較像教鸚鵡說人話。怎麼樣教鸚鵡說人話呢？一開始主人只是不斷反覆給牠聽一段人類對話，牠一邊聽，一邊模仿牠聽到的發音。慢慢的，鸚鵡好像會說人話了，會莫名其妙蹦出一句「今天天氣26度」，可能主人給牠聽的是氣象報告的對話。

後來主人決心訓練牠成為氣象主播。於是主人就問牠：「今天天氣如何？」第一次鸚鵡隨便回：「你好嗎？」主人就不理牠，再問一次：「今天天氣如何？」就這樣問了100次，終於有一次鸚鵡回：「今天天氣26度！」主人就獎勵牠，給牠一頓蟲蟲大餐。

後來慢慢地，鸚鵡回應「今天天氣26度！」的機率變高了，從100次回一次，到50次回一次，到10次回一次，到每次必回。從此以後當主人說：「今天天氣如何？」只要鸚鵡回答：「今天天氣26度！」，主人就給牠一條蟲蟲吃，鸚鵡就很高興。

如此，每當鸚鵡又蹦出了一句甚麼話，主人就訓練牠聽上一句話，然後接下句話。最後看起來，鸚鵡好像真的聽得懂人話了！主人問甚麼，牠就接下句。但是鸚鵡心裡想的其實只有蟲蟲大餐。

監督式學習與增強式學習的差異

在補習班的例子中，給學生練習的題目與答案，都是老師給的。套用到監督式AI的訓練過程上，題目就是指原始資料，而答案就是人類對原始資料所做的標註。

學生通常不會自己出題目自己做，因為學生本來就什麼都不知道，既然毫無相關知識，怎麼可能自己出題給自己做呢？所以在監督式學習中的原始資料，必然不是來自於學生自己，而是從老師或其他具有相關知識的人蒐集而來。而題目的答案，當然也是由老師或具有相關知識的人所標註上去的。

然而，在訓練鸚鵡說人話的例子中，主人並不是給鸚鵡一大堆發音練習題叫鸚鵡自己做，因為很顯然，鸚鵡看不懂題目。但是鸚鵡的模仿能力很強，能夠覆誦聽到的氣象報告內容。

主人是等到牠能覆誦出一段比較完整的句子後，再訓練牠在聽到主人指令後覆誦該句子。透過以蟲蟲大餐為獎勵的方式，讓鸚鵡記住，只要當主人說：「今天天氣如何？」回答：「今天天氣26度！」就有獎勵。

套用到增強式學習訓練AI的過程上，一開始給鸚鵡聽的氣象報告內容，相當於未標註的原始資料；而鸚鵡覆誦的結果，相當於模型模仿生成的產出。主人的指令就像是輸入到ChatGPT的prompt提示詞，而主人對牠產生的回應進行評分，就是獎勵模型（Reward Model）。

為了讓這個獎勵模型能夠對齊（Aligment）人類觀眾的喜好，我們需要找人來給生成的產出做評分。這樣的過程，人類標註的對象是模型生成的產出，而不是未標註的原始資料。

所以，監督式學習與增強式學習最大的差別在於人類標註的對象不同，一個是原始資料，一個是模型生成的產出。

為何ChatGPT需要精心設計的提示詞，才能得到人們想要的回應？

Tag：

失業率50年新低，美股穩了？｜天下雜誌
美國製造業PMI指數連續兩個月低於50，讓美股一進入10月，就狂跌，上週五公布的非農就業報告稍來好消息，華爾街可以就此安心了嗎？
2024-05-12
為什麼在職場上，懶惰的人活得更好？
文：孫忠邦剛進入職場的時候，很多人都想要認真的工作，因為面對不可預知的未來，除了努力工作之外好像沒有什麼別的方法。所以你可能都不會想到偷懶這件事情，但是偷懶這件事情其實是一體兩面的，你可能因為每天都很
2024-05-12
美國商會：年輕充足的勞力、積極招商電子和半導體產業進駐，印度成為台商急欲搶佔的寶地
文：Jane Rickards位於台北的自由撰稿人，她曾是《TOPICS》的編輯，曾任台灣外國記者協會署理會長，報導過澳洲、台灣和中國的新聞，她的作品也刊登於《經濟學人》、《華盛頓郵報》和《金融時報》
2024-05-12
【2023金曲獎】特別貢獻獎林秋離：〈哭砂〉〈聽海〉等經典傳唱不輟，接住過幾代人的心情
2023年第34屆金曲獎特別貢獻獎得主為林秋離以及歐陽菲菲，其中林秋離在王介安的引言致詞，並將此獎座頒給遺孀熊美玲和林秋離兩人的兒子帶領。林秋離為台灣知名作詞家暨唱片製作人，畢生創作不輟，譜寫無數膾炙
2024-05-12
中俄聯合軍演明展開　為歷年來「最靠近台灣」的一次
中國與俄羅斯21日起至27日，將要舉行中俄海軍聯合演習「海上聯合-2022聯合軍事演習」，這次也是中俄海上聯合軍事演習舉辦10年來，演習區域最靠近台灣的一次。據了解，此次演習的主要目的是加強俄羅斯和中
2024-05-12
中泰將舉行「鷹擊2023」聯合軍演，學者憂泰國更親中遠美
文：楊安中國國防部周日7月2日）宣布，中泰「鷹擊-2023」空軍聯合訓練將於7月在泰國空軍烏隆基地舉行。在中國不斷強化和泰國軍事交流與戰略合作之際，美國前軍方官員對中國在東南亞日益增強的影響力表達擔憂
2024-05-12