☰

OpenAI聯創 | ChatGPT首席架構師最新深訪：大語言模型的進化之路 (附全文+視頻）

未經授權請勿轉載，務必保留出處和公衆號按鈕

文：天空之城·城主

OpenAI聯合創始人，ChatGPT首席架構師John Schulman在最近的一次訪談中全面分享了他對AI模型未來發展的看法。

John Schulman是OpenAI聯合創始人之一，也是ChatGPT首席架構師。在這個長達100分鐘的訪談裡，Schulman深入探討了關於大語言模型訓練與進化的各個話題。難得的是通篇乾貨的討論，主持人還能跟上節奏，這個訪談在模型訓練相關話題的觸及深度上是非常少見的。推薦給關心細節的讀者們。

在訪談開始，Schulman解釋說，在訓練前，模型會模仿互聯網或網絡上的所有內容，包括網站和代碼等。訓練後，模型會針對更窄的行爲範圍進行優化，比如作爲聊天助手，提供幫助和回答問題。

他預測，未來五年內，模型將變得更好，能夠完成比現在更復雜的任務。例如，可以想象讓模型執行整個編碼項目，而不僅僅是提供編寫函數的建議。他還提到，模型將更具樣本效率，能夠更好地從錯誤中恢復，更善於處理邊緣情況。

Schulman對模型是否存在一個真正清晰的縮放定律持保留態度，因爲可能會出現某種相變，一旦達到某個水平，就能處理更長的任務。通過使用語言，可以描述所有這些不同的時間尺度，然後可以制定計劃，嘗試朝着目標前進，無論這個目標是一個月後還是十年後的。

Schulman預測，一旦開始進行長期的強化學習訓練，模型將能夠在更長時間裡保持連貫。然而模型可能仍會有其他雜項缺陷，導致它們陷入困境或無法取得進展。

Schulman還討論了AI模型的泛化和遷移能力，例如，如果用英語數據訓練模型，它也能在其他語言中表現良好。此外AI模型有侷限性，例如，模型可能會錯誤地認爲自己可以執行某些任務，如發送電子郵件或叫Uber。

談到AI的未來發展，特別是如果AI的發展比預期更快，Schulman認爲我們可能需要在訓練和部署方面放慢速度，直到非常確定可以安全地處理AI。可能需要在大型實體之間進行協調，以避免犧牲安全性。然而，他也承認，他不確定如何長期保持這種平衡。如果能夠合理協調，就能找到一種方法來部署真正智能的人工智能，這將作爲人們意志的延伸，並防止其被濫用導致災難。這將帶來繁榮和更快的科學進步。然而需要考慮如何確保這些系統不會被濫用或試圖發動政變。

Schulman傾向於逐步部署比以前更智能的系統，以提高安全性。如果情況開始變得可怕，可以放慢速度。在部署新系統時，可能需要進行大量的測試，例如模擬預期的部署，並希望有一個良好的監控系統，以便在部署的系統開始出現問題時能夠立即發現。

在進行長期視角的強化學習時，需要密切關注任何不連續的跳躍，並進行大量的評估。需要確保的模型沒有任何理由反對，而且需要對模型的能力進行大量的評估。在今天的強化學習和人類反饋系統中試圖通過獎勵模型來最大化人類的認可。模型只是試圖產生一些人們會喜歡並判斷爲正確的東西。在推理方面，Schulman認爲最佳的結果是將訓練階段的計算和測試階段的逐步推理結合起來。

Schulman關注兩種學習方式:一種是上下文學習，雖然樣本效率高，但會隨着每個實例的變化而被破壞;另一種是大規模訓練，雖然不會隨實例變化而破壞，但可能過於淺薄。他探討了是否存在一種中間路徑，既不會隨實例變化而破壞，也不會過於淺薄，而是更加刻意和主動。

這種中間路徑可能涉及某種中期記憶，既能適應上下文，又比預訓練小得多。這可能涉及到推理，通過自推理髮展知識，同時使用內省和自知識來確定需要學習什麼。這種能力是當前系統所缺少的。

人們並沒有真正努力在這個中間地帶，例如大規模訓練和上下文學習之間找到平衡。OpenAI希望能構建一個能進行在線學習的系統，同時具有一些認知技能，如反思自己的知識，尋找新的知識來填補空白。

Schulman還談到了他們在OpenAI的工作，包括創建ChatGPT，以及他們對聊天機器人和指令遵循模型的研究。他們發現這些模型在語言和代碼方面表現出色，但也存在一些問題，如產生幻覺和不正常的輸出。

在這個討論中，Schulman關注了聊天模型的發展，以及如何通過混合數據集(如指令和聊天數據)來優化模型。他認爲，聊天模型更易於使用，並能自理解其侷限性，從而表現出更明智的行爲。Schulman也提到了模型的微調過程，強調了迭代監督微調的重要性，即讓人類編輯模型生成的輸出。還提到強化學習訓練的指令跟隨模型，以及如何通過微調和包裝器來創建類似的模型。

關於人工智能的發展速度，Schulman認爲自GPT-2以來，其發展速度比預期的要快。此外，他還探討了GPT-4的ELO分數提高，認爲這主要是由於後訓練帶來的改進。

Schulman對是否存在數據瓶頸的問題進行了探討，儘管數據量有限會帶來一些挑戰，但OpenAI不認爲會立即遇到數據瓶頸。關於從不同類型的預訓練數據進行概括的問題，這是一個科學研究的挑戰，因爲無法創建大量的預訓練模型進行研究。

關於模型規模與其智能程度之間的關係，Schulman認爲，較大的模型可能會學習更好的共享表示，而較小的模型可能過於依賴記憶。那麼，爲什麼大型模型在相同數量的數據上訓練時會變得更聰明，或者在更少的數據上訓練時可以獲得相同的智能呢？Schulman解釋說，這可能是因爲大型模型可以視爲一系列不同電路的集合，用於進行並行計算。在更大的模型中有更多的計算，因此更有可能找到一個幸運的計算，最終獲勝。

他進一步解釋說，大型模型就像一個庫，可以將函數以某種方式鏈接在一起，具有一定的可組合性。因此，大型模型有一個更大的不同計算庫，包括許多處於休眠狀態並且只在某些時候使用的東西。

在未來幾年的發展趨勢方面，Schulman希望能夠添加新的模式，通過預訓練和後訓練的結合，不斷改進功能，開闢新的用例。他預計隨着時間的推移，人工智能將成爲經濟的重要組成部分，人們將更好地理解如何將其集成到不同的流程中。

然而，這也提出了一個問題:如果人工智能變得足夠強大，能夠自己經營一家成功的企業，那麼人類是否還需要參與其中？Schulman認爲即使人工智能變得非常有能力，人們仍然是人工智能最終行動的驅動力。但是，如果有人蔘與的公司在競爭中敗給了沒有人蔘與的公司，那麼可能需要某種監管，禁止沒有人蔘與整個公司的運營。

雖然AI運營的公司在許多方面可能表現得更好，但它們也存在更高的尾部風險，因爲它們更有可能出現大規模故障。這是因爲AI在處理非常古怪的情況時仍然缺乏樣本效率。我們可能更傾向於讓人類參與其中，至少在不久的將來是這樣。如果AI在管理所有方面都表現得更好，而且它們也完全仁慈，已經完全解決了協調問題，它們比人類更善於對人類負責，那麼讓AI管理公司也許是可以的。但這可能還是一個遙遠的未來。

Schulman還討論了AI系統的責任和激勵機制，以及如何在不同利益相關者的需求之間做出妥協。OpenAI提出了一個名爲"模型規範"的文檔，該文檔詳細描述了他們希望模型在API和ChatGPT中如何表現。

關於機器學習研究的狀態，Schulman認爲與社會科學等其他領域相比，機器學習是一個相對健康的領域，因爲它有堅實的基礎，在很大程度上基於實用性和讓事情正常運轉。他還提出了一些關於如何提高模型效率和改進的問題，以及如何使模型更具可操作性。

OpenAI正在努力改進AI寫作體驗，使其更生動、有趣，例如改進了ChatGPT的個性。他們也在探索AI的語言模型如何影響語言使用，以及如何可能在語言模型提供商之間發生無意的提煉。他們發現人們喜歡結構化的迴應和大量信息，但也注意到模型可能比人們需要的更冗長。這可能是因爲在標記階段，評分者更喜歡更冗長的答案，或者是因爲預訓練的方式導致模型傾向於繼續生成文本。

關於人們的偏好是否會隨着模型輸出的速度而改變，以及如何最好地描述人們的偏好，Schulman發現，大數據集可以幫助捕捉人們的模糊偏好，而更大的模型可以自動學習人們可能會發現有用和有幫助的概念。

訓練後創建一個真正具有人們關心的所有功能的模型是相當複雜的，需要大量的專業人士和大量的研發積累。這使得它有點像護城河，不容易被複制或啓動。然而，也有可能通過提煉模型或使用別人的模型來克隆輸出或進行比較。

Schulman提到，標籤者來自不同的背景和專業領域，他們在完成任務方面非常優秀。他發現，模型的能力與在微調數據集中擁有非常接近匹配的標籤有關。然而，模型也可以從泛化中獲得很多東西，即使沒有在特定領域上訓練它，只要訓練一個偏好模型以獲得有用性，它也會在某種程度上推廣到那個領域。

OpenAI正在對更多的多模態數據進行訓練，使模型能夠理解屏幕的樣子，並能夠以更連貫的方式與之交互。他們也在使用強化學習使模型能夠充當系統中的代理，以更加集成的方式成爲工作流程的一部分。Schulman期望在不久的將來，我們會擁有一個類似於助手的東西，可以在屏幕上與你一起工作。他希望AI能夠更像一個樂於助人的同事，而不僅僅是一個執行一次性查詢的工具。他期待AI能夠更加主動，能夠理解並參與到用戶的整個項目中，甚至能夠主動提出建議和幫助。

=以下是訪談全文的天空之城書面整理版，共2.5w字=：

主持人

如果明年沒有其他瓶頸或其他阻礙，你有了人工智能的通用智能（AGI），你的計劃是什麼？

今天，我有幸與John Schulman進行了交談。他是OpenAI的聯合創始人之一，負責領導這裡的後期訓練團隊。他還領導了ChatGPT的創建，是許多最重要的、被廣泛引用的人工智能和強化學習論文的作者。約翰，很高興和你聊天，感謝你參加播客。

John Schulman：

也感謝你邀請我參加播客。我是你的忠實粉絲。

哦，謝謝，謝謝你這麼說。

那麼，我的第一個問題是，除了損失函數和訓練機制方面實際發生的情況之外，我們在訓練前和訓練後之間還有這些區別。我只是好奇，從概念上退一步，訓練前會創造什麼？在此基礎上，訓練後會做什麼？

在訓練前，你基本上是在訓練模型去模仿互聯網或網絡上的所有內容，包括網站和代碼等等。所以你會得到一個模型，它基本上可以生成看起來像互聯網上隨機網頁的內容。而且該模型還經過訓練以最大化可能性，它必須對所有內容賦予概率。所以目標基本上是根據前幾個標記預測下一個標記。標記就像單詞或單詞的一部分。由於模型必須對其賦予概率，而我們正在訓練以最大化對數概率，因此它最終會非常精確。所以它不僅可以生成網絡上的所有內容，還可以爲所有內容分配概率。因此，基礎模型可以有效地承擔所有這些不同的角色或生成所有這些不同類型的內容。

然後，當我們進行後期訓練時，我們通常針對更窄的行爲範圍，我們基本上希望模型表現得像這種聊天助手。這是一個更具體的角色，它試圖提供幫助。它不是試圖模仿一個人。它是回答你的問題或完成你的任務。我們正在針對不同的目標進行優化，這更多地是產生人類會喜歡和覺得有用的輸出，而不是僅僅試圖模仿來自網絡的原始內容。

是的，好的。我想也許我應該退一步問，現在我們有這些模型，它們非常擅長充當聊天機器人。退一步看看這些流程目前的工作方式，這些模型將在年底前發佈什麼……這些模型在年底發佈的東西，我們能做什麼？您認爲未來五年內會取得怎樣的進展？

是的，我認爲模型在五年內會變得更好。是的。所以，我認爲即使在一兩年內，我們也會發現您可以使用它們來完成比現在更復雜的任務。例如，現在，您可以想象讓模型執行整個編碼項目，而不是給您一個關於如何編寫函數的建議。因此，你可以將這個模型想象成，你給出一些關於編寫代碼的高級指示，然後它會去編寫許多文件並進行測試，查看輸出，然後對其進行一些迭代。這只是一個更復雜的任務。

基本上，這個模型能否連續運行足夠長的時間來編寫多個代碼文件？或者說，從現在到那時，會發生什麼變化？

是的，我認爲這樣的更艱鉅的任務將通過訓練模型來完成。就像我之前所說，模型並不是特別……大多數訓練數據更像是一次執行單個步驟。我希望我們能做更多的工作來訓練模型，以執行這些較長的項目。我認爲任何類型的訓練，比如進行強化學習來學習如何完成這些任務，無論你怎麼做，無論你是監督最終輸出還是監督每一步，我認爲任何一種執行這些長期項目的訓練都會讓它們變得更好。由於整個領域都很新，我想說有很多唾手可得的成果。這在進行這種訓練時非常有趣。

我認爲這是一回事。此外，我希望隨着模型變得越來越好，它們會更好地從錯誤中恢復，或者它們只是更善於處理邊緣情況，或者當出現問題時，它們知道如何從中恢復。因此，模型將更具樣本效率。你不必收集大量數據來教他們如何回到正軌，只需一點數據或只是他們從其他能力中概括出來的數據就可以讓他們回到正軌，而當前的模型可能會陷入困境並迷失方向。

我不確定我是否真正理解了……我想更明確地瞭解概括如何幫助你回到正軌。你能詳細說一下嗎？我不確定我是否明白這兩個概念爲什麼有聯繫。

對，它們沒有直接聯繫。所以我想說你通常會有一點數據可以做所有事情。如果你收集了一個多樣化的數據集，你會得到其中的一點點東西。如果你有概括性非常好的模型，即使只有幾個回到正軌的例子，比如在預訓練中，有回到正軌的例子，那麼模型將能夠從它看到的其他事物中概括到當前的情況。

我認爲，如果你有較弱的模型，你可能能夠讓它們在有足夠的數據的情況下做幾乎任何事情。但你可能必須在某個特定領域或技能上投入大量精力，而對於更強大的模型，它可能無需任何訓練數據或任何努力就能做正確的事情。

你現在對這些模型可能可以連貫地行動五分鐘有什麼直覺嗎？我們希望它們能夠完成人類需要一小時、一週、一個月等才能完成的任務。

從這些基準中得到的結果，是否每個基準都需要10倍以上的計算量，類似於當前預訓練的縮放損失，還是會有一個更精簡的過程，因爲只要達到那個點，你的樣本效率就已經更高了，然後你就可以，你只需要花幾年時間完成一項任務或其他事情。

是的，我想說，從高層次來看，我同意更長遠的任務將需要更多的模型智能才能做好，而且訓練成本也會更高。我對是否存在一個真正清晰的縮放定律持保留態度，除非你能以極其謹慎的方式設定它，或者以某種方式設計實驗。因爲我認爲，最終可能會出現某種相變，一旦你達到某個水平，你就能處理更長的任務。

例如，我認爲當人們在不同的時間尺度上進行規劃時，我並不確定他們是否採用了完全不同的機制。因此，無論我們是在考慮一個月後、一年後還是一百年後的事情，我們可能都是使用相同的思維機制。因此，我們實際上並沒有進行某種強化學習，我們需要擔心的是如何涵蓋這個時間尺度的折扣因子等等。

我認爲，通過使用語言，你可以描述所有這些不同的時間尺度，然後你可以做一些事情，比如在當下制定計劃，你可以嘗試朝着你的目標前進，無論這個目標是一個月後還是十年後的。因此，我對模型也有同樣的期待，我不確定這是否是一個相變，但我認爲有一些功能可以在多個尺度上發揮作用。

如果我理解錯了，請糾正我，但這似乎意味着我們現在擁有的模型是基於每個Token的，非常智能，就像他們可能和人類一樣聰明，基於每個Token，最聰明的人類。然而，阻止它們發揮應有作用的原因是，從現在起五分鐘後，它們將無法以連貫的方式編寫代碼，也無法與你對項目的更廣泛目標保持一致。

如果情況確實如此，那麼一旦你開始這種長期的強化學習訓練計劃，它就會立即釋放你在更長時間裡保持連貫的能力。一旦該制度被解鎖，我們是否應該預測一些人類水平的事情？如果不是，那麼在你可以計劃一年並執行需要那麼長時間的項目之後，還剩下什麼？是的，一旦我們進入該制度，我們會看到什麼以及進展速度有多快還不完全清楚。所以這仍然不確定。

我想說，我預計會有，我不會指望通過任何這樣的訓練立即解決所有問題。我認爲模型還會有其他雜項缺陷，導致它們陷入困境或無法取得進展或做出比人類更糟糕的決定。所以我不會說我預計這一件小事會解鎖所有能力，但目前還不清楚。但它可能會在執行長期任務的能力方面有所提高，這可能會走得很遠。

你認爲這是合理的嗎？或者似乎很可能有其他原因導致瓶頸？我也有點好奇，瓶頸的本質是什麼？因此，它擁有所有這些用於預訓練的表示。現在，由於長視界強化學習，它可以在很長一段時間內保持連貫性。那麼，還剩下什麼？

也許還有一些，比如人類專家在不同任務中帶來的其他經驗，比如有品味或更好地處理歧義。所以我可以想象，如果我們想做一些研究之類的事情，這些考慮就會發揮作用。顯然，它們只是一些平凡的限制，比如模型的承受力，比如它是否可以使用用戶界面。顯然還有物理世界或訪問事物。所以我認爲可能有很多平凡的障礙，這些障礙可能不會持續那麼久，但最初會減慢進度。

對於這些被設計出來的人工智能網站，一旦它們在更多的多模態數據上進行訓練，或者至少變得更加多模態，它們與我們爲人類設計的網站會有何不同？例如，它們所需的用戶界面（UI）是什麼樣的？如何彌補它們的優點和缺點？它們與我們目前爲人類設計的UI有何不同？

這是一個有趣的問題。我希望這些模型能夠使用僅通過視覺爲人類設計的網站，比如當它們的視覺能力變得更強大時，我們並不需要立即改變它們。另一方面，有些網站可能會從人工智能的使用中受益，它們可能希望設計出更好的人工智能用戶體驗。我不確定這到底意味着什麼，但可能就像我們的模型在文本模式下仍然比從圖像中讀取文本更好一樣，你可能希望有一個好的基於文本的模型表示。這也是一個很好的跡象，表明所有可以交互的東西是什麼。但我不會期望網絡被完全重新設計，讓API無處不在，因爲我希望我們能夠讓模型使用與人類相同的UI。

我認爲這就是語言模型的重大教訓，它們可以以與人類類似的能力行事。你之前提到的關於這個過程的觀點可能更具有樣本效率，因爲它可以從預訓練中的經驗中概括出如何在不同場景中擺脫困境。我很好奇你所見過的這種概括和遷移的最有力證據是什麼。因爲關於模型未來能力的最大問題似乎是發生了多少概括。有什麼讓你感覺非常有說服力的東西，比如你真的學到了一些你不會期望它從這裡的概括中學到的東西？

在訓練後，確實有一些有趣的概括實例。比如一個衆所周知的現象是，如果你用英語數據進行所有的微調，你的模型也會在其他語言中表現良好。因此，如果你用英語數據訓練助手，它也會用西班牙語做一些合理的事情。有時你可能會得到錯誤的行爲，比如它是用英語回覆還是用西班牙語回覆，但通常你也會得到正確的行爲。比如你讓它用西班牙語回答西班牙語的查詢。所以這是一種有趣的泛化實例，你只需要抓住合適的有用角色，然後你就會用不同的語言自動做正確的事情。

我們已經看到了一些使用多模態數據的版本，如果你只對文本進行微調，你也會得到合理的圖像行爲。在ChatGPT的早期，我們試圖解決一些問題，讓模型理解自己的侷限性。早期版本的模型會認爲他們可以給你發電子郵件或叫Uber之類的。該模型會嘗試扮演助手的角色，它會說，哦，是的，我當然發了那封電子郵件。

但顯然它沒有。

所以我們開始收集一些數據來解決這些問題，我們發現，即使將少量數據與其他所有數據混合在一起，也能解決問題。所以我不記得具體有多少例子，但大概有30個。我們目前擁有的例子相當有限，這些例子展示了一種普遍現象，即解釋模型並不具備這種能力，而且這種現象很好地推廣到了我們尚未訓練過的各種能力。

我想再次提出這個問題，因爲我不確定我是否已經理解了。如果你有一個經過訓練的模型，它可以在更長的時間內保持連貫性，那麼這是否意味着，除非存在其他瓶頸（可能存在也可能不存在），否則到明年，你的模型在表現上可能達到人類水平？你可以像與人類同事一樣，以同事的身份與模型互動。你可以指示它們去做一些事情，它們就會去執行。如果這就是你認爲可能實現的能力，那麼這個預測有什麼問題？

是的，很難確定會有什麼缺陷。

我想說，當你今天與模型交談時，除了長期連貫性之外，它們還有各種弱點，比如認真思考事情或注意你問他們爲什麼。所以我想說，我不會期望僅僅提高一點連貫性就能達到人工智能的水平。但我無法清楚地表達出，阻止他們成爲一個完全發揮作用的同事的主要弱點是什麼。

看起來你應該爲很快擁有人工智能的可能性做計劃。

是的，我認爲這是合理的。

那麼計劃是什麼？如果明年沒有其他瓶頸，你就有了人工智能，那麼計劃是什麼？

我想說，如果人工智能比預期來得更早，我們肯定會對此保持謹慎。我們可能希望在訓練和部署方面放慢一點速度，直到我們非常確定我們可以安全地處理它。我們對它將要做什麼、能做什麼有很好的把握。所以我認爲，是的，如果它比預期的要早得多，我們必須非常小心，因爲我認爲我們的理解在很多方面仍然處於初級階段。

小心意味着什麼？因爲想必你已經很小心了。你在訓練之前會做這些評估。

是的，我想說也許不要訓練更智能的版本，在訓練它時要非常小心，確保它經過適當的沙盒處理等等。也許不要大規模部署它，或者不要小心部署它的規模。

嗯。是的，我想我沒有……好吧，讓我們來玩一下這個場景。它發生在明年，然後你沒有訓練一個更智能的系統，而是在以某種有節制的方式部署。

是的，我在想...大概這在人工智能中並不是特別開放，但這只是......智能比我們預期的要容易得多，這就是它發生的原因。所以你等着部署。現在，其他公司也擁有類似的能力。接下來會發生什麼？所以你一直在等待部署。你在等什麼？在這種情況下，每家公司都在做什麼？

是的，博弈論有點難以理解。

所以首先，我不認爲明年會發生這種情況，但進行對話仍然很有用。也許是兩三年。

但兩三年還很快。

是的，還很快。我確實認爲你可能需要一些協調。每個人都需要就如何部署或進一步訓練的合理限制達成共識，才能實現這一目標。如果沒有這樣的共識，就會出現競爭態勢，每個人都在努力保持領先地位，這可能會犧牲安全性。因此，我認爲可能需要在進行這種訓練的大型實體之間進行協調。

那麼，你在協調的過程中，我想知道，你會暫停部署到什麼時候？直到你弄清楚模型中發生了什麼？

或者是進一步訓練，暫停部署，以避免我們認爲可能存在更大風險的某些類型的訓練。因此，我們需要爲每個人應該做的事情制定一些合理的規則，讓每個人都在一定程度上限制這些行爲。

那麼，限制到什麼程度呢？因爲我認爲在某個時候，你將不得不釋放這種智能的潛在能量。那麼，假設兩年後，我們得到了人工智能，現在每個人都很緊張，人工智能公司已經暫停了。那麼，我們現在應該怎麼做？或者我們應該等到什麼時候？

對此，我沒有很好的答案。

我想說，如果每個人都能協調一致，那將是一個不錯的場景。因爲我確實認爲，建立這些模型需要大量的資本，而且包含很多複雜的部分，所以並不是每個人都能在家裡重新創建這些東西。考慮到能夠訓練最大模型的實體數量相對較少，協調似乎是可能的。但我不確定你如何長期保持這種平衡。如果我們能達到這一點，我認爲我們就會處於一個不錯的位置。

我很好奇，我不確定接下來會發生什麼。因爲從根本上講，我們有大量的資源，比如你可以把它推送到服務器上。現在我們有了一堆智能，或者它們可以把自己推送到服務器上。現在我們讓每個人都協調起來了，但我不確定我們接下來在這個世界上做什麼。我們想，爲什麼這會讓我們獲得一個好的結果？

我想說，如果我們每個人都能合理地協調，我們就能找到一些辦法。我們覺得我們已經很好地解決了協調方面的技術問題，能夠部署真正智能的人工智能，作爲人們意志的延伸，而且還能防止它們被濫用而導致災難，我認爲這會很棒。我們可以繼續安全地部署這些系統，這將帶來很多繁榮和一個新的、更快速的科學進步階段等等。所以我認爲這會是好的情景。

但我很好奇，比如，你怎麼知道幾年後所有這些參與者，即使在最好的情況下，他們也同意暫停，直到我們弄清楚我們正在構建的一致系統不會試圖接管政變或不會讓別人這樣做？這方面的證據是什麼樣的？

我想說，如果我們可以逐步部署比以前的系統更智能的系統，那麼我認爲這會更安全。因此，我期望的情況並非每個人都必須協調、鎖定並安全地釋放事物。這樣可能會導致勢能的大幅積累。我更傾向於這樣的場景：我們只是不斷地釋放比以前更好的東西，同時確保我們對每個差異都有信心，認爲它們都在改善安全性和一致性，以適應能力的提升。如果事情開始變得有些可怕，我們可以放慢速度。這就是我所期望的。

我想說，如果出現更多的不連續跳躍，問題就在於，你如何知道你得到的東西是否可以安全地釋放？我不能給出一個通用的答案。但爲了讓這更容易接受，你可能需要進行大量的測試，比如模擬你期望的部署。所以紅隊就是這樣。你會希望以一種比你計劃在現實世界中做的事情更不利的方式，或者更有可能失敗的方式來進行。你會希望有一個非常好的監控系統，這樣如果部署的系統開始出現問題，你會覺得它會立即被發現。也許你有一些東西在監視部署的人工智能和它們在做什麼，並尋找麻煩的跡象。

我想說，你需要一些縱深防禦。你會希望有一些組合，比如模型本身表現得很好，有無可挑剔的道德準則等等。你非常有信心，它對任何類型的接管企圖或嚴重濫用都具有極強的抵抗力。然後你還希望在它之上有非常好的監控。所以，你可以檢測到任何類型的麻煩。

在進行 Long Horizon RL 時，或者當你最終開始進行這項任務時，你會跟蹤什麼，以便在廣泛部署這些系統之前注意到這種不連續的跳躍？

我想說，你會希望在訓練過程中進行大量評估。

那具體會是什麼呢？你怎麼會注意到類似這樣的事情？在知道這是可能發生的事情的情況下，在 Long Horizon RL 上進行訓練是否有意義？或者這只是一種非常低的可能性？你如何看待這個問題？

如果你看到很多潛在的可怕能力，如果它們看起來很接近，那麼在進行這種訓練時，你需要非常小心。我認爲這不是我們想要的，我們現在必須害怕，因爲現在很難讓模型做任何連貫的事情。但如果它們開始變得非常好，我想我們會想要，我們必須認真對待其中的一些問題。我們希望進行大量的評估，以測試它們在大多數方面是否存在不當行爲，或者我猜這就像模型的對齊。我們想要檢查它們是否不會對我們或其他什麼的。但你可能還想尋找不連續的跳躍和能力。你會想要對模型的能力進行大量的評估。

我想你也想確保無論你正在訓練什麼，都沒有任何理由讓模型反對你，我認爲這本身並不是最難做到的事情。就像我們用 RLHF 訓練它們的方式一樣，這確實感覺非常安全，即使模型非常聰明，它也確實感覺非常安全，因爲模型只是試圖產生一個讓人類愉悅的信息。該模型並不關注世界上的其他任何事情，它只關注自己生成的文本是否得到了批准。

因此，很明顯，如果你正在進行某項任務，而模型正在執行一系列涉及工具等的操作，那麼在生成最終結果的過程中，它可能會有動機去做很多對人類來說毫無意義的古怪事情。但我認爲，它並不一定有動機去做除了生成非常高質量的輸出之外的任何事情。

因此，我認爲你對於工具收斂的傳統觀點，比如模型會想要接管世界，以便最終能生成出色的代碼，可能並不準確。例如，如果你讓它爲你編寫一個Flask應用程序，它可能會說：“首先，我需要接管世界，然後我需要……”但我不知道。然而，對於這樣一些明確的任務，很難想象爲什麼你會首先想要征服世界。當然，如果你的任務是賺錢，那麼這可能會導致一些惡劣的行爲作爲工具性目標。

在我們回到這個問題之前，讓我們先退一步，談談今天的強化學習和人類反饋（RLHF）系統等。但我確實想在某個時候跟進一下，這是一個很有趣的話題。

今天的RLHF，它影響這些模型的方式是……你會將其描述爲……從人類心理學的角度來看，它是一種驅動力嗎？它是一個目標嗎？它是一種衝動嗎？從心理學的角度來看，它是如何改變的？不僅僅是聊天機器人的角色，不要這樣說話，用另一種方式說話，或者不要產生那些輸出。

我想說，可能有一些類似於人類的驅動力或目標。因此，你會試圖轉向某一組狀態，而不是其他狀態。我認爲我們的驅動力或目標概念還包括實現目標後的滿足感。這些因素可能與學習算法的關係比模型在運行時所做的更密切，因爲你只有一個固定的模型。所以我想說，可能有一些類比，儘管我不知道它們到底有多接近。但我想說，在某種程度上，模型確實以某種有意義的方式具有驅動力和目標。在RLHF的情況下，你試圖通過獎勵模型來最大化人類的認可，模型只是試圖產生一些人們會喜歡並判斷爲正確的東西。

我聽說過兩種想法，即使用那種獨白類型的東西來更好地推理，至少在公開場合，我見過這種事情。我很好奇你認爲哪種更有希望。一種是模型從它輸出的一系列潛在思路中學習，它學會遵循導致正確答案的思路，並在部署之前對其進行訓練。另一種是在部署中使用大量推理，這涉及模型在部署時與自己對話。你希望它更接近哪一個？當它真正擅長推理時，是因爲它只做了一堆推理雲，還是因爲你訓練它在這方面做得很好？

好的，我想說，推理可以被定義爲在測試階段需要進行某種計算或推理的任務。因此，根據這個定義，推理是需要在測試階段進行一些計算和逐步推理的任務。另一方面，我也希望能夠在訓練階段進行一些計算或通過訓練獲得豐富的收穫。因此，我認爲，將這兩者結合起來，可以得到最佳的結果。

目前，模型有兩種學習方式：一種是在訓練階段，另一種是自由訓練或後訓練，但大部分的計算訓練都花在了自由訓練上。這就像是在掩蓋數萬億個標記，就像是在瀏覽數萬億個標記的信息，如果人類受到這種影響，就會感到非常困惑，這並不是一種有效的學習方式。

另一種方式是上下文學習，雖然這種方式的樣本效率更高，但它會隨着每個實例的變化而被破壞。我很好奇，你是否認爲在這兩種方式之間有一條路徑，它不會隨着每個實例的變化而被破壞，但它也不會像只看到數萬億個標記那樣輕浮，它更加刻意和主動。

你的意思是，模型具有某種中期記憶，因此太多而無法適應上下文，但規模比預訓練小得多？

我不確定這是否是記憶，可能是記憶。我沒有上下文，但當然，當我試圖爲這次談話做準備時，我覺得我想到了我應該理解的內容。所以我查閱了它，仔細閱讀了它，也許在閱讀時會思考它。我不確定它在模型方面自然對應的是什麼，但它會是什麼樣子？我很好奇。

我明白了。所以這不僅僅是記憶，它也有點像專門從事某項任務，專門從事某項任務或爲某個特定項目投入大量精力。

我甚至不確定這是否更像是專業化。因此，我在思考，我對這部分的理解還不夠深入。我需要更深入地研究這部分。現在，我已經理解了。我將專注於你現有的知識庫。

是的，我明白了。這不僅僅是找到我不知道的內容，然後在一系列相關的資源上進行訓練，以在某些特殊領域進行微調。這也涉及到推理，例如，通過自己的推理來發展一些知識，同時使用某種內省和自我知識來弄清楚你需要學習什麼。是的，我想說，這確實感覺像是當前系統中所缺少的部分。

我想說，人們並沒有真正在這個中間地帶上努力，例如大規模訓練，例如你製作的快照模型，它應該像部署模型一樣做所有事情。另一方面，就像在上下文學習中一樣。我認爲部分原因是我們一直在增加上下文長度，以至於沒有動機這樣做。所以，如果你能達到十萬或一百萬個上下文，那實際上就很多了。

在很多情況下，這實際上並不是瓶頸，但我同意，你可能還想通過某種微調來補充這一點，例如，你從微調和情境學習中獲得的能力可能在某種程度上是互補的。因此，我希望我們能夠構建能夠進行某種在線學習的系統，並且還擁有一些認知技能，比如反思自己的知識，尋找新的知識來填補空白。

這一切都是同時發生的嗎？比如，這是否就像一種新的訓練機制，所有這些事情都可以同時發生，或者無論是長期訓練還是這種訓練，它們是分開的，還是隻是因爲模型足夠聰明，所以它們既可以自省，又可以在更長的視野範圍內行動，你可以在長期任務上獲得足夠的回報？

是的，我想說，如果你正在做一些長期任務，那麼我會說，你在做任務的同時也在學習。因此，完成涉及很多步驟的事情的唯一方法就是在任務過程中更新學習和記憶。因此，就像短期記憶之間存在一個連續體，短期記憶和長期記憶之間。

所以，我想說，是的，我希望，我希望當我們開始更多地關注長期任務時，這種能力將開始變得清晰，對它的需求將開始變得清晰。而且，在某種程度上，僅僅將很多東西放入上下文中可能會讓你走得很遠，因爲我們現在有很長的上下文，但你可能還需要微調之類的東西。

至於內省和主動學習的能力，這可能會自動從模型的能力中脫離出來，讓他們知道他們知道什麼。因爲他們有一些，模型對他們所知道的東西有一些校準。這就是爲什麼，這就是爲什麼，模型不會產生那麼嚴重的幻覺，因爲是的，他們對自己的侷限性有一些瞭解。所以我認爲同樣的能力可以用於主動學習之類的事情。

那麼，所有這些複雜的RL程序，你們開創的許多程序，當模型本身變得如此智能，以至於它可以充當自己的環境並以更在線和穩定的方式進行交互時，其中有多少是相關的。真的嗎？那麼，相較於過去的RRL解決方案，進步的道路會更直接嗎？

我個人認爲，策略梯度算法並非最有效的樣本算法。因此，如果你希望快速學習，這可能並不是你在測試時想要採取的策略。然而，誰又能確定呢？也許情況並非如此糟糕。我傾向於認爲，像動物的運動學習可能是一種策略評分算法。例如，當你正在學習如何投籃時，你可能需要數千次的嘗試才能提高準確率。我想你可能會使用一些類似策略評分算法的方法。但是，這並不是最快的學習方式，尤其是當你有一個模型試圖完成一個項目或某種任務時。

因此，我認爲我們會更多地依賴情境學習，你實際上有一個學習算法，就像你已經學會了如何探索，如何詳盡地嘗試所有可能性，而不是一遍又一遍地重複同樣的事情，犯同樣的錯誤。所以，我想說我們將能夠做一些看起來更像學習搜索算法的事情，這將是那種在特定任務中會用到的東西。這是一個有趣的觀點。

好的，我想退一步問一下你自己的歷史。至少在OpenAI，你領導了ChatGPT的創建。你是在什麼時候意識到，首先，這些LLM是要走的路，然後聊天機器人會是，或者某種指導它們的方式會是一件有用的事情。請跟我講一下整個過程，比如，從什麼時候開始，這成爲了你的重點，整個過程是怎樣的。

在很早以前，也就是在ChatGPT之前，我們在OpenAI有這些指令遵循模型，這就是當時的想法，我們有基礎模型，人們可以用複雜的方式提示它們。但是，它們也有點難以提示。你必須，它們基本上會自動完成。所以你必須用一些例子來設置一個非常好的提示。因此，OpenAI的人們正在研究，只是採用基礎模型並使它們更容易提示，這樣如果你只是寫一個問題，它就會回答這個問題，而不是給你更多的問題或其他東西。所以，我們有這些指令遵循模型，它們有點像基礎模型，但使用起來更容易一些。那些是最初在API中部署的，或者在GPT-3之後，那些是下一代模型。

與此同時，肯定有很多人在考慮聊天。谷歌有一些論文，比如他們有Lambda和早期的Mina。所以他們有這些聊天機器人，它更像是，就像你有一個，它更像是一個真正專門用於聊天任務的基礎模型，非常擅長聊天。而且，至少，從論文中的例子來看，它更多地用於一些有趣的應用程序，比如，模型會扮演某種角色並假裝是那個角色。它的功能不是那麼強大，比如，比如幫助我重構我的代碼。確實，有人正在考慮關於聊天的問題。我曾參與過一個名爲WebGPT的項目，該項目主要研究聊天，它主要依賴於網頁瀏覽和檢索來進行問答。當你回答問題時，它真的希望能夠處於聊天狀態，因爲你總會想要問一些後續問題，或者有時你需要澄清一些問題，模型也應該提出一個澄清問題，因爲問題可能是模棱兩可的。因此，在我們完成第一個版本後，很明顯，下一個版本應該是對話式的。

無論如何，我們開始研究如何創建一個對話式的聊天助手。這個項目是基於GPT 3.5的，它在2022年初完成了訓練。這個模型在語言和代碼方面表現得相當出色。我們很快就意識到，它在編碼幫助方面表現得相當出色，這是我們感到興奮的事情之一。因此，我們致力於這個項目。

我們花了一年多的時間研究這個項目，我們還有一個瀏覽功能，但我們最終淡化了這個功能，因爲模型的內部知識非常好，我們並不需要瀏覽功能，這並不是最有趣的事情。然後，我們開始考慮將它用於beta測試，或者向朋友和家人發佈一段時間。我們正在考慮公開發布。

然而，當時，GPT 4實際上在8月份完成了訓練。實際上，OpenAI的旗艦RL項目是指令跟隨項目，因爲這是被部署到生產中的模型。因此，GPT 4的第一次微調使用了整個堆棧。這些模型表現得非常好。在看到GPT 4的微調指導後，每個人都對此感到非常興奮。這些模型確實非常好，它們偶爾會給你驚人的輸出，但它們也有一些問題，模型顯然非常不可靠。有時它會產生很多幻覺，有時會給你非常不正常的輸出。所以它顯然還沒有爲黃金時段做好準備，但它顯然非常好。

是的，所以我想，在那之後人們可能會暫時忘記聊天，因爲這像是一個替代分支。但是後來我們進一步推動它，最終將所有數據集混合在一起，例如指令和聊天數據，並嘗試獲得兩全其美的東西。而且，我認爲，我們的聊天模型顯然更簡單，更易於使用。這有點像模型瞭解自己的侷限性，自動錶現出更明智的行爲。這實際上是我們在開發過程中讓我感到興奮的事情之一，我意識到很多人們認爲是語言模型缺陷的東西，比如明顯的幻覺，可能無法完全修復，但是你可以用相當簡單的方法取得很大進展。

另外，關於聊天的另一件事是，當我們有這些指導模型時，比如完成這段文字的任務，但以一種好的方式或一種有用的方式，這是一個定義相當模糊的任務。因此，我認爲這項任務對於模型和負責數據標記的人來說，都是相當困擾的。然而，對於聊天，我認爲人們有一種直覺，他們知道一個有用的機器人應該是什麼樣的。因此，我認爲向人們解釋模型應該做什麼會更爲簡單。是的，我認爲，如果模型具有更連貫的個性，就像讓機器人表現出明智的行爲一樣，會更爲穩健。這是相當有趣的。

是否有人可以使用公開提供的微調API來製作ChatGPT？

答案並不完全肯定。他們可以，但我不記得哪些模型可以用於微調。假設我們當時有3.5版本可用於微調，你就可以製作出相當接近的產品，但我不確定你是否能夠只進行一次微調迭代。如果你有純粹的人類書面數據，然後你對此進行微調，我認爲你可能需要進行多次迭代。

例如，如果你不打算進行強化學習，我們曾經做過的，你可能需要進行某種迭代監督微調，讓人類編輯模型生成的輸出。因爲如果你使用人類生成的數據進行訓練，即使質量真的很高，模型也很難完美地擬合數據，因爲它可能不是模型能夠輸出的東西。所以你需要做一些迭代的事情，這看起來更像強化學習。我認爲如果你這樣做了，你就可以得到一些非常接近的東西，但這將是一項不平凡的任務。

我們還有另一個用強化學習訓練的指令跟隨模型，它是在ChatGPT之前發佈的。我認爲如果你在它上面放一個類似的包裝器，你會得到一些相當接近的東西。但它就像那個模型，就像你只是用聊天提示它，但是那個模型在優勢上有一些不同。就像那個模型在寫作和詩歌等方面相當擅長，但它在瞭解其侷限性以及事實性等方面並不那麼擅長。

退一步來說，我記得我曾經在某處聽到過你說GPT-2，與你在2019年的預期相比，你對它印象非常深刻。那麼，人工智能的發展速度比你預期的快還是慢？

我會說，自GPT-2以來，它的發展速度比我預期的要快。我相當相信，擴展，預訓練等等是個好主意。但是，當GPT-2完成時，我會說我並沒有完全相信它，它會徹底改變一切。就像我在GPT-3之後真正改變了我正在做的事情以及我的團隊正在做的事情。所以在那之後，我們聚在一起說，哦，是的，讓我們，讓我們，這個語言模型的東西真的很好用。讓我們看看我們能在這裡做些什麼。但是，在GPT-2之後，我還不太確定。

尤其是如果我們之前談論的東西，RL開始與更智能的模型更好地協同工作，並且花費在訓練上的一小部分計算，即訓練前與訓練後，在未來顯着改變以有利於訓練後。

是的，對此確實存在一些爭議。目前，這個比例顯得相當不平衡，但你可以認爲，與網絡上的大部分內容相比，該模型生成的輸出質量相當高，甚至更高。因此，讓模型自我思考，而不僅僅是通過訓練來模仿網絡上的內容，這更有意義。我認爲這是有第一原理論證的。此外，我想說，我們通過後訓練獲得了很多收益。因此，我對此並不確定。我希望我們能繼續推動這種方法，並可能增加我們投入的計算量。

目前，GPT-4的ELO分數比最初發布的分數高出一百分。這是否都是因爲你所說的這些改進是由後訓練帶來的？

是的，我想說我們的大部分改進都是由後訓練帶來的。這很有趣。因此，有很多不同的改進軸。就像你可以考慮數據質量、數據數量，只是對整個部署和收集新數據的過程進行更多迭代，並改變你正在收集的註釋類型。所以有很多因素堆積起來，但它們加在一起會給你帶來相當不錯的有效計算能力提升。

這是一個巨大的提升。這真的很有趣，訓練後還有這麼多的改進空間。

那麼，什麼造就了真正擅長做這種研究的人呢？我聽說這非常挑剔，但是，你擁有什麼樣的直覺，讓你能夠找到這些方法來處理數據並設置這些環境？

我想說，我現在已經有了相當多的經驗，比如，從堆棧的不同部分，比如，RL算法，顯然，因爲我從研究生院開始就一直在研究這些算法，比如，數據收集，註釋過程，比如使用語言模型進行語言遊戲。所以我只是涉獵了這些東西，我想說那些在這種研究方面做得很好的人，對整個堆棧有一些看法，並且對它的不同部分非常好奇。而且，也要考慮一下，你既要實證，又要使用實驗，讓實驗更新你的觀點，但你也想從第一原理來思考，假設，學習，比如什麼類型的數據纔是理想的收集對象之類的。

因此，由於自GPT-4以來似乎沒有一個模型看起來明顯更好，因此似乎存在一種假設，即我們可能遇到了某種瓶頸，而這些模型實際上並沒有很好地推廣，你會遇到某種數據牆，超過這個數據牆，通過記憶大量的預訓練數據所解鎖的能力實際上並不會幫助你獲得比GPT-4更聰明的東西。你認爲這個假設是錯誤的嗎？

我想我們已經討論過一些關於泛化的例子，從西班牙語到英語等等，但是，好吧，也許這是一個連續的問題，但是，我想到的一個例子是語言的轉移，代碼、推理和代碼。如果你訓練一堆代碼，它會在推理和語言方面變得更好。如果是這樣，那真的是這樣嗎？你是否看到過這樣的事情，這表明不同模式之間存在着信用正向轉移。因此，當你嘗試對大量的視頻和圖像進行訓練時，這個模型會變得更聰明，它會從合成數據中學習並提升自身的智能。那麼，模型解鎖的能力是否與你輸入的訓練語料庫的具體標籤和數據類型極其相似呢？

是的，確實如此。我會盡力回答所有這些問題。

首先，我們是否即將遇到數據瓶頸的問題？我不會從GPT-4發佈以來的時間中得出太多結論，因爲訓練這些模型並進行所有準備工作以訓練新模型（例如生成模型）確實需要一段時間。所以，我不會從這個事實中得出太多結論。我想說，由於數據量有限，肯定會帶來一些挑戰，但我不希望我們立即遇到數據瓶頸。但我希望，隨着我們越來越接近它，預訓練的性質會隨着時間的推移而有所改變。

就從不同類型的預訓練數據進行概括而言，我想說，對這種類型的問題進行科學研究非常困難，因爲你不能創建那麼多預訓練模型。所以也許，你不能訓練一個像GPT-4大小的模型。你無法在GPT-4規模上進行消融研究。也許你可以訓練大量的GPT-2大小的模型，或者甚至是一個使用不同數據混合的GPT-3大小的模型，看看你得到了什麼。所以我不知道任何結果，或者像公開的，像消融這樣的公開結果，涉及代碼數據和推理性能等等。所以我非常想知道這些結果。

我實際上很好奇，如果其中一件事是模型隨着規模的擴大而變得更聰明，那麼在GPT-2級別模型上進行消融，這表明沒有那麼多的轉移，這爲GPT-4級別模型中類似域集上的遷移水平提供了多少證據？

對。您可能無法得出結論，如果遷移在GPT-2大小下失敗，那麼在更大的規模下也會失敗。所以可能是，對於較小的模型，是的，對於較大的模型，您會學習這些更好的共享表示，或者較小的模型必須過於依賴記憶，而較大的模型可以學習如何進行正確的計算。所以我希望，這在某種程度上是正確的。

這可能有一個非常簡單的答案，但是對於更大的模型，您在相同數量的數據上訓練它們，它們會變得更聰明，或者相反，它們可以獲得相同數量的智能，您必須在更少的數據上訓練它們。爲什麼，爲什麼會這樣？就像它擁有更多參數，看到的東西更少，現在它同樣聰明。爲什麼會這樣，爲什麼會這樣？

我認爲沒有人能很好地解釋參數計數的縮放定律。有些，我甚至不知道什麼是最好的，這種心理模型是什麼。比如，如果你有一個更大的模型，顯然你會有更大的容量，但是，所以，你最終應該能夠得到更低的損失。我想問，爲什麼更大的模型會更高效？

我可以給你一個大致的解釋。你可以將模型視爲一系列不同電路的集合，用於進行計算。你可以想象它正在執行一系列並行計算，輸出是這些計算的加權組合。如果你有更多的模型寬度，或者你有更深的模型，實際上寬度和深度有些相似，就像殘差網絡一樣，你會發現深度可以做一些類似於寬度的事情，比如更新殘差流中的內容。

你可以說，你正在並行學習所有這些事情。你正在並行學習所有這些不同的計算，而在更大的模型中，你有更多的計算。所以你更有可能找到一個幸運的計算，最終獲勝，猜對了很多次，權重增加。這有點像某些算法的工作方式，比如混合模型或乘法權重更新算法。

你可以想象有一種混合，我不想說是專家的混合，因爲它意味着不同的東西，但基本上是專家的加權組合和一些學習門控。實際上，我可能說得有點不準確，但你可以想象這樣的情況。擁有一個更大的模型會讓你有更多機會獲得正確的功能。

這不僅僅是你有一個完全不相交的函數，比如你正在採取線性組合，它更像是一個庫，你可以以某種方式將函數鏈接在一起。這有一些可組合性。所以我只想說，更大的模型有一個更大的不同計算庫，包括許多處於休眠狀態並且只在某些時候使用的東西。但它有更多的空間來尋找，比如尋找那些電路來做一些有用的事情。

我想從當前的研究問題中退一步，瞭解未來幾年將發生的模式情景。我們在對話開始時談論的是進展非常快的情況，但就模式場景而言，你在某個時候解鎖了長遠的強化學習，但正如你所說，可能存在其他瓶頸。那麼發生了什麼，這些模型有多好？它們是如何部署的？它們中還有哪些其他模式，在什麼階段解鎖這些模式等等？我只是想了解你對未來幾年的更廣泛看法

我希望，隨着時間的推移，或者很快，我們能夠添加新的模式。我希望通過預訓練和後訓練的結合，這些功能通常會不斷改進，這將開闢新的用例。現在，人工智能仍然不是經濟的重要組成部分，只有很小一部分工作可以得到人工智能的幫助。所以我預計這個數字會隨着時間的推移而不斷上升，這不僅是因爲模型在不斷改進，還因爲人們正在弄清楚如何將它們集成到不同的流程中。因此，即便我們將模型凍結在當前狀態，我相信你仍會看到它們的應用方式有着顯著的增長。我預計會有許多應用，例如，我希望人工智能能夠得到更廣泛的應用，我希望它能夠應用於更多的技術，比如技術複雜的任務。例如，正如我之前給出的編程示例一樣，進行更長期的項目，同時也幫助進行各種研究。因此，我希望我們能夠以各種方式使用人工智能來加速科學的發展。

此外，僅僅因爲你可能擁有模型，比如瞭解特定領域的所有文獻，並且能夠篩選大量數據，比一個人有耐心做的還要多。因此，我希望我們基本上可以，是的，我希望形式因素基本上是人們仍然在推動這一切，而你有你可以使用的，有用的助手。你可以直接指出對你有用的許多不同問題。每個人都有所有這些，人工智能，幫助他們做更多的事情，完成更多的事情。

但顯然，在某個時候，他們會比所有人做得更好，無論他們想做什麼。這個過程會是什麼樣子？現在，他們顯然只是在幫助你。在某種程度上，他們可以爲你做事，甚至爲你經營整個公司，或者其他什麼。到那時，它會是一個順利的過程嗎？到那時，我們希望我們的系統與用戶足夠一致，這樣他們就可以指望公司按照他們期望的方式運行，等等？

是的，我認爲，我們可能不想立即讓人工智能管理整個公司。我們可能希望有人監督這些重要的決定併發號施令。所以即使這些模型足夠好，可以自己經營一家成功的企業。所以是的，在某種程度上，可能會有選擇。我認爲人們仍然會有不同的興趣和他們想要的東西......對於他們想讓他們的人工智能從事什麼樣的有趣追求有不同的想法。人們可以做很多事情......人工智能不一定具有內在的......任何內在的慾望。除非我們將其納入系統中，否則還沒有實現。因此，我希望即使人工智能變得非常有能力，人們仍然是人工智能最終行動的驅動力。

然而，我想知道經濟平衡是否與此相去甚遠，即在公司中是否存在類似阿姆達爾定律的情況。阿姆達爾定律指出，流程中最慢的部分就是會成爲瓶頸的部分。因此，即使人工智能使公司所有非人類部分的效率提高10倍，公司也不能再提高效率，因爲它仍然會受到這一步驟的瓶頸影響。因此，如果一家公司決定繼續讓人類參與所有你真正希望人類監督的事情，那麼他們就會被其他公司擊敗。如果一個國家決定走這條路，其他國家就會打敗它。我希望這不是事實，但我想知道這是否是一種讓人類參與其中的可持續計劃。

我認爲，如果我們想讓人類參與其中，這似乎是合理的。然而，如果事實證明，有人蔘與的公司在競爭中敗給了沒有人蔘與的公司，那麼我認爲我們顯然需要某種監管，禁止沒有人蔘與整個公司的運營。

但是，世界上有這麼多公司，任何國家都是如此，更不用說全世界了。我想知道，對公司進行監管是否更好，並且規定，你必須讓人類參與重要流程，但你必須定義什麼是重要流程。你必須監控每一家公司。你還必須與每個有公司的國家進行合作。如果這是一個問題，是否應該在模型部署之前就解決這個問題，這樣你就會處於這樣一種境地：你決定建立一個公司，並最終採用這些模型。它基本上會做你想讓它做的事情，你不需要有人蔘與其中。這個問題有意義嗎？我想我只是想知道在這種情況下，我們如何實際監控每家公司是否都有人蔘與其中？

是的，你要麼讓每個國家都同意這種監管制度，要麼你需要所有的模型基礎設施或模型提供商都同意這種要求。所以這肯定不是一件容易的事。所以我想，這是向前看的。所以在看到類似的東西之前，很難想象這個世界。

例如，有一些問題，比如，我們真的相信人工智能運營的公司在各方面都更好嗎？或者我們認爲它們大多數時候都更好，但偶爾它們會出現故障，因爲人工智能在某些方面仍然缺乏樣本效率，比如處理非常古怪的情況。所以實際上，人工智能運營的公司有更高的尾部風險，因爲它們更有可能出現大規模故障。所以我想可能會有一些類似的實際問題，這些問題也會決定事情的發展。

也許如果你只是要求人們對各種責任負責，這也會稍微改變激勵機制。所以如果事實證明人工智能在管理一切方面都表現得更好，而且它們也完全仁慈，我們已經完全解決了協調問題，它們比人類更善於對人類負責，那麼我會說讓人工智能管理公司也許是可以的。然而，我認爲這可能還是一個遙遠的未來。我傾向於認爲我們更可能面臨的情況是：在短期內，人工智能運營的實體看起來表現得更好，但實際上，它們仍然存在一些嚴重的問題。實際情況可能會促使我們更傾向於讓人類參與其中，至少在不久的將來是這樣。

好的，這是我們今天在 RLHF 中必須處理的一個問題，即你必須彙總許多不同人類的偏好。未來更強大的系統可能會使這個問題更加明顯。但是，當你說我們希望這些最終將完全取代人類的 AI 系統成爲這些公司的一部分時，這意味着什麼？這是否意味着它們基本上會做用戶希望它們做的事情？這是否意味着它們必須產生某種令我們作爲 OpenAI 利益相關者感到滿意的全球性結果？這具體意味着什麼？

如果這些模型被用於這些更高風險的用例，那麼我們必須以與現在截然不同的方式考慮 RLHF。所以我想說我們還沒有爲此做好準備，或者目前的方法可能還不夠充分。但我想說我們需要在所涉及的不同利益相關者的需求之間做出妥協。

因此，我們有一份名爲“模型規範”的文檔要發佈。這是關於我們希望我們的模型在 API 和 ChatGPT 中如何表現。我們試圖談論這個問題，其中涉及不同的利益相關者，有時他們可能想要的東西之間存在衝突。

在我們的案例中，我們將利益相關者視爲用戶或最終用戶。這意味着坐在 ChatGPT 或其他應用程序前面的人。開發人員，就像使用 API 的人一樣，他們可能正在使用他們的應用程序爲其他最終用戶提供服務。平臺，即 OpenAI，我們不希望模型給我們希來法律風險等等。然後是其他人類，包括可能不是用戶或客戶或任何人的人。

因此，很明顯，用戶可能會要求模型做一些我們認爲對其他人有害的事情。所以我們可能不得不拒絕。順便說一句，這不一定是優先順序。我們有四類左右的利益相關者。實際上，你也可以說，也許在未來，我們會說模型本身。所以我想說我們還沒有到那一步。但無論如何，我們有這些不同的利益相關者。有時他們有相互衝突的需求，我們必須就如何解決這些衝突做出一些決定。但如何做到這一點並不總是很明顯。所以我想說我們必須仔細考慮……我們必須仔細考慮權衡。

基本上，粗略的啓發式方法是，我們主要希望模型遵循您的指示並對用戶和開發人員有所幫助。但是當這影響到其他人的幸福或生活方式時，這就成了問題。我們必須阻止某些類型的使用。但我們不想太……我們主要希望模型只是人們意願的延伸，並按照他們說的做。我們不想太家長式。我們希望保持中立，不把我們的意見強加給人們。我們的主要目標是讓人們能夠利用模型去做他們想做的事情。

我有幸提前閱讀了相關規範，我認爲這是一個問題，即如何將這些規範有效地轉化爲模型的行爲方式。然而，我對這種權衡的合理性印象深刻。這是有道理的，因爲它專門針對實際的邊緣情況進行說明，而這些並非每個人都能輕易理解的事情。在這種情況下，你確實在尋找邊緣情況。

我們希望這個模型具有很高的可操作性，這樣它就不僅僅是一堆聽起來不錯的原則。每個例子都能告訴你一些關於一些不明顯的情況以及通過這種情況給出的理由。

現在，我有一些關於研究本身狀態的問題。衆所周知，在社會科學中，這些研究真的很難複製。這是一個關於有多少科學是真實的，有多少是這些製造出來的定製實驗的問題。當你閱讀普通的機器學習論文時，你是否覺得它像一篇非常紮實的文獻？它是否經常讓你感覺像是在社會科學中的p-hacking？

雖然每個人都對機器學習文獻有所抱怨，但總的來說，我認爲與社會科學等其他領域相比，它是一個相對健康的領域。這是因爲它有堅實的基礎，它在很大程度上基於實用性和讓事情正常運轉。如果你發表了一些無法輕易複製的研究，那麼人們就會忘記它。人們普遍認爲，你通常不只是報告某人論文中的數字，你還會嘗試重新實現他們的方法，並在相同的訓練數據集上將其與你的方法進行比較。所以我認爲，如果你發表的方法很難實現或非常挑剔，它們往往會被遺忘。因此，人們實際上會嘗試開源他們的工作。

我認爲存在各種不利的激勵因素。人們受到激勵，使基準方法（例如他們正在比較的方法）變得更糟。還有其他輕微的病態，比如試圖讓你的方法在數學上看起來很複雜。但總的來說，我覺得這個領域取得了進展。我可能希望看到更多的科學和嘗試理解事物，而不是更多地在基準上攀爬並試圖提出新方法。最近有相當多這樣的事情，但是是的，我認爲我們可以更多地使用它們。我認爲這對於學術界來說是一件好事。

另外，關於社會科學，換個角度來說，我實際上非常高興看到更多使用基礎模型進行模擬社會科學的研究。因爲這些模型具有整個世界的概率模型，你可以設置模擬問卷或對話。你可以查看任何事物之間的關聯，任何你能想到的特徵，你都可以看到它們與其他特徵之間的關聯。因此，如果人們能夠通過以不同的方式提示基礎模型並查看關聯內容，複製社會科學中一些更顯著的結果（如道德基礎等），那將非常酷。

斯坦福的實驗，他們進行的是Ash一致性測試。如果語言模型也能被複制，那將會是一件非常有趣的事情。對於在大型實驗室進行的其他研究，我想了解的是，作爲實際計算乘數，有多少研究是增加或減少了獲得特定結果所需的計算量？又有多少研究是使學習過程更穩定和構建基礎設施？

我想提出的更廣泛的問題是，自從 GPT-4 以來，是否感覺使用相同數量的計算，你可以訓練出更好的模型？或者感覺好像，哦，我們已經確保使用 GPT-5 可以更好地以更具可擴展性的方式進行學習，但這並不意味着我們現在可以用 GPT-3.5 之類的預算來訓練 GPT-4？

在提高效率方面，我們肯定一直在進步。只要你有一個一維性能指標，你就會發現不同的改進可以相互替代。因此，你可能會發現訓練後和訓練前都會改善指標或類似改進。他們對所要改進的指標的概況會略有不同。但如果到最後你只有一個數字，它們就會在某種程度上互相替代。所以對於像人類評估這樣的東西，比如人類喜歡什麼，我們在兩方面都取得了很大進展，比如訓練前和訓練後以及改進。

關於 RLHF 的幾個快速問題。顯然，RLHF 對於使這些模型有用很重要。所以也許腦葉切除術的描述是不準確的，但從某種意義上說，所有這些模型，一旦它們被放入聊天機器人形式，就會有非常相似的說話方式。他們真的想深入研究事物。他們想把事情變成要點。他們似乎經常有這種正式而枯燥的說話方式。有人抱怨他們沒有那麼有創意，就像我們之前談論的那樣，它只能做押韻詩，直到最近才押韻，我想。這是 RLHF 目前發生的特殊方式的結果嗎？如果是這樣，那麼是因爲評估者是誰嗎？是因爲損失函數嗎？爲什麼所有聊天機器人看起來都是這個樣子？

是的，我想說，我們有很多……我想說我們正在積極嘗試改進這一點，讓寫作更生動、更有趣。我認爲我們已經取得了一些進展，比如改進了 ChatGPT 的個性。所以它更有趣，當你試圖和它閒聊的時候，它會更好。它不那麼機械化。我想說，是的，這是一個有趣的問題，一些抽搐是怎麼產生的，比如 delve 這個詞。我最近發現自己用了這個詞。所以我不知道它是否從模型中影響了我，還是什麼。但實際上，我認爲......還可能會發生一些有趣的效果，語言模型提供商之間可能會發生無意的提煉，如果你僱用某人去做標記任務，他們可能只是將其輸入到模型中。他們可能只是調出他們最喜歡的聊天機器人，輸入信息，讓模型完成任務，然後複製粘貼回去。因此，這可能解釋了一些收斂現象。但同時，我認爲我們所觀察到的一些現象，正是人們所喜歡的。我相信人們確實喜歡要點，他們喜歡結構化的迴應，人們確實經常喜歡他們得到的大量信息，這些信息來自模型。所以，我認爲目前還不完全清楚，有多少隻是特定選擇和訓練後過程設計的怪癖，有多少實際上是人們真正想要的內在因素。

它確實似乎比一些人想要的更冗長。也許只是因爲在標記階段，評分者會更喜歡更冗長的答案。但我想知道它是否是固有的，因爲它是如何預先訓練的，停止序列不會經常出現，它真的想繼續下去。

標籤中可能存在一些導致冗長的內容的偏見，例如我們傾向於一次訓練一條消息而不是完整的交互。因此，如果您只看到一條消息，那麼只有澄清問題或簡短回覆並邀請跟進的內容看起來會不如涵蓋所有可能性的內容完整。

還有一個問題是，人們的偏好是否會根據模型輸出的速度而改變。顯然，如果您坐在那裡等待標記出來，您會希望它直奔主題。但是，如果它只是立即爲您提供大量文本，您可能實際上並不關心是否有一堆樣板。或者，如果有一堆您要瀏覽的東西，您寧願將它們全部放在那裡。

我認爲獎勵模型是一個非常有趣的人工製品，因爲它是我們最接近人們想要什麼、他們有什麼偏好的集合的東西。當你考慮更智能的模型時，我們會有一個希望，你可以給出我們想要的東西的清單，而不是像《聯合國權利宣言》中那樣瑣碎而明顯的事物。另一方面，我想我聽到你指出，我們的許多偏好和價值觀都非常微妙，因此它們可能最好通過這些成對的偏好來體現。

當你想到 GPT-6 或 GPT-7 級別的模型時，我們是否給它更多的書面說明，還是我們仍在做這些潛意識的偏好？

這是個好問題。我認爲這些偏好模型確實瞭解了很多關於人們偏好的微妙之處，而這些微妙之處很難在說明書中表達出來。

顯然，你可以編寫一本包含大量比較示例的說明書，這就是模型規範所具有的。它有很多例子，並附有一些解釋。目前尚不清楚描述偏好的最佳格式是什麼。我猜，無論你能從捕捉模糊偏好的大數據集中得到什麼，你都可以將其提煉成一個更小、更短的文檔，該文檔主要捕捉想法。

我認爲更大的模型確實會自動學習人們可能會發現的很多概念。他們會從所有預訓練數據中學習人們會發現有用和有幫助的東西。他們會有一些複雜的道德理論。但當然，仍然有很大的空間來抓住不同的風格或不同的道德觀。所以我認爲，如果我們要寫一份文檔，或者如果我們要調整這些模型，我們所做的就是抓住一種特定的風格，一種特定的道德觀。你仍然需要一個相當長的文檔來準確捕捉你想要的東西。

訓練後的模型，其護城河的規模有多大會更好？目前，公司正通過我們的模型的規模等因素來區分自己。那麼，是否存在一個大的護城河能夠解決您之前提到的所有這些數據的棘手問題呢？

我認爲，確實存在這樣的護城河，因爲這是一項極其複雜的任務。你需要有大量的專業人士來完成這項工作。因此，這需要大量的隱性知識和組織知識。我認爲，訓練後創建一個真正具有人們關心的所有功能的模型是相當複雜的。這需要相當複雜的努力，這需要大量的研發積累。因此，我認爲這使得它有點像護城河，要立即啓動它並不是一件容易的事。

看起來，那些進行最認真的預訓練工作的公司也在進行認真的訓練後工作。所以，似乎有可能複製或啓動更多這樣的工作。然而，也有一種力量使得它不那麼像護城河，那就是你可以提煉模型，或者你可以拿別人的模型來克隆輸出，或者你可以用別人的模型作爲評判標準來進行比較。我認爲大公司可能不會這樣做，因爲這違反了服務條款政策，而且這也會對他們的自尊心造成一定打擊。但我希望一些小公司會這樣做，以便起步。這在很大程度上會讓你陷入困境。我想這已經超出了護城河的範疇。

那麼，中等水平的突襲者是什麼樣的？他們在哪裡工作？他們的政治觀點是什麼？他們的知識水平如何？

我會說，這差別很大。我們肯定會僱傭具有不同技能或不同類型的任務或項目的突襲者。我認爲一個不錯的思維模型就是看看那些在Upwork和其他類似平臺上的人，看看誰在遠程工作中做一些零工。這是一個相當國際化的羣體，美國有相當多的人。我們僱傭不同的人來做不同類型的標籤，比如我們是否更專注於寫作或喜歡STEM任務。因此，從事STEM任務的人更有可能在印度或其他中等收入或中低收入國家，而更喜歡英語寫作和作文的人則更傾向於像美國人。所以是的，我想說，有時我們需要爲某些活動聘請不同的專家。有些人非常有才華，我們甚至發現，他們在完成這些任務方面至少和我們這些研究人員一樣優秀，他們比我們細心得多。所以我想說，我們現在擁有的人非常熟練和認真。

關於這種停滯不前的敘述，我聽說的一件事是，這些模型能夠幫助你處理特定事物的能力與在超級智能微調數據集中擁有非常接近匹配的標籤有關。這是真的嗎？比如，如果它能教我如何正確使用FFmpeg，就像有人在做、弄清楚、查看輸入並查看你需要添加哪些標誌。而有些人正在弄清楚並努力做到這一點。是的，是的。那麼，你是否需要僱傭所有這些在所有這些不同領域都擁有領域專業知識的標籤滾動者呢？如果這是真的，那麼讓這些模型隨着時間的推移變得越來越聰明，似乎將是一項更大的挑戰。

確實如此。

你並不完全需要那個模型。因爲，你可以從泛化中獲得很多東西。因此，如果你的模型像基礎模型一樣，已經在大量文檔、大量帶有shell腳本的代碼等上進行過訓練，那麼它已經看到了所有的FFmpeg手冊頁和大量的bash腳本等。這使得它與基礎模型非常相似，即使只是給基礎模型一個很好的小樣本提示，你也可以讓它回答這樣的查詢。

並且，即使你沒有在它們上面訓練它，即使你沒有在任何STEM（科學、技術、工程和數學）領域上訓練它，只要訓練一個偏好模型以獲得有用性，它也會在某種程度上推廣到STEM領域。因此，你不僅不需要如何使用FFmpeg的示例，甚至可能不需要任何與編程有關的東西來在編程領域獲得一些合理的行爲。

也許最後一個問題是，我們已經以不同的方式觸及了這一點，但要把它放在一起。所以你說你正在對更多的多模態數據進行訓練，大概就像這些東西瞭解屏幕的樣子，並能夠以更連貫的方式與之交互。而且你也會沿着地平線強化學習（RL）做到這一點。因此，他們將能夠充當系統中的代理，以更加集成的方式成爲你工作流程的一部分。你期望它是什麼樣子？那麼接下來會怎樣呢？

假設到今年年底或明年，你會擁有一個類似於助手的東西，可以在屏幕上與你一起工作。首先，這看起來是合理的嗎？然後它會如何發展呢？

我肯定會，是的，我希望事情朝着那個方向發展。目前還不清楚什麼纔是最好的形式，是放在電腦上幫你做某事的夾子，還是更像雲端的一個樂於助人的同事。所以我們會看看哪種形式效果最好。我希望人們能嘗試所有這些形式。

是的，我希望像......是的，一個樂於助人的助手或樂於助人的同事的心理模型能夠變得更加真實，你可以分享更多的日常工作或......而不是隻給它一次性的查詢，你會有一個你正在做的整個項目，並且它知道你迄今爲止在該項目上所做的一切。你可以告訴它……它甚至可以主動提出建議。也許你可以告訴它，哦是的，記得問我這件事以及我是否取得了任何進展。所以我認爲我們缺少的是主動性。

是的，我真的很想看到更好的……不再進行一次性查詢，而是使用類似搜索引擎的模型，一種更智能的搜索引擎，更多地是與模型合作完成整個項目。它知道我所做的一切。它會主動建議我嘗試一些事情，或者在後臺進行工作。

是的，這真的很有趣。順便說一句，這是最後一個問題。你的...你的中位時間表是什麼？當它取代了你的工作。

它取代我的工作，這大概五年吧。是的，這個過程發生得非常迅速，而且非常有趣。

好的，John，這個話題確實非常引人入勝。我非常感謝你能抽出時間來討論這個問題。我認爲這可能是人工智能流程中非常重要，但大多數人對此瞭解不多的一個環節。因此，深入探討這個問題並聽取你的觀點，對我來說是非常有趣的。

我要感謝你邀請我參加這個播客，討論這些有趣的話題。

OpenAI聯創 | ChatGPT首席架構師最新深訪：大語言模型的進化之路 (附全文+視頻）

相關資訊