OpenAI o1對國內大模型有何影響?姜大昕、楊植麟...

當GPT-5屢次跳票引發質疑聲後,OpenAI用o1及時托住了行業對大模型以及AGI(通用人工智能)的信心。

相較於更單維度注重參數堆積、不斷推進Scaling Law的GPT系列大模型,o1改變了技術策略,加入了強化學習,以思維鏈等方式大幅提升了模型的推理能力,並且一定程度上緩解了該領域對於“數據牆”的焦慮。

面對OpenAI的這一動作,外界普遍好奇的是,它是否會影響中國大模型領域的技術發展走向?

9月19日,在2024雲棲大會上,階躍星辰創始人兼CEO姜大昕、月之暗面Kimi創始人楊植麟,以及生數科技首席科學家朱軍,以“通往AGI的大模型發展之路”爲主題進行了一場圓桌對話。

姜大昕表示,AI發展正在經歷關鍵的技術範式迭代。OpenAI的大模型o1探索出了通過強化學習讓AI具備人類慢思考(可主動反思、糾錯的複雜思考)能力的方式,接下來提升強化學習模型的泛化能力和加速推進多模態理解生成一體化是AI技術進一步突破的關鍵。

在他看來,o1是大模型首次同時具備人類大腦System 1(即快思考,直接給出答案)和System 2 (即慢思考)的能力,這是大模型開始具備歸納世界能力的關鍵一步。

除此以外,對於業界熱議的AGI進程變緩的觀點,姜大昕判斷過去18個月以來,AGI的發展並沒有減速,反而是在加速。“我們把AGI的實現路徑劃分爲模擬世界、探索世界和歸納世界三個可並行的發展階段,過去一年這三點都出現了突破性的技術進展,發展速度可以說是AI一日,人間一年。”

按照他的觀點,除了o1在歸納世界上的進展,GPT-4o標誌着多模融合的進步,是更好地對物理世界建模、徹底實現模擬世界的基礎。而在探索世界上,特斯拉發佈的完全自動駕駛系統FSD V12,爲具身智能設備如何與大模型結合,從數字世界走向探索物理世界指明瞭技術方向。

楊植麟則從縱向的智商提升和橫向的模態拓展給出了自己的看法,同樣認爲AI整體處於加速發展的狀態。他指出,o1的主要意義在於提升了AI的上限。在這一點上,Scaling Law是過去唯一有效的準則,但在數據挖掘遭遇瓶頸時,以Scaling Law爲代表的原有範式已經遇到問題,而強化學習和大語言模型的結合,很大程度上解決了下一步Scaling Up的問題,“至少證明了它初步可行”。

楊植麟認爲,這也會對產業格局以及創業公司產生影響。其中一個關鍵點是,此後訓練算力和推理算力的比例會發生變化,這個變化的本質可能給創業公司帶來新機會。一方面,如果存在算力門檻,創業公司可以進行算法的基礎創新,以取得基礎模型上的突破;另一方面,算力相對小的公司可以通過後訓練的方式在部分領域達成某種效果,這裡將會產生更多產品和技術機會。

o1帶給大模型的新思考是,當強化學習加入大模型成爲新的技術範式,如何從細分領域逐步實現它的泛化能力?

朱軍認爲,o1的技術實現路徑並沒有披露這一點,但從科研的角度可以看到,這當中過程監督的數據變得十分重要。它和直接從結果監督的數據不一樣,是要對思考過程的每一步進行標註,這種數據由於需要專業人士投入因而具備一定獲取難度和高價值。

另外,具體的技術實現上也存在一定困難。在此之前,走強化學習路線的DeepMind就有類似的泛化問題,例如從AlphaGo到AlphaFold再到AlphaGeometry,都是針對特定場景進行設計。

朱軍強調,這背後的本質邏輯是,在強化學習中,面對更泛化和更開放的場景,Reward Model(獎勵模型,用於評估智能體的行爲表現,並指導其學習過程)變得難以定義,這也是o1背後的技術新範式在泛化過程中要解決的核心問題之一。

不過,通過結合已經比較強大的基座,這套新範式相比上一代AlphaGo遷移到其他領域裡會更快,在更好的開放領域模擬器等技術加持下,他相信新範式的泛化進程會比之前更容易取得效果和提升。

只是這條新範式泛化之路的不確定性,及其對應的可探索空間和可能性,究竟對創業公司而言是好事還是壞事?

楊植麟直言,這是一個很好的機會,它等同於一個新的技術維度和技術變量。這個過程之中,除了如何泛化,還有很多基礎的技術問題尚待解決,例如訓練和推理兩個層面要同時Scaling up,這當中還有諸多細節沒有探索清楚,包括過程監督、幻覺對模型效果的影響等等。這背後存在的技術創新將形成一些突破機會。

姜大昕同樣認爲新範式的技術創新將帶來新機會,但算力將是一個挑戰,因爲當創業公司追求一個通用性能夠泛化的推理模型時,算力的需求一定是巨大的。

“如果我們所要追求的目標就是AGI的話,你付出再多也還是要堅持下去。”姜大昕說。