OpenAI o1佔領後訓練擴展律前沿,從快速識別走向深度思考
天風證券近日發佈通信行業專題研究:OpenAI o1佔領後訓練擴展律前沿,從快速識別走向深度思考。
以下爲研究報告摘要:
o1模型通過強化學習訓練和產生思維鏈,能在做出響應前花更多時間思考問題
9月12日,OpenAI發佈一系列新大語言模型o1,經過強化學習(Reinforcement Learning)訓練,可以執行復雜推理,該模型可以產生一個長程思維鏈(Chain of Thought),在做出響應前花更多時間思考問題。
新模型包括o1-preview和o1-mini兩種版本,其中o1-mini更快、更具成本效益,適用於需要推理但不需要廣泛知識的應用程序
o1-mini是一個較小的模型,針對預訓練期間的STEM推理進行了優化。速度方面,在單詞推理問題回答中o1-mini找到答案的速度比o1-preview大約快了3~5倍;成本方面,OpenAI向第五梯隊API用戶開放的o1-mini成本端比o1-preview便宜80%。
o1通用性不及GPT-4o,高推理能力伴隨高成本
作爲早期模型,o1並不具備瀏覽網頁、上傳文件和圖像等功能,通用性尚不及GPT-4o。但相較於GPT-4o多模態、反應快等特點,o1-preview更加註重推理能力,輸入、輸出tokens成本分別是GPT-4o的3、4倍。
o1在數理化複雜問題推理中的性能明顯優於GPT-4o,在物理和生物學專業知識基準上的表現超越人類博士
o1在競爭性編程問題(Codeforces)中拿到89%的百分位,GPT-4o僅爲11%;在國際數學奧林匹克競賽(IMO)的資格考試中,o1解答正確率爲83%,而GPT-4o正確率僅爲13%;在安全方面,o1在越獄測試中的分數高達84,而GPT-4o的得分僅爲22分。
後訓練擴展律(Post-Training Scaling Law)顯現,或將引發業界對算力重新分配、後訓練能力的思考
o1模型的亮點在於其性能會隨着強化學習時間(訓練時間的計算量)和思考時間(測試時間的計算量)的增加而不斷提升,擴展這種方法的限制與傳統LLM預訓練方法(通過增加參數量和數據量)的限制有着很大不同,後訓練方法的重要性或將引發業界對算力分配、後訓練能力的思考。
從快速反應走向深度思考,拓寬行業應用場景
o1在訓練過程中能夠使其思維鏈進行高效思考,模擬了人類在面對複雜問題時的思考過程,這預示着AI除了在快系統中可被應用(人臉識別等),在慢系統中的可用型或將得到提升。
快慢系統結合或將成爲新的AI發展戰略,OpenAI、Google佔據前沿陣地Google DeepMind在此前論文中提出測試時的計算比擴展模型參數更有效;AlphaGeometry模型在國際數學奧林匹克(IMO)幾何問題的基準測試中解決了25個問題(總共30個問題),AlphaGeometry由神經語言模型和符號推導引擎組成,將快慢系統結合,一個系統提供快速、直觀的想法,另一個系統則提供更深思熟慮、更理性的決策。
風險提示:AI應用發展不及預期風險;海外大廠投資不及預期風險;中美摩擦升級風險。(天風證券 唐海清,王奕紅,餘芳沁 )
免責聲明:本文內容與數據僅供參考,不構成投資建議,使用前請覈實。據此操作,風險自擔。