☰

DeepSeek是新源神！推理模型o1性能1/50價格，微調蒸餾商用全免費

DeepSeek新發布遠超預期，Reddit/狂暴刷屏中。

這次大事共有3件：

同時開放官方API，輸入token（命中緩存）價格只有OpenAI o1的1/50，未命中緩存以及輸出token價格約1/27。

論文中被反覆熱議的小細節就更多了：

R1-Zero模型在思考過程中涌現了“頓悟時刻”（aha moment），並自己學會爲問題分配更多思考時間。

網友們開始推演接下來的劇情，如果頓悟的力量能被穩定利用……那就不知道會通向何處了。

再有，目前社區猜測OpenAI的o1-pro/o3可能使用了tree-of-agents方法，許多個o1的分身各自回答問題，再通過某種方式選出最優答案。

如果將DeepSeek-R1與Search-o1和Tree-of-Agents（大約50個智能體）結合起來，可以很小的成本獲得與o3類似的性能，最終可能便宜數百倍。

這次DeepSeek總共開源6個在R1數據上蒸餾的小模型，其中蒸餾版Qwen-1.5B都能在部分任務上超過GPT-4o。

DeepSeek還特別更新了開源許可證，現在是MIT Lisence。

R1是開源的，R1數據想跑多少有多少，API可以用於蒸餾和微調，商用是免費的。

新的源神出現了！

DeepSeek新發布

OpenAI的o1系列模型率先引入了推理時擴展（inference-time scaling）的概念，通過增加思維鏈（Chain-of-Thought）推理過程的長度，在數學、編程、科學推理等任務上取得了顯著的性能提升。

先前的研究探索了基於過程的獎勵模型、強化學習、蒙特卡洛樹搜索和束搜索等方法，但尚未有方法在通用推理性能上達到o1系列模型的水平。

DeepSeek-R1-Zero

DeepSeek團隊邁出了利用純強化學習提升語言模型推理能力的第一步。

他們的目標是探索大模型在沒有任何監督數據的情況下，通過純強化學習過程進行自我進化，從而獲得推理能力。

具體而言，他們使用DeepSeek-V3-Base作爲基礎模型，並採用GRPO（Group Relative Policy Optimization）作爲強化學習框架來提高模型在推理任務上的表現。

在訓練過程中，DeepSeek-R1-Zero自然而然地涌現出許多強大而有趣的推理行爲。

經過數千步的強化學習，DeepSeek-R1-Zero在推理基準測試中表現出色。

例如，它在AIME 2024上的pass@1得分從15.6%提高到71.0%，並且通過多數投票，得分進一步提高到86.7%，與OpenAI-o1-0912的表現相當。

DeepSeek-R1

然而，DeepSeek-R1-Zero也面臨着可讀性差、語言混雜等挑戰。

爲了解決這些問題並進一步提高推理性能，團隊提出了DeepSeek-R1，它結合了少量冷啓動數據和多階段訓練流程。

具體而言，他們首先收集數千條冷啓動數據來微調DeepSeek-V3-Base模型。隨後，他們進行了類似DeepSeek-R1-Zero的面向推理的強化學習。

當接近強化學習過程的收斂時，他們通過在強化學習檢查點上進行拒絕採樣，結合來自DeepSeek-V3在寫作、事實型問答、自我認知等領域的監督數據，創建新的SFT數據，然後重新訓練DeepSeek-V3-Base模型。

使用新數據進行微調後，該檢查點還經歷了一個額外的強化學習過程，考慮到所有場景下的提示。

經過這些步驟，他們獲得了一個稱爲DeepSeek-R1的檢查點，其性能與OpenAI-o1-1217不相上下。

R1數據蒸餾模型

DeepSeek團隊進一步探索了從DeepSeek-R1蒸餾到更小的密集模型。使用Qwen2.5-32B作爲基礎模型，直接從DeepSeek-R1蒸餾的效果優於在其上應用強化學習。

這表明，更大的基礎模型發現的推理模式對於提高推理能力至關重要。

他們開源了蒸餾的Qwen和Llama系列模型。值得注意的是，他們的蒸餾14B模型在推理基準測試中大幅超過了當前最先進的開源QwQ-32B-Preview，而蒸餾的32B和70B模型在密集模型中樹立了新的推理任務基準。

最後，團隊還把在實驗過程中很多失敗的嘗試分享出來，防止後人踩坑。

在過程獎勵模型、蒙特卡洛樹搜索算法上，DeepSeek都沒能獲得進展。

不過他們也強調，只是他們失敗了，並不意味着這些方法無法開發出有效的推理模型。

未來他們計劃在以下方向繼續投入研究：提升通用能力、解決語言混雜問題、優化提示詞敏感問題，以及改進軟件工程任務的性能。

One More Thing

還有英語母語者挑起了論文中的遣詞造句，認爲很可能是大模型幫團隊撰寫的論文。

同時很多人注意到，在DeepSeek的許多論文裡，“DeepSeek-AI”都出現在作者列表的第一位。

論文地址：https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

參考鏈接：[1]https://x.com/deepseek_ai/status/1881318130334814301[2]https://www.reddit.com/r/singularity/comments/1i5yvx5/deepseek_discovered_their_new_model_having_an_aha/

DeepSeek是新源神！推理模型o1性能1/50價格，微調蒸餾商用全免費

相關資訊