☰

深綠網紅狂唱衰DeepSeek 數發部次長一句話他看傻：瞠目結舌

DeepSeek-R1橫空出世，引發西方AI圈風暴。(圖／路透)

大陸新創AI公司「深度索求」DeepSeek近期發佈DeepSeek-R1聊天機器人，以低成本卻能媲美各大主流AI的高效能，瞬間讓輝達市值蒸發6800億臺幣，震撼西方科技圈。許多深綠側翼看不下去，急忙「甲級動員」洗版唱衰，資深科技粉專直言，這幾天看到政治網紅對於DeepSeek的評論令人瞠目結舌，也沒想到往下滑，還能看到數發部次長更爲奇葩的「有貓膩」留言。

粉專「生活中的程式」表示，看到政治網紅和數發部次長對DeepSeek奇葩看法，難怪前輩會說，想要往上爬，關係比實力更重要。他痛批這些網紅完全不懂AI領域，發文前也不做功課，只會用政治腦跟自身立場來隨便胡謅一通，即便錯誤百出，流量卻遠比DeepSeek的技術文還多。

粉專表示，這些政治網紅與數發部次長常務林宜敬的成本造假說，根本就是完全錯誤，DeepSeek用2048片H800訓練兩個月，在計算訓練支出上都會用「租賃」或「時間攤提」來計算，因爲在2個月後，這批晶片就會拿去訓練其他模型，硬體成本本來就是會攤提。H800租貸價格大約是每小時2至3美元，2048片H800，差不多就是論文所說的550萬美元沒錯。

粉專解釋，大部分模型語言，包括OpenAI都是公佈訓練所需的成本，因爲會同時開發很多模型，許多人力都是共用的，各國的薪資水準也都不一樣，並且清理後的資料也可以複用，而訓練的成本最簡單易算，也較不會有機密的問題，DeepSeek沒有比較特別。

粉專說，會拿DeepSeek-V3跟GPT-4o或DeepSeek-R1跟GPT-o1對比訓練成本，就是因爲能力相近纔有可比姓，GPT-3跟DeepSeek能力天差地遠，時間也差了3、4年，放一起比舊式在唬爛不懂的人，爲何不乾脆拿GPT-2來比。

不少人揶揄DeepSeek是騙局，是因爲問身分被回是ChatGPT，粉專說，如果DeepSeek沒有開源，的確可以懷疑是騙局，問題是現在開源了，把所有過程與權重通通公開，「想挑戰、揪錯，就去拿程式碼或結果說話」。迴應自己是ChatGPT，僅能代表訓練資料中有ChatGPT參雜在內，並不意外，許多模型都會有類似問題。

粉專吐槽，某自詡財經網美的發文，一看就知道就是沒看，或是看不懂DeepSeek的原始論文，指出DeepSeek對於過去的混合專家架構有了不少改進，不然大家都知道有這個方法，怎麼只有DeepSeek弄出來？正是因爲DeepSeek證明了推理能力可以用強化學習(Reinforcement Learning)得來，同時還可以被蒸餾(distill)到更小的模型上，還改進了CUDA Kernel的運算方式，這不是單純用舊方法就跑出來的。

許多科技業網友也感慨：「宗教團體怎麼會討論科學，這些人靠的是玄學」、「重點是他開源而且distill出很多還是可用的小模型，相比各大模型供應商的貴死人的token計算，deepseek真的提供了一套可以自建的選項」、「臺灣人對模型的benchmark，是能不能問64」、「跟一個連CPU可以單獨買都不知道的人認真啥」、「正當西方AI領域的人拼命研究DS的開源碼時，我們的人只會一直笑爲何不能回答64」、「好了啦，你們有比側翼跟Threads大師們懂AI嗎」。

深綠網紅狂唱衰DeepSeek 數發部次長一句話他看傻：瞠目結舌

相關資訊