深綠網紅狂唱衰DeepSeek 數發部次長一句話他看傻:瞠目結舌
DeepSeek-R1橫空出世,引發西方AI圈風暴。(圖/路透)
大陸新創AI公司「深度索求」DeepSeek近期發佈DeepSeek-R1聊天機器人,以低成本卻能媲美各大主流AI的高效能,瞬間讓輝達市值蒸發6800億臺幣,震撼西方科技圈。許多深綠側翼看不下去,急忙「甲級動員」洗版唱衰,資深科技粉專直言,這幾天看到政治網紅對於DeepSeek的評論令人瞠目結舌,也沒想到往下滑,還能看到數發部次長更爲奇葩的「有貓膩」留言。
粉專「生活中的程式」表示,看到政治網紅和數發部次長對DeepSeek奇葩看法,難怪前輩會說,想要往上爬,關係比實力更重要。他痛批這些網紅完全不懂AI領域,發文前也不做功課,只會用政治腦跟自身立場來隨便胡謅一通,即便錯誤百出,流量卻遠比DeepSeek的技術文還多。
粉專表示,這些政治網紅與數發部次長常務林宜敬的成本造假說,根本就是完全錯誤,DeepSeek用2048片H800訓練兩個月,在計算訓練支出上都會用「租賃」或「時間攤提」來計算,因爲在2個月後,這批晶片就會拿去訓練其他模型,硬體成本本來就是會攤提。H800租貸價格大約是每小時2至3美元,2048片H800,差不多就是論文所說的550萬美元沒錯。
粉專解釋,大部分模型語言,包括OpenAI都是公佈訓練所需的成本,因爲會同時開發很多模型,許多人力都是共用的,各國的薪資水準也都不一樣,並且清理後的資料也可以複用,而訓練的成本最簡單易算,也較不會有機密的問題,DeepSeek沒有比較特別。
粉專說,會拿DeepSeek-V3跟GPT-4o或DeepSeek-R1跟GPT-o1對比訓練成本,就是因爲能力相近纔有可比姓,GPT-3跟DeepSeek能力天差地遠,時間也差了3、4年,放一起比舊式在唬爛不懂的人,爲何不乾脆拿GPT-2來比。
不少人揶揄DeepSeek是騙局,是因爲問身分被回是ChatGPT,粉專說,如果DeepSeek沒有開源,的確可以懷疑是騙局,問題是現在開源了,把所有過程與權重通通公開,「想挑戰、揪錯,就去拿程式碼或結果說話」。迴應自己是ChatGPT,僅能代表訓練資料中有ChatGPT參雜在內,並不意外,許多模型都會有類似問題。
粉專吐槽,某自詡財經網美的發文,一看就知道就是沒看,或是看不懂DeepSeek的原始論文,指出DeepSeek對於過去的混合專家架構有了不少改進,不然大家都知道有這個方法,怎麼只有DeepSeek弄出來?正是因爲DeepSeek證明了推理能力可以用強化學習(Reinforcement Learning)得來,同時還可以被蒸餾(distill)到更小的模型上,還改進了CUDA Kernel的運算方式,這不是單純用舊方法就跑出來的。
許多科技業網友也感慨:「宗教團體怎麼會討論科學,這些人靠的是玄學」、「重點是他開源而且distill出很多還是可用的小模型,相比各大模型供應商的貴死人的token計算,deepseek真的提供了一套可以自建的選項」、「臺灣人對模型的benchmark,是能不能問64」、「跟一個連CPU可以單獨買都不知道的人認真啥」、「正當西方AI領域的人拼命研究DS的開源碼時,我們的人只會一直笑爲何不能回答64」、「好了啦,你們有比側翼跟Threads大師們懂AI嗎」。