來自東方的DeepSeek震撼美利堅! OpenAI掌舵者拍手稱讚,“低算力成本風暴”重創納指
智通財經APP瞭解到,在美東時間週一晚些時候,全球最頂級AI科技公司OpenAI的掌舵者——即首席執行官薩姆·奧爾特曼(Sam Altman)在社交媒體X的一篇最新帖子中,他對於以“極低訓練/推理成本+超高性能”爲核心特徵,在短短几日內聞名全球的DeepSeek R1大模型可謂“讚不絕口”。奧爾特曼在帖子中可謂不嗇溢美之詞,盛讚DeepSeek R1這一性能堪比OpenAI o1同時AI算力成本極低的大模型所帶來的史無前例的“AI大模型算力新範式”。
在上週,來自中國DeepSeek的AI工程師團隊所開創的DeepSeek R1大模型可謂霸榜美國熱搜,並且DeepSeek應用週一登頂蘋果中國地區和美國地區應用商店免費APP下載排行榜,在美區下載榜上超越ChatGPT,堪稱屬於中國AI的“里程碑時刻”。DeepSeek團隊證明,他們能夠在沒有世界最頂級的英偉達高性能AI GPU提供強大AI算力的情況下,以極低成本加上性能普通的AI加速器訓練出推理能力一流的突破式開源AI大模型。在不到600萬美元的極低投入成本和2048塊性能遠低於H100與Blackwell的H800芯片條件下,DeepSeek團隊打造出性能堪比OpenAI o1的開源AI模型,相比之下Anthropic與OpenAI訓練成本高達10億美元。
隨着這股來自東方的“DeepSeek低算力成本風暴”席捲全球,投資者們開始強烈質疑美國科技巨頭們對於人工智能堪稱“非理性”的狂熱AI燒錢計劃是否合理,畢竟動輒千億美元的支出,相比於DeepSeek僅僅百萬美元級別成本令這些美國科技股投資者無比震驚的同時也無比憤怒。這也是爲什麼週一有着“全球科技股風向標”的納斯達克100指數暴跌2.97%,總市值較上週五收盤減少近1萬億美元,涵蓋更多科技股的納斯達克綜合指數跌幅更是超過3%。
截至週一美股收盤,由於投資者們擔憂DeepSeek引領的“低成本AI大模型算力範式”推動科技巨頭們在短中期內大幅削減AI GPU訂單,因此“AI芯片霸主”英偉達(NVDA.US)週一股價下跌近17%,收報118.42美元,單日的市值蒸發規模達到5890億美元,爲美國股市歷史上最大規模市值損失,打破此前紀錄。週一,英偉達也同時失去“全球最大市值公司”的寶座,不及蘋果和微軟,跌至第三。
隨着美國科技巨頭財報季本週開啓,這些長期投資於美國科技股的投資者們迫切希望微軟(MSFT.US)、Meta(META.US)以及谷歌(GOOGL.US)等美國科技巨頭們對於AI方面的鉅額投入能夠實現積極創收與盈利規模,進而實現整體營收與利潤業績大超預期,否則他們會將這種“非理性”AI支出,同時無法憑藉大額投入帶來任何可觀創收與利潤,視爲這些科技巨頭在AI方面的瘋狂支出“完完全全在損害歸屬於公司普通股股東的利潤”,進而掀起拋售大浪潮。
此外,在中國萬家團圓的除夕日,DeepSeek可謂徹底殺瘋了,DeepSeek正式發佈集理解與生成一體的Janus-Pro和JanusFlow系列開源多模態AI模型,參數大小從10億到70億不等,給閉源多模態領域帶來開源圖像生成的震撼。有機構投資者表示,DeepSeek證明了這種“低算力成本範式”不僅能夠打造出堪比OpenAI的文本生成AI聊天機器人,還以低成本能夠打造出堪比OpenAI DALL-E 3的多模態大模型,這也是爲何週一美股盤中(即北京時間午夜),納指與英偉達等AI芯片股股價進一步大跌的核心邏輯。
OpenAI掌舵者奧爾特曼盛讚DeepSeek!特朗普則認爲DeepSeek橫空出世爲美國AI行業敲響警鐘
“這家迅速崛起至全球矚目的中國人工智能初創公司展現出了一個令世界印象深刻的模式,尤其是他們能夠以這樣的極低價格提供的AI產品。”奧爾特曼在帖子中寫道。奧爾特曼承認DeepSeek位列最強大競爭對手,並表示這一競爭局面“令人振奮”,OpenAI也勢必將加快進程,向世人展現一些即將推出的新AI產品。
總部位於杭州的DeepSeek所推出風靡全球的低成本AI大模型,週一可謂全面攪亂全球股市,與其公司同名的人工智能聊天機器人火爆全球似乎顛覆了這樣一種假設:更好的人工智能需要更強大的AI計算能力。DeepSeek 的低成本+超高效+不輸於o1的大模型綜合性能,似乎在告訴Meta、微軟以及谷歌等美國科技巨頭:你們得好好反思耗費的幾百億美元資金到底用到哪裡去了?
但是,OpenAI掌舵者奧爾特曼在帖子中強力反駁了“未來人工智能進步的生產成本將降低”的這一當前最火熱的市場觀點,稱他領導的OpenAI開發團隊認爲“現在比以往任何時候都更需要更多的AI計算能力來成功實現我們的使命”。
OpenAI所主導的“星際之門”這一規模高達5000億美元的AI基礎設施建設項目最重要合作伙伴軟銀集團的股價延續跌勢,週一暴跌超8%之後,週二股價在東京股市繼續下跌,最終以超過5%的劇烈跌幅收盤。這兩家公司正牽頭一項初期規模1000億美元,最終可能高達5000億美元的基礎設施建設計劃,以支持OpenAI以及所有AI科技公司在美國的AI算力需求以及發展路線。
DeepSeek風靡全球似乎引發美國總統特朗普的擔憂,美東時間週一,唐納德·特朗普在佛羅里達州的一場黨內年度會議上發表講話。該會議主題往年聚焦政治內容,出乎意料的是,特朗普竟然也提到了近日爆火海外的中國AI大模型DeepSeek。特朗普在講話中表示,中國初創公司DeepSeek的技術應該對美國AI公司起到刺激作用,並認爲,中國公司開發出更便宜、更強大的人工智能方法是件好事。
特朗普在佛羅里達州表示:“中國公司發佈DeepSeek人工智能應該給我們的行業敲響警鐘,我們需要專注於競爭以贏得勝利。”“我一直在瞭解中國和中國的一些公司,特別是有一家公司提出了一種更快、更便宜的人工智能方法,這很好,因爲你不必花那麼多錢。我認爲這是積極的,是一種資產。”“我認爲這是積極的,因爲美國AI科技公司們可以這樣做,我們也可以不用花那麼多錢就能得到同樣的結果。”特朗普在講話中表示。
DeepSeek殺瘋了! 除夕放出“多模態”這一重磅核彈
全球AI行業剛剛經受R1帶來的震撼與恐慌,中國人工智能初創DeepSeek又發佈了新的模型,給閉源模型帶來開源“多模態”的震撼。美東時間1月27日週一,AI社區Hugging Face顯示,DeepSeek發佈了分別名爲Janus-Pro和JanusFlow的一系列開源多模態AI大模型,參數大小從10億到70億不等,都已可在Hugging Face供全球AI愛好者們下載。DeepSeek表示,Janus-Pro和JanusFlow的代碼均基於MIT許可證授權,這意味着它們可以不受限地用於商業用途。
Janus-Pro-7B 在 MMBench 上得分爲 79.2,明顯優於 DALL-E 3(評分 68.5)和 Stable Diffusion 系列模型,並且超過了前代模型 Janus(69.4)以及其他競爭對手(例如 TokenFlow-XL 13B、MetaMorph等)。通過視覺編碼的解耦,Janus-Pro 可以更好地處理圖像和文本的跨模態理解,並在視覺問答、圖像標註等任務中展現出強勁的競爭力。
Janus-Pro-7B 在GenEval測試中獲得 80% 的準確率,超越了包括OpenAI的DALL-E 3(67%)和 Stable Diffusion 3 Medium(74%)在內的所有對比模型,表現非常突出。在DPG-Bench 中,Janus-Pro 獲得了84.2的超級得分,顯示出其在複雜文本生成圖像指令方面的強大執行力,作爲對比,DALL-E 3僅爲74,相比於 DALL-E 3,Janus-Pro在短提示詞生成的穩定性、圖像細節的豐富性和生成指令的執行能力上都顯示出更強的能力。
JanusFlow則基於極簡的架構,將自迴歸語言模型與 矯正流 (Rectified Flow) 結合。該架構無需複雜的修改,直接通過 LLM 框架進行訓練。在文本生圖任務中,JanusFlow 支持高質量的圖像生成,雖然整體分辨率爲 384x384,但圖像質量足以滿足大多數應用需求。與 DALL-E 3 或其他模型相比,其圖像生成穩定性較高,且簡化的架構意味着模型的部署和優化更加高效。
JanusFlow 的模型尺寸從1B到7B不等,適應了不同的應用場景。7B大模型的能力接近 Janus-Pro-7B,且在一些簡單任務中,1B大模型的版本已經能夠滿足一般需求,甚至在瀏覽器中使用 WebGPU 就能直接運行。
更重要的是,相較於OpenAI的DALL-E 3等其他大型 AI 模型,DeepSeek 的多模態模型具有明顯的成本優勢。無論是在訓練算力的需求上,還是在實際部署和使用的成本上,Janus-Pro 和 JanusFlow 都展現出了較高的性價比。比如,開源大模型Janus-Pr,1.5B模型僅用了128顆英偉達A100訓練一週,而7B級別大模型也只是翻了個倍,相比之下DALL-E 3需要更大規模且算力等級更高、更昂貴的H100或者H200,DALL-E 3需要成千上萬的H100/H200 GPU以及長達數月的訓練時間。
DeepSeek是何方神聖? 爲何它讓AI行業大驚失色? 美國半導體制裁宣告失敗?
DeepSeek是一家成立僅一年多的中國人工智能初創公司,在展示了突破性的低成本人工智能大模型後,在硅谷乃至全球引起了人們的驚歎與愕然,以及恐慌情緒。DeepSeek大模型的表現與世界上最強大的AI聊天機器人ChatGPT相當,但成本只是後者的一小部分。
DeepSeek的出現可能與長期以來AI領域的普遍看法形成對比,即行業普遍認爲,人工智能的未來發展將需要不斷增加的計算能力和能源投入。
臨近1月底,全球科技股暴跌,因爲圍繞DeepSeek創新的炒作愈演愈烈,投資者們也紛紛開始思考:規模低得多的算力所打造出的不輸於OpenAI的AI大模型,對該公司位於美國的生成式AI競爭對手以及整個半導體產業鏈的影響程度。
DeepSeek應用程序與其他AI聊天機器人(如OpenAI的ChatGPT)的重要區別之一在於,它會在對文字提示做出迴應之前闡明其推理過程。該公司聲稱,其R1版本的表現與OpenAI的最新版本相當,並且已經爲有興趣使用該開源AI技術開發聊天機器人的個人授予了許可證。
儘管該公司沒有提供詳細的細節,但訓練和開發DeepSeek大模型的成本似乎只是OpenAI或Meta Platforms旗艦AI產品所需成本的一小部分。該大模型的高效性讓投資者們紛紛質疑是否需要投入大量資金從英偉達等芯片公司購買最新、最強大的AI加速器。這也加劇了人們對美國對於中國出口此類先進半導體的限制政策的重新關注——這些限制旨在防止DeepSeek所代表的那種突破,然而DeepSeek證明即使沒有H100/H200以及Blackwell,也能夠訓練出不輸於OpenAI的大模型。
華盛頓已禁止向中國出口GPU半導體等高端技術,以阻止中國在人工智能領域的進步,而人工智能是中美科技霸權之爭的關鍵前沿。但DeepSeek的進展表明,中國的人工智能工程師們已經繞過了這些半導體層面的限制,專注於在有限的資源下提高效率。儘管目前尚不清楚DeepSeek能夠獲得多少先進的英偉達人工智能硬件,但該公司所展示的足以表明,半導體限制並未完全有效地阻礙中國企業在AI領域的進步。
DeepSeek已經證明R1大模型在多個領先的AI大模型基準測試中接近或優於競爭對手OpenAI的大模型,比如用於數學任務的AIME 2024、用於常識知識的MMLU以及用於問答表現的AlpacaEval 2.0。在加州大學伯克利分校主導的排行榜Chatbot Arena上,R1也躋身表現最佳之列。
DeepSeek 的低成本+超高效+不輸於o1的大模型綜合性能,源於對大模型訓練流程的每個環節都施加了“極致工程”與“精細微調”,幅降低大模型訓練/推理成本。比如,以極致工程爲導向的高效訓練與數據壓縮策略,通過多層注意力(MLA)——尤其對Query端進行低秩化,從而在訓練時減少激活內存負擔,還包括FP8 混合精度訓練、DualPipe 並行通信、專家門控(MoE)負載均衡等手段,讓 DeepSeek 在訓練階段將硬件資源利用率最大化,減少“不必要的算力浪費”,以及“強化學習(即RL)+蒸餾+專業數據優化”的創新型AI訓練舉措,無需依賴監督微調(SFT)或人工標註數據。
DeepSeek引領的“低成本算力浪潮”已經令投資者們開始懷疑美國AI大廠們支出的合理性,如果這些科技巨頭AI鉅額投入仍然無法產生令投資者感到滿意的創收與盈利,以及超出市場預期的業績數據,可能迎來比去年夏季時期規模更大的“科技股拋售浪潮”。
據瞭解,雖然訓練/推理成本相比於GPT家族以及LIama開源大模型驟降,但是DeepSeek大模型的多個性能指標卻位於行業頂尖水平。性能評估結果顯示,通過純強化學習方法訓練得到的 DeepSeek-R1-Zero以及在此基礎上改進的 DeepSeek-R1,在 2024 年AIME(美國數學邀請賽)測試中分別取得了 71.0% 和 79.8% 的成績,與 OpenAI o1 的79.2%水平可謂並駕齊驅。DeepSeek-R1在算法類代碼場景(Codeforces)以及GPQA、MMLU中的最終得分略低於OpenAI o1,但是在評估AI大模型在解決實際軟件工程問題能力的SWE-Bench Verified方面,意外強於o1。
根據市場追蹤機構App Figures的數據,截至1月25日,DeepSeek移動應用下載量高達160萬次,在澳大利亞、加拿大、中國、新加坡、美國和英國的iPhone應用商店中排名第一。
有業內分析師表示,DeepSeek的成功可能會促使OpenAI和其他美國AI應用供應商們降低定價,以保持其既定的領先地位。事實證明,更高效的模型能夠以少得多的支出基礎與競爭對手進行競爭,因此DeepSeek橫空出世可謂全面引發了人們對Meta和微軟等科技巨頭鉅額支出的質疑——這些公司今年都承諾投入650億美元或更大規模的資本支出,主要用於人工智能基礎設施建設。
目前,世界各地的開發者都在試用DeepSeek的軟件,並希望用它來構建各種AI工具,這可能會加快先進人工智能推理模型的採用規模。因此,DeepSeek的雲基礎設施可能會因其突然的爆火而受到推理端AI算力考驗——這也是爲什麼一些英偉達與博通等AI芯片股多頭堅信從長期角度來看AI算力基礎設施需求將大得多。1月27日,該AI初創公司曾短暫遭遇了一次重大但短暫的宕機,隨着新老用戶向其AI聊天機器人發起更多查詢,該公司將不得不應對更大規模的查詢流量帶來的AI推理端算力需求激增。
本文源自:智通財經網