反超ChatGPT,重創美股,DeepSeek除夕再放大招震動全球科技圈
這兩天,中國人工智能初創公司深度求索(DeepSeek)成爲全球科技圈熱議的主角。
就在剛剛過去的24小時內,DeepSeek AI智能助手同時登頂中美iOS免費應用排行榜第一,刷爆國內外社交平臺,應用更是多次被“擠”到宕機。
美股半導體股受此衝擊,芯片巨頭英偉達(NVIDIA)股價歷史性暴跌,納斯達克綜合指數大幅下跌。
就在1月28日除夕凌晨,DeepSeek在GitHub平臺發佈了Janus-Pro多模態大模型,進軍文生圖領域。像是送給科技圈的新春禮物。
DeepSeek掀起的聲量也受到了各界大佬高度關注。
英偉達發言人迴應時代財經記者稱:“DeepSeek是一項卓越的人工智能進展,也是測試時擴展的絕佳範例。”他提到,推理過程還“需要大量英偉達GPU和高性能網絡”。
OpenAI首席執行官薩姆·奧爾特曼發文稱“有了新的競爭對手令人振奮”;美國總統特朗普在佛羅里達州邁阿密發表講話時,談到DeepSeek的出現“給美國相關產業敲響了警鐘”,美國“需要集中精力贏得競爭。
美股科技股巨震
DeepSeek再發新模型
美股1月27日收盤,納斯達克綜合指數下跌3.07%,標準普爾500指數跌1.46%,道瓊斯工業平均指數逆勢上漲0.65%。據外媒報道,道瓊斯市場數據顯示,當地時間週一的“市場大屠殺”總共使股市市值蒸發了約1萬億美元。
其中,歐美科技股重挫。AI龍頭英偉達暴跌16.97%,單日市值蒸發5890億美元,創史上最大單日個股市值蒸發紀錄。一夜之間,英偉達創始人黃仁勳的身家大幅縮水210億美元。
此外,甲骨文下跌13.78%,超微電腦下跌12.49%,芯片製造商博通下跌17.4%,臺積電跌13%。當日,芯片指數大跌超9%。
市場分析認爲,核心原因是中國人工智能初創公司深度求索(DeepSeek)的最新突破,動搖了美國科技行業的“無敵”地位。
消息面上,1月27日,DeepSeek應用登頂蘋果中國地區和美國地區應用商店免費APP下載排行榜,在美區下載榜上超越了ChatGPT。這距離其1月20日新模型DeepSeek-R1的發佈,纔過去短短一週時間。
就在1月28日,DeepSeek又拋出的新模型,再次引發市場高度關注。
Github社區信息顯示,Janus-Pro是去年發佈的Janus的高級版本,可顯著提高多模式理解和視覺生成。相比此前的Janus,Janus-Pro優化的訓練策略、擴展的訓練數據和擴展到更大的模型尺寸。通過這些改進,Janus-Pro在多模態理解和文本到圖像的指令遵循能力方面都取得了顯著的進步,同時也增強了文本到圖像生成的穩定性。
在文生圖GenEval和DPG-Bench基準測試中,Janus-Pro-7B的準確率較前代Janus大幅提高,準確率測試結果分別爲80%和84.2%,高於包括OpenAI DALL-E 3在內的其他對比模型,Janus的準確率分別爲61%和79.7%。
簡單來說,Janus-Pro模型既能讓AI讀圖(基於SigLIP-L),又能讓AI生圖(借鑑LlamaGen),分1.5B和7B兩個大小。而要知道的是,GPT-4o的圖片生成多模態模型至今沒開放。
DeepSeek對AI行業意義方面,dropbox AI 副總裁 Morgan Brown曾做了一系列總結:“DeepSeek 突然出現並說,如果我們花 500 萬美元做這件事會怎麼樣?他們不只是說說而已——他們真的做到了。他們的模型在許多任務上匹敵甚至擊敗了 GPT-4 和 Claude。”“關鍵在於,DeepSeek 的團隊不到 200 人,但 Meta 的團隊僅薪酬就超過了DeepSeek 的整個培訓預算……而且他們的模型並不那麼好。”
最先感受到DeepSeek帶來的壓力的是硅谷。
Information網站消息稱,目前臉書母公司Meta已成立了四個專門研究小組來研究量化巨頭幻方量化旗下的國產大模型DeepSeek的工作原理,並基於此來改進旗下大模型Llama。其中兩個小組正在試圖瞭解幻方量化如何降低訓練和運行DeepSeek的成本;第三個研究小組則正在研究幻方量化可能使用了哪些數據來訓練其模型;第四個小組正在考慮基於DeepSeek模型屬性重構 Meta 模型的新技術。
DeepSeek所推動的低成本大模型訓練方案,引發科技圈的思考:當僅憑相對有限的算力就能達到與OpenAI模型相媲美的性能水平時,這是否預示着以英偉達爲代表的高端算力芯片市場正面臨新的泡沫風險?
1月28日,薩姆·奧爾特曼在社交平臺X發文肯定了DeepSeek的表現,並表態將加快產品發佈速度。他在推文中寫道:DeepSeek的推理大模型R1是一款令人印象深刻的模型,尤其是考慮到其性價比。顯然,我們將推出更好的模型。
不過,奧爾特曼特地強調,“我們很高興能繼續執行我們的研究路線圖,並相信更多的算力比以往任何時候都更重要,以成功完成我們的使命。”
同樣,英偉達發言人迴應時代財經記者稱:“ DeepSeek的研究展示瞭如何運用該技術,藉助廣泛可用的模型以及完全符合出口管制規定的算力,創建新模型。推理過程需要大量英偉達GPU和高性能網絡。如今我們有三條擴展定律:持續適用的預訓練和後訓練定律,以及新的測試時擴展定律。”
不過,隨着大量新用戶的涌入,DeepSeek稱近期線上服務受到“大規模惡意攻擊”,1月28日官方公告稱,爲持續提供服務,暫時限制了+86手機號以外的註冊方式,已註冊用戶可以正常登錄,感謝理解和支持。
反超ChatGPT
從“好學生”升級至“學霸”
隨着DeepSeek-R1引爆大模型的輿論場,其背後的DeepSeek公司也隨之受到更熱烈的關注。
DeepSeek,運營主體爲杭州深度求索人工智能基礎技術研究有限公司,成立於2023年7月17日,是一家創新型科技公司,專注於開發先進的大語言模型(LLM)和相關技術,其創始人樑文鋒也是頭部量化私募幻方量化的創始人。
2015年,幻方量化正式成立,2019年,其資金管理規模就突破百億元。幻方量化官網顯示,其在2018年就確立以AI爲公司的主要發展方向。
2023年7月,幻方量化宣佈成立大模型公司DeepSeek,正式進軍通用人工智能領域。僅僅不到一年的2024年5月,DeepSeek就推出了史無前例高性價比的DeepSeekV2,因此被外界成爲“AI屆的拼多多”。
據DeepSeek官方表示,DeepSeek-V2採用了創新的架構,例如注意力機制方面的MLA(多頭潛在注意力)和前饋網絡方面的DeepSeekMoE架構等,以實現具有更高經濟性的訓練效果和更高效的推理。
自去年12月DeepSeek-V3發佈後,DeepSeek變得更加“驚豔”。AI數據服務公司Scale AI創始人Alexander Wang就曾發貼稱,DeepSeek-V3是中國科技界帶給美國的苦澀教訓。“當美國休息時,中國(科技界)在工作,以更低的成本、更快的速度和更強的實力趕上。”
而不到一個月之後,今年1月20日,DeepSeek正式開源R1推理模型,讓這番關注量級再上一層樓。1月24日,在國外大模型排名Arena上,DeepSeek-R1基準測試已經升至全類別大模型第三,其中在風格控制類模型(StyleCtrl)分類中與OpenAI o1並列第一;緊接着,1月27日,DeepSeek應用衝上蘋果中美區免費APP下載排行榜。爆火的用戶體驗場面,更是直接導致DeepSeek1月26日、27日在兩天之內接連出現服務宕機現象。
新模型DeepSeek-R1引發國內外高度關注原因在與其性能和成本。
據DeepSeek介紹,其最新發布的模型DeepSeek-R1在後訓練階段大規模使用了強化學習技術,在僅有極少標註數據的情況下,極大提升了模型推理能力。在數學、代碼、自然語言推理等任務上,性能比肩OpenAI o1正式版。
“這就相當於是說,它(DeepSeek-R1)生成的內容不是僅依靠已經標註給它的數據,而是它可以根據標註內容去深度思考、反向標註更多的東西。”資深互聯網分析師張書樂向時代財經記者表示。
“它實際上提供了一個思路,就是人工智能如何完成從‘好學生’到‘學霸’的突破。我們之前的人工智能就像一個‘好學生’,通過深度學習,對資料進行反覆的消化吸收,然後生成答案。這些資料就相當於是課本,好學生一旦遇到課本之外的超綱題就不會做了。而DeepSeek就像掌握了課本里方法論的‘學霸’,能夠舉一反三,通過學習課外讀物,擴大知識面,而這些課外讀物不一定是標註好的。”張書樂解釋道。
除了性能外,而更令市場驚訝的是,DeepSeek-R1的預訓練費用不到600萬美元,在2048塊英偉達H800 GPU(針對中國市場的低配版GPU)集羣上運行55天完成,僅是OpenAI GPT-4o模型訓練成本的不到十分之一。
據瞭解,隨着數據規模效益的Scaling Law(模型規模定律)逼近極限,OpenAI去年9月發佈採用RL訓練的新推理模型o1,引領大模型領域“範式轉移”。此前,國內大模型廠商無人能及OpenAI o1。而DeepSeek R1的問世,標誌着國內首次突破OpenAI技術壁壘。
可以說,DeepSeek大模型證明了在Scaling Law之外,AI大模型或許還有另一條制勝之道。
“DeepSeek-R1的成功確實起到示範作用,它證明了AI初創公司確實能夠在開源大模型上打破科技大廠壟斷的局面,甚至在某些方面超越國內外科技巨頭。這纔是最刺激人心的東西。”張書樂分析道。
而在數日前,就有Meta的工程師們在匿名社交平臺TeamBlind上表示DeepSeek所研發的AI模型爲其帶來了巨大壓力。Meta首席AI科學家楊立昆(Yann LeCun)在其發表在Threads上的一篇文章中指出,比起“中國AI超越了美國”的觀點,DeepSeek-R1更重要的是證明了“開源模型正在超越專用模型”:“DeepSeek得益於開源研究和開源項目(例如PyTorch和來自Meta的Llama)。這就是開放研究與開源的力量。”
本文源自:時代財經APP