徹底爆發!DeepSeek火了!服務器都崩了

源自券商中國

熱度突然飆升!

這個週末,無論是科技界,還是投資界,突然又都在談論DeepSeek。本週,中國人工智能公司DeepSeek發佈其R1模型(DeepSeek R1),硅谷一片緊張。在第三方基準測試中,其表現優於OpenAI、Meta和Anthropic等美國領先人工智能公司。

從其性能上看,DeepSeek的確非常優秀。據券商中國記者親測,單論文學素養、文字組織能力,已經是秒殺一衆文字工作者的存在。一種職業危機感油然而生。而從其閱讀總結能力、數理邏輯處理能力來看,亦堪稱卓越。

關鍵是,該款大模型的成本優勢極爲明顯。因此,市場亦將英偉達週五的大跌歸因於DeepSeek的火爆。市場認爲,DeepSeek R1的成功可能削弱了市場對英偉達AI芯片需求的預期。

1月26日,有網友表示,DeepSeek崩了,提示服務器繁忙。隨後,DeepSeek迴應稱,確實出現了局部服務波動,但問題在數分鐘內得到解決;DeepSeek同時表示,此次事件可能與新模型發佈後的訪問量激增有關。

DeepSeek的衝擊

我國人工智能研究人員實現了許多人認爲遙不可及的目標:一個免費的開源人工智能模型,其性能可以匹敵甚至超過OpenAI最先進的推理系統。更令人驚奇的是他們如何做到這一點:讓人工智能通過反覆試驗自學,就像人類學習一樣。

春節之前的這一週,我國人工智能公司DeepSeek發佈其R1模型,硅谷一片緊張。在第三方基準測試中,其表現優於OpenAI、Meta和Anthropic等美國領先人工智能公司。

性能數據令人印象深刻。在AIME2024數學基準測試中,DeepSeekR1的成功率達到79.8%,超越了OpenAI的o1推理模型。在標準化編碼測試中,它表現出“專家級”的性能,在Codeforces上獲得了2029Elo評級,並超越了96.3%的人類競爭對手。

但DeepSeek R1真正與衆不同之處在於它的成本——或者說成本很低。該模型每百萬個token的查詢成本僅爲0.14美元,而OpenAI的成本爲7.50美元,便宜了98%。與專有模型不同,DeepSeek R1的代碼和訓練方法在MIT許可下完全開源,這意味着任何人都可以獲取、使用和修改該模型,而不受限制。

它展示的卓越推理能力,正在“突破開源AI的界限”的特點,讓硅谷措手不及,並輕而易舉地成爲了這一週科技界最受關注的熱點。風頭甚至蓋過了達沃斯經濟論壇、TikTok的不確定性以及特朗普總統上任。

扎克伯格急了

針對人工智能差距快速縮小,Meta創始人兼CEO扎克伯格呼籲美國政府加緊封鎖。他表示,DeepSeek很先進,中美AI差距非常小。

扎克伯格近日表示,我們應該希望美國的模型能贏,中國正在全力衝刺。如果將來有一個開源模型能被全世界廣泛使用,我們希望它是一個美國模型。

如果美國政府能夠更多地支持美國公司,而不是在每個環節都拖後腿,那就更好了。美國科技行業現在確實是領先的,所以政府偶爾添點麻煩,美國科技行業也許依然能保持領先。但我覺得政府很容易把這種領先地位當成理所當然的事。實際上,這是一場差距很小的競爭,我們需要支持。政府不能成爲阻礙我們實現目標的力量,而是該幫助我們。DeepSeek發佈幾天後,Meta計劃在2025年投入超過600億美元,加大對人工智能的投入。

但對於Meta的首席人工智能科學家Yann LeCun來說,DeepSeek成功的最大收穫不是來自中國競爭對手的加劇威脅,而是保持人工智能模型開源的價值,以便任何人都能受益。LeCun在社交媒體Threads上的一篇文章中表示,並不是中國的人工智能“超越了美國”,而是“開源模型正在超越專有模型”。

DeepSeek R1本身是開源的,Meta的Llama也是如此。OpenAI最初是一家開源人工智能公司,其使命是創造造福全人類的技術,但最近已轉向閉源。LeCun表示DeepSeek“受益於開放研究和開源”。“他們想出了新的辦法,並在其他人的工作基礎上加以實現。由於他們的工作成果已發表並開源,因此每個人都可以從中受益。”LeCun說“這就是開放研究和開源的力量。”

支持開源的人認爲,開源讓技術得以快速、民主地發展,因爲任何人都可以修改和重新發布代碼。另一方面,支持閉源模式的人則認爲閉源模式更安全,因爲代碼是保密的。OpenAI首席執行官Sam Altman在去年11月Reddit的AMA上表示,閉源方法爲他的公司提供了“一種更容易達到安全門檻的方法”。不過,他補充說,“希望我們將來能開源更多的東西。”

英偉達受衝擊?

另一類着急的人可能是英偉達的多頭。週五收盤,英偉達股價大跌超3%,盤後繼續跌0.42%。

市場認爲,DeepSeek R1的成功可能削弱了市場對英偉達AI芯片需求的預期。因爲DeepSeek似乎以極低的成本構建了一個突破性的人工智能模型,並且無需使用尖端芯片。這讓人質疑投入芯片行業的數千億美元資本支出的實際效用。

DeepSeek僅用2048顆英偉達H800GPU和560萬美元,就訓練出6710億參數的開源大模型,這只是OpenAI和谷歌訓練同等類型模型花費的一小部分。加州大學伯克利分校人工智能政策研究員裡特維克·古普塔表示,DeepSeek最近發佈的模型表明,“沒有阻礙人們獲取人工智能能力的壕溝”。他說:“訓練模型第一人必須花費大量資源才能實現目的,但跟進者可用更少的費用且以更快的速度實現目的。”

另一方面,蘋果研究員Awni Hannun提到,人們可以在Apple Mac上本地運行該模型的量化版本。傳統上,由於與英偉達的CUDA軟件不兼容,蘋果設備在AI方面一直較弱,但這種情況似乎正在改變。例如,AI研究員Alex Cheema在利用8臺Apple Mac Mini設備共同運行後能夠運行完整模型,這仍然比運行目前最強大的AI模型所需的服務器便宜。也就是說,用戶可以在Apple Mac上運行更輕量的DeepSeek R1版本,並且獲得良好的準確度和效率。