專家解讀:中國新AI大模型爲何火爆全網

近日,一個名爲DeepSeek(深度求索)的中國AI初創公司成爲國內外人工智能(AI)大模型領域熱議話題。在不到30天的時間裡,DeepSeek先後發佈了DeepSeek-V3和DeepSeek-R1兩款大模型,其成本與動輒數億甚至上百億美元的國外大模型項目相比堪稱低廉,而性能與國外頂尖大模型相當。同時,DeepSeek與外國大模型巨頭閉源的路徑不同,採用開源模式。中國這家公司的發展模式與成果讓硅谷高度關注,多家西方主流媒體紛紛發文感嘆“中國AI模型震驚硅谷”,甚至引發了國內外多家知名廠商與機構連夜嘗試復現DeepSeek成果的“熱潮”。DeepSeek的發展具有哪些特點?是否對國產大模型的發展路徑以及創新思路帶來一些啓示?《環球時報》記者26日採訪了多位人工智能領域的專家。“OpenAI o1經濟實惠且開放的競爭對手”DeepSeek公司本月20日發佈大模型R1,並表示“在數學、代碼、自然語言推理等任務上,性能比肩OpenAI o1正式版”,引發外媒特別是美國媒體高度關注這家中國公司及其最新大模型成果。“中國便宜、開放的人工智能模型 DeepSeek讓科學家興奮不已。”《自然》雜誌24日以此爲題稱,中國研製的大語言模型DeepSeek-R1令科學家們興奮不已,它被認爲是OpenAI o1等“推理”模型的經濟實惠且開放的競爭對手。《紐約時報》24日以“中國人工智能初創企業DeepSeek如何與硅谷巨頭競爭”爲題報道稱,能做到上述成績本已是一個里程碑,但DeepSeek-V3大模型背後的團隊描述了一個更大的進步。他們在訓練該系統時只用了先進人工智能公司所用的高度專業化計算機芯片的一小部分。中國工程師稱,他們只花了約600萬美元以及約2000個英偉達專用芯片就完成了新模型的訓練,無論資金以及芯片使用規模都遠低於世界領先的人工智能公司。“這不是中國追趕美國的問題,而是開源追趕閉源的問題”DeepSeek備受關注,除了性價比超高,還有另一個原因:開源。連日來,網絡上已經出現了一波復現DeepSeek的熱潮。加州大學伯克利分校、香港科技大學、知名人工智能公司HuggingFace等紛紛成功復現,只用強化學習,沒有監督微調,甚至只用幾十美元的成本就能完成復現。美國紅迪網25日稱,中國DeepSeek的模型是開源的,這是令人興奮的真正原因。基本上,他們將製造這些東西的知識免費提供給全世界,確保沒有人能夠真正壟斷它。中國公司基本上與美國公司的做法完全相反。你能看到OpenAI、Anthropic或谷歌開源任何強大的模型嗎?到目前爲止,我們從他們那裡得到的只是皮毛。Meta是唯一一家對開源大模型做出重大貢獻的西方大公司,但他們將來可能不會開源其最好的模型。被譽爲“深度學習三巨頭”之一的Yann LeCun(楊立昆)在社交平臺X上表示,這不是中國追趕美國的問題,而是開源追趕閉源的問題。北京郵電大學人機交互與認知工程實驗室主任劉偉在接受《環球時報》記者採訪時表示,大模型三大核心要素是數據、算法、算力,Deepseek使用較少的數據、較少的算力,通過算法的優化實現了與國外知名大模型等效甚至更優的效果,這是非常值得肯定的。同時還要看到它是開源的,可以供全球希望使用這一大模型的用戶來使用和復現。清華大學新聞學院、人工智能學院教授瀋陽26日對《環球時報》記者表示,DeepSeek的大模型是全球開源大模型當中相當優秀的一款,是混合使用多種先進技術實現超越傳統預訓練技術的創新突破。他結合自身使用的感受談了這款大模型的幾個優點。一是它把目前提升AI大模型能力的方法進行了工程上的微創新組合。二是DeepSeek公佈了相關論文,整個過程可以讓大家去復現,這就是開源的力量。三是DeepSeek的推理過程,有自身的創新。瀋陽作爲AI領域的研究者,使用AI超過3萬次,他認爲,DeepSeek跟美國的AI相比,還有很多中國元素在裡面,如中國網絡當中的一些熱詞。提升推理能力對於Deepseek的發展模式爲國內大模型發展以及創新提供了怎樣的重要啓示,劉偉認爲,“創新不是規劃出來的,需要市場、專業機構通過長時間的研究來另闢蹊徑,尤其是一些長期關注垂直領域的商業公司可以通過對技術路徑的反思、對市場發展的嗅覺,來找到更好的創新點。OpenAI最初的發展過程也是這樣,並不是美國官方與科技巨頭砸重金規劃出來的。”日前,OpenAI、軟銀等公司公佈了“星際之門”計劃,要在4年中砸5000億美元來加速美國人工智能的發展。劉偉強調,這種集中人力、財力、物力,再給予政策傾斜的發展路徑,在未來研究方向與研究結果方面都存在一定的不確定性。“還是要鼓勵國內更多商業公司、科研院所聚焦自身的研究領域,找到適合自己的創新與發展路徑。”瀋陽表示,在AI發展歷史中,新的突破往往是由不顯眼的工程創新與科學探索共同驅動的。這種趨勢在DeepSeek的成果中得到了深刻體現,它不僅突破了傳統的訓練方式,也爲推理能力的提升帶來了全新的視角。“儘管它的成就尚處於一個階段性水平,但其工程貢獻和理論創新已經爲未來的AI發展奠定了重要基礎。”瀋陽認爲,DeepSeek團隊在基礎模型預訓練方面的貢獻,不僅是在技術層面上的突破,更在於其工程方法的精細與高效。DeepSeek的這種工程創新,標誌着AI模型訓練的一個全新階段,這不僅降低了開發成本,也爲其他公司提供了可借鑑的路徑。同時,DeepSeek的核心創新還體現在推理能力的提升上,尤其是通過相關算法創新來推動模型的自然推理能力,證明了AI領域的一種潛力——無須大量昂貴的思維鏈標註,模型依然能夠涌現出推理能力。瀋陽認爲,DeepSeek的成功也讓我們看到了未來AI產業的發展方向:更多的開源創新、硬件與軟件的深度協同,以及對模型開發成本與推理能力的不斷優化。同時,我們也必須看到,DeepSeek雖然取得了顯著的階段性成果,要想在未來發展道路上實現進一步突破,仍然需要面對許多深層次的挑戰,例如需要更多的原創性訓練數據和算法創新。