Kimi月活破3600萬,創始人眼中的“加減法”

21世紀經濟報道記者雷晨 北京報道

2024年11月16日,週六下午三點許,寒意悄然縈繞在空氣中。京東科技大廈二樓的一間會議室內,一場聚焦Kimi一週年發展的媒體溝通會即將啓幕。

此時,Kimi母公司月之暗面的創始人楊植麟身着Kimi文化衫與白色長褲,拿着一杯咖啡,在衆人略帶關切的注視下走進會場。近期,他正經歷循環智能時期投資人仲裁風波。

輿論場中波瀾未息,但此刻的他,神情間透露出一種專注與淡定。

“從我們開始做到現在整個行業發生了很多的變化,但是我覺得很多時候很重要的是在變化的過程中去找到一些不變的東西,一直堅持下去。”他說。

(圖爲月之暗面創始人楊植麟 21世紀經濟報道記者 攝)

在逾一個小時的分享中,楊植麟向外界分享了Kimi的最新技術進展、月活用戶情況,以及他本人對於Kimi未來發展的思考。

在他看來,Kimi在過去一年主動做了業務減法,其聚焦的,是上限高且與AGI使命相關的事務,控制業務數量和團隊規模,以確保核心創新能力。

而“加法”,映射在客戶留存方面。縱然Kimi智能助手在全平臺的月度活躍用戶已超過3600萬,但楊植麟認爲,這還不夠。他表示,當前Kimi最核心的任務便是提升留存,而它與技術成熟度正相關。

楊植麟談強化學習

他首先分享了對於AI發展的看法,並強調了“強化學習”的重要性。

楊植麟認爲,AI發展範式將更多關注基於強化學習的方法,通過強化學習讓AI具備思考能力,解決僅靠Next-Tokenprediction的侷限性,如無法探索更難任務、依賴靜態數據集等問題。強化學習可使AI在產生想法後,基於反饋迭代學習更強的思考能力,未來AI發展仍將持續Scale,但方式將更多依賴強化學習,並在過程中生成更多數據。

“什麼樣的場景是最適合讓AI鍛鍊思考的能力,我們認爲是數學場景。”他表示,這是因爲數學是宇宙的語言,解決數學問題是不斷思考和試錯的過程,且無需與外界交互,自成體系。

基於此,Kimi披露了最新技術進展與成果,其中包括新一代數學推理模型——k0-math模型。這是Kimi推出的首款推理能力強化模型。

談及專業領域,他便似打開了話匣子,滔滔不絕地闡述着k0-math的能力。

據楊植麟介紹,在多項基準能力測試中,k0-math的數學能力可對標OpenAIo1系列可公開使用的兩個模型水平,在中/高考、考研及經典math數據集上得分高於O1preview和O1mini等模型。但在更難競賽題上與O1系列仍有差距。在兩個難度更大的競賽級別的數學題庫OMNI-MATH和AIME基準測試中,k0-math表現分別達到了o1-mini最高成績的90%和83%。

不過,他也談到,當前k0-math模型仍有提升空間。

需要注意的是,k0-math模型雖然擅長解答大部分很有難度的數學題,但是當前版本還無法解答LaTeX格式難以描述的幾何圖形類問題。此外,它還有一些侷限性需要突破,包括對於過於簡單的數學問題,例如1+1=?k0-math模型可能會過度思考,對於高考難題和IMO題目依然有一定概率做錯、猜答案。

如何避免模型過度思考?楊植麟認爲,需更好訓練獎勵模型和設置獎勵機制,以解決數據篩選和避免學習錯誤內容的問題,如採用rorshaking方法等。

推理泛化與搜索更新

新的強化學習技術範式不僅帶來推理能力提升,也將會泛化到更多日常任務上。

今年10月中旬,Kimi探索版上線,將推理能力運用到AI搜索任務上。據悉,Kimi探索版的搜索量是普通版的10倍,一次搜索即可精讀超過500個頁面。

“最近,Kimi探索版運用強化學習技術創新搜索體驗,在三大推理能力上實現突破:意圖增強、信源分析和鏈式思考。”楊植麟提到。

所謂意圖增強,是指Kimi探索版可以將抽象的問題和模糊的概念具體化,拓展用戶的真實搜索意圖。信源分析方面,Kimi探索版會從大量的搜索來源結果中,分析篩選出更具權威性和可靠性的信源,並且在答案中提供溯源鏈接,可一鍵定位信源具體出處,精確到段落級別,讓每條信息都有據可查。至於鏈式思考,Kimi探索版可以更好地基於思維鏈推理能力處理產品、公司、行業等研究問題。

最新數據顯示,2024年10月Kimi智能助手在PC網頁、手機APP、小程序等全平臺的月度活躍用戶已超過3600萬。

據楊植麟介紹,接下來,k0-math數學模型和更強大的Kimi探索版,將會分批陸續上線Kimi網頁版(kimi.ai)和Kimi智能助手APP,幫助用戶解決更有挑戰的數學和搜索調研類任務。

“除了技術的不斷變革,通往AGI的過程也是Kimi與用戶通過產品互動共創的過程。”楊植麟表示,“實際上,我們已經把產品當成一個強化學習的環境,模型在這個環境裡跟用戶交互,讓技術、產品和用戶體驗都能持續變得更好,爲用戶創造更大的價值。”

據悉,Kimi還計劃將推理泛化到更多學科和任務裡,如解決物理、化學、生物醫學等學科難題以及證明未被證明的定理等。

迴應市場關切

在當天的採訪對話環節中,楊植麟大多時刻都面帶微笑,迴應了除仲裁之外的諸多問題。據記者梳理,主要涉及以下10個方面:

①數據、算力、算法平衡:AI發展在算力不夠時需優化工程、完善基礎設施;當算力scale差不多時,需改變算法避免數據成爲瓶頸,好算法應與Scaling相適配,強化學習是重要趨勢,可改變目標函數與學習方式持續scale。非transformer無法解決相關問題。

②產品推理成本與使用模式:後續版本大概率讓用戶選擇是否使用相關模型,長期來看成本呈下降趨勢,還可通過算法迭代實現動態分配最優算力。

③AI創業公司現象與自身業務聚焦:AI創業公司被收購、人才迴流大廠是行業發展進入新階段的必然規律,自身未遇人才流失,主動做業務減法,保持人數少與卡和人比例高,聚焦核心產品。

④預訓練與ScalingLaw:預訓練還有半代到一代的空間明年釋放,重點將轉向強化學習,ScalingLaw相對樂觀,可通過強化學習利用AI自身槓桿標註少量數據產生較大作用。

⑤多模態:多模態能力在內測,認爲思考能力決定AI上限,交互是必要條件,多模態雖必要但思考更關鍵。

⑦行業競爭:更關注爲用戶提供真正價值,聚焦提升模型思考推理能力,不專門關注競爭本身。

⑧核心任務與留存:最核心任務是提升留存,與技術成熟度正相關,當前產品在思考與交互能力上還有很大提升空間,模型能力與產品指標高度正相關可統一優化。

⑨範式轉化:預訓練到推理的範式轉化可預測,早期雖預訓練有紅利但已鋪墊強化學習,人才佈局從去年開始,中間有不同過程探索更規模化方式。

⑩出海與商業化:先聚焦再全球化,需要更耐心;商業化關鍵是留存,投流策略核心是平衡留存與增長關係,數據不完全準確,整體留存相比其他產品有優勢且有提升空間。