這是激進投資AI的錦秋基金,從硅谷帶回的二十五條關鍵認知
2025年初,中國國內目前最活躍的AI投資機構之一的錦秋基金,組織了一場硅谷的 Scale With AI 活動。
5天4晚裡,OpenAI、xAI 、Anthropic、Google、Meta、Perplexity、Luma、Runway 等關鍵AI公司以及很多硅谷的投資機構集中分享了硅谷AI的最新進展,以及他們對2025趨勢的很多預測和判斷。
作爲這個活動背後的攢局者,錦秋基金不僅投資了北美的一些活躍的AI基金,與全球AI市場建立連接,也特別推出了Soil種子計劃,以激進的、快速靈活決策的方式支持AI領域的早期創業者。過去的2024年,錦秋頻繁出手了AI達人營銷平臺Aha Lab、AI內容平臺造夢次元等諸多項目。
以下是本次硅谷行整理出的關於AI進展的二十五條重要認知,共分爲大模型、視頻模型、AI應用以及具身智能四個部分。
關於大模型:Scaling law是否達到瓶頸以及硅谷創新的來源
1.對 LLM 來說,Pre-training 的時代已基本結束了,但 post-training 還有很多機會。此外,在 Pre-training 投入少的原因,更多在於資源有限,而做 Post-training 的邊際效益會更高,所以,Post-training還有很多機會。
2.先有 Pre-training,纔有 Post-training 中的 RL,模型得有基礎能力,RL 纔能有的放矢。RL 不改變模型的智力,更多是思考模式。相比來說,Pre-training 是 imitation,只能做到模仿,而RL 是創造,可以做不同的事。
3、一些可能明年成爲共識的預判。比如Model 架構可能變化;閉源和開源差距會大幅縮小;關於合成數據,大模型生成數據然後訓練小模型是可行的,反過來比較難。合成數據和真實數據的區別主要是質量問題。也可以用各類數據拼湊合成,效果也很好。pretraining 階段可用,因爲對數據質量要求不高。另外,每家拼湊的方式都不一樣,用更大模型生成訓練小模型是可以的,用小的模型訓練大模型的話,近一年可能好點。而本質都是數據來源問題。
4.Post training 團隊建設,理論上5 人足夠(不一定全職)。比如一人搭建 pipeline(infrastructure),一人管數據(數據效果),一人負責模型本身 SFT,一人負責產品對模型編排做判斷,收集用戶數據等。
5. 關於硅谷創新的秘密由來,其中一個重要因素就是他們的公司很容易形成一種扁平的組織文化。像openAI,就並沒有所謂特定的decision maker,每個人都很自主自由,團隊之間的合作也很自由。而老牌的谷歌也在悄悄裁撤中間層,讓很多曾經的manager轉一線。
關於視頻模型: Scaling Law的瓶頸還很早
6、視頻生成還處於 GPT1 和 2 的時間點。現在視頻水平接近 SD1.4 的版本,未來視頻會有和商用性能差不多的開源版本。當前的難點是數據集,視頻因爲版權等問題沒有那麼大的公用數據集,每一家如何獲取、處理、清洗數據會產生很多不同,導致模型能力不同,開源版本的難度也不同。
7.DiT 方案下一個比較難的點在於如何提升物理規律的遵循,而不只是統計概率。視頻生成的效率是卡點。目前要在高端顯卡上跑挺久,是商業化的障礙,也是學術界在探討的方向。類似 LLM 雖然模型迭代速度在放緩,但應用沒有放緩。從產品角度,只做文生視頻不是一個好的方向,相關的偏剪輯、創意的產品,會層出不窮,所以短期內不會有瓶頸。
8.會有 1~2 年才能達到 DiT 技術路線的飽和。DiT 路線很多可以優化的地方。更高效的模型架構,是非常重要的。以 LLM 爲例,一開始大家都在往大了做,後面發現加 MOE 和優化數據分佈後,可以不用那麼大的模型去做。需要投入更多研究,一味 scale up DiT 非常不高效。視頻數據如果把 YouTube、TikTok 都算上,數量非常大,不可能都用於模型訓練。
9.視頻的 scaling law,在一定範圍內有,但遠達不到 llm 的級別。現在最大級別的模型參數也就是 30b。30b 以內證明是有效的;但 300b 這個量級,就沒有成功案例。現在做法中,不同主要是在數據上、包括數據配比,其他沒有大不同。
10.Sora 剛出來大家都認爲會收斂到 DiT,但實際上還有很多技術路徑在做,例如 based on GAN 的路徑,以及 AutoRegressive 的實時生成,比如最近很火的項目 Oasis,還有把 CG 和 CV 結合去實現更好的一致性和控制。每一家都有不同的選擇,未來面向不同場景選擇不同的技術棧會是一個趨勢。
11.長視頻生成提速的技術方案,能看到 DiT 能力極限在哪,模型越大、數據越好,生成的清晰度更高、時間更長、成功率更高。DiT 模型能 scale 到多大,目前沒有答案。如果到一定尺寸出現瓶頸,可能會有新的模型架構出現。從算法角度,DiT 做出一個新的推理算法,來支持快速。比較難的是怎麼在訓練的時候把這些加上。
12.視頻模態的訓練數據其實還有很多,而且怎麼樣高效地選擇出高質量數據比較重要。數量取決於對版權的理解。但算力同樣是瓶頸,即便有那麼多數據,也不一定有算力去做,尤其是高清的數據。有時候需要基於手頭有的算力去反推需要的高質量數據集。高質量數據一直都是缺的,但即便有數據,很大的問題是大家不知道什麼樣的圖像描述是對的,圖像描述要有哪些關鍵詞。
13.視頻生成的真實度主要靠基模能力,美學提升主要靠 post training階段,比如海螺就大量用影視數據。視覺模態可能不是更好的通向 AGI 的最好的模態,因爲文字是通往智能的捷徑,而視頻和文字之間的效率差距是幾百倍。
14.多模態模型還在很早期階段。給前 1 秒視頻 predict 後面 5 秒已經很難了,後面加入 text 可能會更難。理論上視頻和文字一起訓是最好的,但是整體做起來是很難的。多模態目前不能提升智力,未來也許是可以的。
關於AI 應用:硅谷的趨勢和國內不太一樣
15.硅谷 VC 傾向於認爲 2025 年是有應用投資的大機會。他們投資 AI 產品的標準之一:最好只做一個方向,讓競品很難複製。也需要有一些網絡效應:要麼是難以複製的洞察力;要麼是難以複製的技術 Edge;要麼是他人無法獲得的壟斷資本。否則很難稱之爲創業,更像是一門生意。而且在美國,基本沒有 killer apps for everyone。大家習慣於在不同場景中使用不同功能的 App,關鍵是讓用戶體驗儘可能的無障礙。
16、硅谷 VC 認爲AI產品公司是新物種,和之前的SaaS很不一樣,找到了 pmf,它的 revenue booming 是非常快的,真正 value creation before hype 是在 seed 階段;大模型很注重預訓練,應用公司更注重 reasoning。每個行業有固定的看問題的方式和方法,新出現的 AI Agent 是在 LLM 的基礎上加入了 Cognitive Architecture。
17.VC 裡的小衆觀點是可以有條件考慮投資中國創業者。原因是新一代中國創始人很有活力,很有能力做很好的生意模式。但前提是 base 在美國。中國及中國創業者在做很多新的嘗試,但是國際投資人不瞭解,所以也是一個價值窪點。
18.硅谷的 VC 都在想辦法建立自己的投資策略。Soma Capital的策略是建聯最優秀的人,讓最優秀的人介紹他的朋友,創建 Life Long Friendship。在過程中 inspire、support、connect 這些人;建立全景地圖,包括市場細分和項目 mapping,想做數據 Driven 的投資。會從 Seed 投資到 C 輪,觀測成功/失敗樣本;Leonis Capital是研究驅動的風險投資基金,主要是 First Check。OldFriendship Capital則是Work first,invest later,會和 founder 先一起工作,打客戶訪談,確定一些訪談 guideline,一起搞清楚產品的問題,類似諮詢工作。投中國項目,在工作中可以判斷中國 founder 是否有機會能夠和 US Customer 一起工作。
19.Storm Venture喜歡 Unlocking Growth,比較喜歡 A 輪有 PMF 的公司,他們通常獲得了 1-2M 的收入,然後去判斷是否存在 Unlocking growth 支撐他們漲到 20M。Inference venture認爲壁壘應建立在人際關係和領域知識。
20.OpenAI研究員創辦的 Leonis Capital 有 幾 個關於 2025 年的AI預測。比如會有一款 AI 編程的應用走紅;比如模型提供商開始控制成本,創業者需要去選擇 model/agent 創造一個獨特供給;數據中心會造成電力衝擊,可能存在新架構重新;新的 framework,模型變小;Multi agent 會變得更加主流。
21 AI Coding 公司模型訓練的可能思路,一開始會用模型公司更好的 API來取得更好的效果,即使成本更高,在積累客戶使用數據之後,不斷地在小場景訓自己的小模型,從而不斷替換部分 API 場景,以更低成本取得更好的效果。
22. AI Coding 的一個重要趨勢是使用推理增強技術,類似於 o3 或 o1 方法。方法可以顯著提高代碼代理的整體效率。雖然它目前涉及高昂的成本(多 10~100 倍),但它可以將錯誤率降低一半甚至四分之一。隨着語言模型的發展,這些成本預計將迅速下降,這可能使這種方法成爲一種常見的技術路線。
關於具身智能:完全具備人類泛化能力的機器人,在我們這代可能無法實現
23:硅谷的一些人認爲,具身機器人尚未迎來類似Chatgpt的時刻,一個核心原因在於,機器人需要在物理世界中完成任務,而不僅僅是通過虛擬語言生成文本。機器人智能的突破需要解決具身智能的核心問題,即如何在動態、複雜的物理環境中完成任務。機器人的關鍵時刻需要滿足通用性:能夠適應不同任務和環境;可靠性:在真實世界中具有較高的成功率;可擴展性:能通過數據和任務不斷迭代和優化等幾個條件。
24:機器人數據閉環難以實現是因爲它們缺乏類似ImageNet這樣的標誌性數據集,導致研究難以形成統一的評估標準。另外,數據採集的成本高昂,尤其是涉及真實世界的交互數據。例如,採集觸覺、視覺、動力學等多模態數據需要複雜的硬件和環境支持。仿真器被認爲是解決數據閉環問題的一種重要工具,但仿真與真實世界之間的“模擬-真實差距(sim-to-real gap)”仍然顯著。
25:具身智能面臨通用模型與特定任務模型的衝突。通用模型需要具備強大的泛化能力,能夠適應多樣化的任務和環境;但這通常需要大量的數據和計算資源。特定任務模型更容易實現商業化,但其能力受限,難以擴展到其他領域。未來的機器人智能需要在通用性和專用性之間找到平衡。例如,通過模塊化設計,讓通用模型成爲基礎,再通過特定任務的微調實現快速適配。