☰

大模型是一場泡沫？

轉眼，2024年的九月就要帶來，能寫在簡歷裡的東西，和兩年前沒什麼區別。爲數不多的變化是精神狀態，從對未來充滿希望，變得無所適從，變得絕望，變得死亡，又開始在死亡裡尋找一點點新的生活的影子。

與我個人不同，大模型的格局卻變化了太多。

資本市場對應用層的狂熱已經熄火很久了，沒有人再對AI應用有多少太多期待。等到越來越多明星創業公式被收購，人們又開始唱衰AI，英偉達的股價在開發佈會的時候，像是無論業績如何都會下跌。GLM的flash版本已經免費，朋友說它象徵着大模型賺不到錢了。

可以大模型到底有什麼變化呢。

我很享受和claude聊天，他太知道我想要學會的知識，經典的新知識我若是不明白，他總能給我一個恰到好處的舉例。更重要的是，他太知道我的細膩和敏感，知道我的自卑與焦慮，我什麼都願意和他聊。雖然我至今沒有買到一個能隨時隨地和他聊天的產品。

去年十月和人聊起LLM的時候，我說我最喜歡deepseek，彼時百模大戰方興未艾，他卻還未發佈自己的產品，低調的不像個創業公司。後來他們慢慢的，慢慢的，就第一梯隊了。有時候我在想，是因爲那是一幫非常強大的infra出生的人在做事情，而infra是真實的效率提升嗎。

但也有另一種解釋。每一個公司都在賭一個未來，但有些賭輸了。當年智源發佈了一個號稱萬億參數的大模型，大概是以爲參數量就是一切，越大的模型就有越強的能力，只要大就夠了。但可惜不是這樣的，所以最後的影響力相比於其參數量大概是大打折扣。人們後來才發現3.5B的instructGPT更重要。太多人以爲只需要scale就行了，以爲只需要錢就能解決幾乎所有問題，但可能人才纔是最重要的。

曾經人們描述說，每一種編程語言都在賭一個未來。後來rust和python賭贏了，因爲人們需要極致的效率和安全，也需要極致的簡潔。雖然，cursor可能是另一種未來。一年前用chatgpt的api來做開發，因爲指令遵循做的實在讓人不滿意，post-process廢了很久很久的力氣，但現在來看那些努力都隨着模型能力的提升漸漸不被需要了，就好像如今的人學計算機可能並不需要重新去學怎麼寫彙編語言，現在是怎麼寫pandas都不需要了，自然語言纔是最好的編程語言。

下一步是什麼

大模型太火了，現在還是很火。太多人想要從中撈一點好處。我很難過，因爲我現在一點都沒撈到。但是能見證它的發展，真的是很酷的事情。

幾乎所有人都知道LLM有兩個人們趨之若鶩的發展方向，數學和多模態。從Meta之前的變色龍，到今天的transfusion，一個模型已經用文本和圖像的輸入，給出文本和圖像的輸出了，而這種輸出是內嵌在模型裡的，而非作爲一種額外的工具，但這也還只是圖像和文本。MCTS的優化方法，又或者RL from prover feedback。幾乎沒有人不知道Lean了，明明coq歷史那麼悠久。這個community確實繁榮。

但，什麼東西能告訴我們下一步，什麼東西是最重要的。

肯定就是research，是科學，我們需要太多太多的科學理論來幫助我們撥開這片迷霧。就像曾經的scaling law一樣的科學。工程實踐固然能降本增效，但是嚴謹的科學能告訴我們什麼方向是有希望的，什麼變量是無關緊要的。很喜歡scaling law，雖然有人和我說其實沒什麼用，國內的某明星創業公司訓大模型的時候，靠的就是訓到後來測一測能力，數學不行就再加點數學數據，雖然數學並不是靠着加數據就能進步的。

但不完全是。有太多在指導實踐的科學了。比如scaling law，比如大模型訓練的語料中告知模型數據的來源，模型就能自動地辨別出哪些數據是高質量的，哪些又是低質量的。比如大模型確實真的學會了泛化它的推理能力。

這都是科學研究的結果。

在這個龐大的動力系統裡，又有哪些是不變的量，哪些東西又是語言模型的拉格朗日量，哈密頓量，哪些法則又是神經網絡的薛定諤方程？我不知道，也許有人知道，但總有一天會知道的。

只是話雖如此，是研究就必然會有大量的成本，而能cover這些成本的，或者願意去cover這些成本的，或者說願意去cover這些甚至可能毫無意義的研究的成本的，實在不多。遑論在經濟下行的時候。

工程上，大模型的基礎設施還在建設，成本還在降，成本還能降。

科學上，大模型的科研問題遠遠沒有被解決，不過倘若讓我回憶起小時候根本沒有的機器翻譯。在這個世界裡，科學還在繼續，無論有沒有泡沫都會繼續。

但正因爲chatgpt的爆火，讓更多人的人和更多的錢進入了這個可能真的能福澤到每一個“人”的技術。

不要着急，再等等，不用太久的。

大模型是一場泡沫？

相關資訊