李彥宏最新內部講話:不同模型之間的差距只會越來越大

近日,李彥宏在百度內部做了一次面向員工的講話,內容涉及大模型的能力壁壘、開源模型的問題,以及百度爲什麼要強調智能體等方面。

在他看來,外界對大模型有很多誤解,榜單得分超過Open AI的產品,不代表自己的模型與Open AI模型的差距已經很小。

不同的模型之間,在理解、生成和邏輯等基本能力方面都會有差距,在使用成本方面的差距也很大,只是很多做大模型的人,並不瞭解用戶真實需求,所以只能做性能測試,感覺自己跟競品的大模型差距不大。

“今天看差距也許沒那麼大,再過一年你看差距有沒有拉大?”李彥宏表示,不同模型之間的差距不是越來越小,一定是越來越大的。

他還堅持認爲,開源模式在大模型時代是不成立的,因爲這種模式解決不了算力從哪裡來的問題,在成本方面無法與閉源大模型相比,“文心大模型每天調用量超過6億,每天生成的token數超過萬億,哪個開源模型可以說自己一天調用量是多少、生成了多少token?”

對於企業用戶來說,使用閉源模型會失去對源代碼的掌握,但李彥宏認爲這並不重要,“在商業領域,當你追求的是效率、效果和最低的成本時,開源模型是沒有優勢的。”

談及智能體,李彥宏選擇堅持自己之前的觀點,認爲創業者卷大模型沒有意義,去做門檻更低的智能體,加入文心一言的平臺,是更合適的道路。

以下是李彥宏內部問答的原文摘要:

問:如何看待“大模型之間的能力已經沒有壁壘了”這種觀點?

李彥宏:這個說法我不同意。我認爲外界對大模型有相當多的誤解,每一個新模型發佈時,肯定都想說自己有多好,每次都去跟GPT-4o做比較,拿測試集或者弄一些榜單,說我的得分已經跟它差不多了,甚至某些單項上得分已經超過它了。但這並不能證明這些新發的模型跟OpenAl最先進的模型相比已經沒有那麼大的差距了。

模型之間的差距是多維度的,一個維度是能力方面,不管是理解能力、生成能力、邏輯推理能力還是記憶能力等這些基本能力上的差距;另一個維度是成本方面,你想具備這個能力或者想回答這些問題,你付出的成本是多少?有些模型可能推理速度很慢,雖然也達到了同樣的效果,但實際上它的體驗還是不如最先進的模型。

還有就是對於測試集的over-fitting,每一個想證明自己能力的模型都會去打榜,打榜時他就要猜別人到底在測什麼、哪些題我用什麼樣的技巧就能做對。所以從榜單或者測試集上看,你覺得能力已經很接近了,但到實際應用中還是有明顯差距的。

部分自媒體的炒作,再加上每個新模型發佈時都有宣傳的動力,使得大家有一種印象,認爲模型之間的能力差別已經比較小了,其實真不是這樣。在實際使用過程當中,我不允許我們的技術人員去打榜,真正衡量文心大模型能力的是,你在具體應用場景當中到底有沒有能夠滿足用戶的需求,有沒有能夠產生價值的增益,這是我們真正在乎的。

我們需要看到,一方面模型能力之間還有比較明顯的差距,另外一方面天花板很高,你今天做到的跟你實際想要做到的、跟理想狀態還差得非常遠,所以模型還需要不斷快速地去迭代、去更新、去升級。

即使今天你看到差距也許沒有那麼大了,再過一年你看看差距有沒有拉大? 有誰能夠持續不斷地幾年甚至十幾年如一日往這個方向上去投入,讓它越來越能夠滿足用戶的需求,滿足場景,滿足提升效率或者說降低成本等需求?不同的模型之間差距不是越來越小,是會越來越大的,只是他們不知道真實需求的時候,只去做測試集的題可能會覺得差不多。

所謂的領先12個月或者落後18個月,我認爲沒有那麼重要。每個公司都處在完全競爭的市場環境中,你不管做什麼方向都有很多競爭對手,如果你能永遠保證領先對手12到18個月,那是天下無敵的。不要覺得12到18個月很短,哪怕你能保證永遠領先競爭對手6個月,那就贏了,你的市場份額可能是70%,而對手可能僅爲20%甚至10%的份額。

問:有人說開源模型正在縮小與閉源模型的差距,這會摧毀閉源大模型公司的商業模式嗎?

李彥宏:這個問題跟上一個問題是高度關聯的,我剛纔講一個模型除了能力或效果之外還要看效率,效率上開源模型是不行的。

閉源模型準確地講應該叫商業模型,商業化的模型是無數個用戶或者說客戶在共享同樣的資源,在分攤研發成本、分攤推理用的機器資源和GPU,而開源模型需要你自己去部署一套東西,部署之後GPU的使用率是多少呢?我們的EB3.5也好,EB4也好,使用率都是90%多,你部署一個開源模型有多少人在用?

我們對外講文心大模型每天調用量超過6億,每天生成的token數超過萬億,哪個開源模型可以說自己一天調用量是多少?生成了多少token?沒有人用的話成本怎麼分擔?推理成本怎麼能夠跟商業化模型相比呢?

在大模型時代之前,大家習慣了開源意味着免費、成本低。那時市面上那種商業化的產品,每一個版本都要爲之付錢,比如買一個電腦裝Windows,可能微軟要從中收多少錢,而你如果跑一個Linux就不用花這個錢了。由於Linux是開源的,所有程序員都可以看到代碼,哪兒做得不好我可以去更新,更新了再check in,大家衆人拾柴火焰高,你在巨人的肩膀上可以不斷地進步。

但是這些東西在大模型時代都不成立,大模型時代大家經常講的是GPU有多貴,算力是決定大模型成敗的一個關鍵因素,開源的模型給你送算力嗎?它不給你送算力,怎麼能夠讓算力高效地被利用?開源模型解決不了這個問題。

以前你買電腦的時候就已經爲算力付費了,但大模型的推理不是這樣,這個推理其實很貴。所以說開源大模型的價值在教學科研這些領域。要想搞清楚大模型的工作原理是什麼,如果不知道源代碼之類肯定是有劣勢的,但是真正在商業領域,當你追求的是效率、效果、最低的成本時,開源模型是沒有優勢的。

問:AI應用的演進方式是什麼?爲什麼強調智能體?

李彥宏:大模型發展的過程必然要經歷這幾個階段。一開始是對人進行輔助,最後出來什麼東西需要人把最後一道關,我們確定它的效果是OK的,各方面都不錯,纔會讓它出去,這是Copilot階段;再往下走就是Agent智能體,外界對於Agent有各種各樣不同的定義,最主要還是說它有了一定的自主性,具備自主使用工具、反思、自我進化等能力。這種自動化程度再往下走就變成一個所謂的Al Worker,能夠像人一樣做各種各樣的腦力和體力勞動,各方面的工作都可以獨立完成。肯定要有這麼一個過程。

“智能體是大模型最重要的發展方向”這個判斷,其實是一個非共識。百度Create大會上我們發了三個產品,AgentBuilder、AppBuilder、ModelBuilder,其中AgentBuilder和AppBuilder都是講智能體的,一個門檻更低一些,另一個功能更強大一些。當我們解釋完了之後,有些人終於開始明白這東西確實有意思,能夠產生價值,而且已經可以相對比較低門檻地做出來大家感覺可用的東西。從那時候開始,智能體的熱度才慢慢上來,也開始有很多人看好智能體這個發展方向。但是到今天爲止,智能體還不是共識,像百度這樣把智能體作爲大模型最重要的戰略、最重要的發展方向的公司並不多。

爲什麼我們這麼強調智能體?因爲智能體的門檻確實很低。我們去年說要卷應用、大家都去做應用,其實很多人還是說不知道該怎麼做,不知道這個方向能不能做出來,我到底要用到什麼能力才能夠在這個場景下產生價值,這裡面有無數不確定性,大家不知道怎麼從模型變成應用。但是智能體提供了一個非常直接、非常高效、非常簡單的方式,在模型之上構建智能體是相當方便的,這也是爲什麼今天每週都有上萬個新的智能體在文心平臺上被創造出來。

智能體方面我們已經看到了趨勢,也有比較好的先決條件,除了模型本身的能力比較強大之外,我們也有很好地分發通路。

百度的APP,尤其是百度搜索一天有好幾億人在用,用戶的需求主動向我們表達了,哪一個智能體能更好地去回答他這些問題,去滿足他這些需求,這是一個自然匹配的過程,所以我們是最能夠幫助這些開發者分發他們智能體的。