李飛飛最新訪談:AI Agent的根本定位應該是工具而非主導者,是賦能者而非替代者!

最新訪談:李飛飛,編輯:AI深度研究員

1月15日,李飛飛接受海外播客 Possible 的訪談。分享了她從創建 ImageNet 到目前擔任空間智能初創公司 World Labs 的聯合創始人的歷程,深入討論了大語言模型和世界模型的區別、AI 開發中人類能動性的作用、AI 醫療、AI Agent和人機交互的未來。

在她看來,AI Agent 的根本定位應該是工具而非主導者,是賦能者而非替代者。

以下是本次訪談完整實錄,經翻譯編輯:

一、“ImageNet” 的起源

主持人:Fei-Fei,很高興見到你。歡迎來到 Possible。

李飛飛:同樣,很高興見到你。

主持人:我想問一下,你當初是怎麼想到 ImageNet 這個主意的?那個讓你覺得“啊,我們需要做這個”的契機是什麼?

李飛飛:要說清楚具體的那個“關鍵時刻”其實不太容易,但大約是在 2006 年前後。當時我非常投入地在做研究,使用機器學習算法來嘗試理解物體和圖像。無論我怎麼做、怎麼看,都無法逃避一個數學概念:那就是機器學習中的“過擬合”(overfitting)。所謂過擬合,就是模型的複雜度和模型所用數據之間不匹配。尤其當數據——不僅僅是數據量,還有數據的複雜度——並不能有效驅動模型的時候,這個問題就會非常突出。

當然,並不是所有模型都生而平等。我們現在知道所謂“NE 網絡模型”(注:此處原文中出現“NE Network models”,可能指的是神經網絡模型)具有更高的容量和表徵能力。但撇開這些術語不談,數據和模型之間一定是存在相互作用的。然而我當時發現,大家只關注模型,卻不關注數據,或者說只關注模型卻以錯誤的方式看待數據。這正是當時我產生靈感的原因——我覺得我們不僅要關注模型,或者說不能只用一種方式關注模型,而是要關注數據,讓數據來驅動模型。那時我剛好到了早期職業生涯的下一階段,去普林斯頓大學任教。我在那裡接觸到了一個叫做“WordNet” 的項目。WordNet 與計算機視覺本身沒有直接關係,但它是一種很好的方式來組織世界上的各種概念,而且我也很喜歡“WordNet”這個名字。然後,一件事情推動着另一件事的發展,ImageNet 就這樣誕生了。它其實源自我對“大規模數據以及對視覺世界多樣化表徵”的強烈信念。

主持人:你在 AI 職業生涯的中段,創建了這個了不起的 ImageNet。現在你們還有一個 World Labs(世界實驗室),我想把這條線從 ImageNet 一直延伸到 World Labs。能不能和我們談談 World Labs 的想法是什麼?你正在構建什麼,這對我們理解 AI 的未來以及對 World Labs 本身,都具有怎樣的關鍵意義呢?

李飛飛:確實如此。我整個人的研究生涯——尤其是在 ImageNet 之後——一直在非常專注地思考一個問題:什麼是“智能”?我們如何在機器中實現智能?歸根結底,對我來說,它可以分解爲兩個非常簡單的方面:如果我們觀察人類智能,一方面,我們會“說話”。我們使用語言來溝通,來組織我們的知識,來交流信息。但是,智能還有另一個“半邊”,對我們來說同樣深遠,那就是我們會“做事”。我們會去做各種事情,比如做早餐煎蛋餅,或者去遠足;又或者跟朋友們一起玩耍,享受彼此的陪伴。這些行爲遠遠超越了我們說出的任何語言。比如我們可以舒適地坐在對方面前,手裡拿着啤酒罐,這些都屬於“智能”的一部分。

這一部分智能,實際上是建立在我們對三維世界的理解之上——我們能夠感知這個三維世界,並把它轉化爲一套理解、推理以及預測的過程,從而讓我們能夠在世界裡行動。在我看來,這種能力就叫做“空間智能”(spatial intelligence)。它是具有實體軀體的智慧生物(比如人類)所固有的、最根本的本能——去處理三維空間的能力。ImageNet 之所以會出現,是因爲我想要給二維圖像中的像素貼上標籤,而對於人類而言,二維圖像是三維世界的投影。所以,從某種程度來說,ImageNet 是我們去理解所處的完整可視世界的“起步階段”。這個起步階段非常關鍵,因爲無論對人、動物還是機器來說,理解並給這些圖像和物體打標籤,都是很重要的第一步。

但是現在,天啊,已經過去 15 年甚至 14 年了吧?我覺得我們已經準備好去做一個更宏大的目標了,幾乎可以說是一個“全壘打”式的目標:去解鎖智能的另一半——也就是“空間智能”這個問題。讓空間智能如此有意思的一點在於,它實際上有兩個層面:一個是物理的三維世界,另一個則是數字化的三維世界。而我們過去一直都無法“生活”在這兩者之間。

主持人:但是現在來看,空間智能可以成爲一種統一的技術,既能理解與感知“以三維爲基礎的物理世界”,也能理解“數字化的三維世界”。我在思考空間智能的前景時,如果回到 1880 年,那時候有馬車、泥土路——你會覺得那真是個截然不同的世界。可如果只回到 1980 年,人們雖然開的車不一樣,但住房還是同樣的房子,人們依舊在開車,總體來說物理世界的“運作機制”並沒有發生翻天覆地的變化。你覺得我們所說的這“另一半的智能”會不會在未來幾十年真正帶來像過去幾年數字世界所經歷的那種“大變革”,並進而改變現實世界?

李飛飛:我覺得會。而且我認爲現實與數字之間的界限將開始變得模糊。舉個例子,我會想象自己在高速公路上開車,如果車胎爆了,我雖然是個技術從業者,但我還是會覺得這會是個棘手的問題。可要是我能戴上一副眼鏡,或者僅僅用手機對着我的車、對着那個爆胎,通過某個應用來協助我更換輪胎,無論是通過視覺指引、還是對話形式,或者二者結合——我覺得這就是一個最日常不過的生活場景,卻可以突破物理三維世界和數字三維世界的邊界。我腦中浮現出這樣的科技圖景:它能幫助人們做任何事,從最簡單的換輪胎,到最複雜的心臟手術。這種想象真的讓我興奮不已。

二、大型語言模型和大型世界模型的區別

主持人:你還說過,你經常用 LLM(大型語言模型)來學習各種東西。 我覺得這是個很鼓舞人的例子——我家孩子總是覺得自己數學不錯,就不想再學了,我就可以跟他們說: “看,F.F. 李飛飛都在用大型語言模型來學習,你們是不是還可以再努力一點? ”不過,說到大型世界模型(Large World Models)和大型語言模型(LLMs),當你向別人解釋它們的區別時,你會怎麼講? 你覺得它們未來會如何發展?

李飛飛:從根本上說,就像我之前提到的,一種是“說話的智能”,另一種是“看”和“做”的智能。它們在模態上有非常根本的區別。大型語言模型所處理的基本單位是詞彙——不管是字母也好,單詞也好。而在我們所說的“世界模型”(World Models)中,基本單位則是像素(pixels)或者體素(voxels)。兩者幾乎可以說是不同的“語言”:語言模型對應的是“人類語言”,而三維世界對應的是“大自然的語言”。我們的目標是讓 AI 算法能讓人去和“像素世界”進行交互,不管這個像素世界是虛擬的還是物理的。

主持人:你剛纔的回答讓我想起你引用過的一句名言:社會生物學家愛德華·威爾森(Edward O. Wilson)曾說,“我們擁有舊石器時代的情感、中世紀的制度以及神一樣的科技,這實在是危險至極。” 那在這樣一個擁有自然語言思維、又需要教育大衆的情況下,你覺得要怎樣“反轉”這個說法?或者說,在 AI 時代,人類有哪些機遇?

李飛飛:我依然相信威爾森的那句話,也正因爲如此,你、我以及朋友們才一起創辦了“以人爲本的人工智能研究院(HAI)”。如果要說“反轉”那句話,我可能會這麼講:“人類能夠創造近似‘神一樣’的技術,從而改進我們所處的‘中世紀’式制度,並超越、或引導我們那‘舊石器時代’的情感,讓它們變成創造力、生產力和善意。”

主持人:那你覺得我們應該怎麼“構建”這種技術,來幫助人類實現這些美好的目標?重點是放在“同情心”上嗎?還是說更加註重人本身與技術之間的共生關係?如果想讓科技和 AI 幫助我們成爲更好的人,你覺得下一步最該做的是什麼?

李飛飛:我知道你主修過哲學與技術之類的專業(笑),能看出來你對此很感興趣。我也同意你的觀點。提到那句話,我們常常把“舊石器時代”看作負面的東西,但其實它並不是一個貶義詞,而是個中性的概念。人類的情感、我們對自身形象的認知,都深深地植根於我們的進化和 DNA 中,這是不會輕易改變的。我們的世界也正因爲如此而既美麗又混亂。因此,當我們在探討技術,以及技術和人類未來的關係時,就要去尊重這些最根本、真正在“舊石器時代”就紮下來的東西。有幾件事是技術發展必須尊重的,尊重得越好,對我們就越有益。

第一,要尊重人類的自主性(human agency)。

我覺得 AI 在公衆層面上的溝通問題之一,就是大家經常在語句裡把“AI”當成主語,好像它替代了人的自主權。比如說,“AI 會治癒癌症”,我有時也不小心這麼說過。可事實是,人類會“使用 AI”去治癒癌症,而不是“AI 自己”去治癒癌症;“AI 會攻克核聚變”,其實是人類科學家和工程師“使用 AI 工具”去攻克。更危險的說法是“AI 會搶走你的工作”之類的。我覺得我們應該看到,這項技術其實有更多機會去創造新的崗位、帶來更多的可能性,賦能人類的自主性。這是我非常看重的一個基本原則。

第二,要尊重人本身。

每個人都希望自己健康、有成就感,並在社會中受到尊重。不管我們怎樣研發和使用 AI,都不能忽視這一點。忽視它是危險的,也會適得其反。我覺得光是這兩條原則,就足以在技術開發的過程中起到指引作用。我之所以會這樣討論,背後的深層信念是:任何技術、任何創新的意義,最終都應該是“造福人類”。這也是人類文明的走向:我們發明每一種工具,最初都是想把它往好的方向用。但這就像一把雙刃劍,總會有人濫用它,所以我們也不得不更加努力地去讓它變得更好,更加“以人爲本”。這也是我們在斯坦福一起創辦“以人爲本的人工智能研究院”(HAI)的根本原因。我們把 AI 視爲一種極其強大的工具——它是一種“文明性”工具,因此越早就把一個“以人爲本並服務於人類福祉”的框架搭建起來,就越能讓我們在未來走得更穩。

對於“以人爲本的 AI”這一理念,我認爲最關鍵的部分之一,就是“賦能人類”。我希望每一家企業、每一個開發者都能遵循這個理念。

三、AI 開發中人類能動性的作用

主持人:你在人工智能領域做了這麼多年,擔任過各種角色。 我感覺很多人現在纔開始慢慢了解 AI。 你對當下 AI 創新的現狀怎麼看? 包括我們現在所處的位置、開發者所面臨的挑戰等。 你覺得要想解決這些問題、再上一個臺階,我們當下該做些什麼?

李飛飛:這是一個非同凡響的時刻。我覺得這真的是一個重大“拐點”,因爲 AI 的應用現在可以落到普通人和普通企業的實際使用當中。我們這些早期的 AI 先驅,曾在職業生涯初期所期待的很多願景,如今已經變成現實或即將成爲現實。比如,公衆常常說起“圖靈測試”,而如今這幾乎已經是一個被攻克的難題了。雖然圖靈測試並不是衡量智能的終極標準,但它曾經被視爲一道極難的門檻,如今也可以說是被突破了。自動駕駛也是一樣,雖然還沒做到百分之百完美,但和 2006 年相比已經取得了巨大進展。所以,我覺得隨着這些強大的模型被真正用於生產環境,提供給普通人和企業使用,我們現在正處在一個令人振奮的 AI 革新時代。不過我也非常清楚,我們身處硅谷這個“泡泡”之中吧。

主持人:我覺得,全球大部分人其實都還在努力跟上 AI 的發展步伐。我們當然能看到未來,也知道未來會走向何方。所以我相信很多 Possible 的聽衆也會對你所說的那些想法產生共鳴:AI 可能極大地提升人類能力,也可能帶來巨大的積極影響,但我們確實需要擔心那些負面後果,並希望能在正確的軌道上引導 AI。那從開發的角度看,你覺得我們需要怎麼做才能確保 AI 走向積極的方向?如果你認爲政府或者跨行業的合作是必要的,也請談談這方面的想法。

李飛飛:坦白說,我們確實能做很多事情,而且我們就應該儘快去做,早就該做了,但現在開始也不算晚,只要我們真心實意地去行動。

第一點,我覺得我們應該用“科學”而不是“科幻”來指導一切。過去對 AI 的宣傳和言論有很多誇張,比如“AI 會導致人類滅絕”或者“AI 會帶來世界和平”——兩種說法都更像科幻而非科學。所以,談到 AI 政策或治理時,我們需要基於數據、基於科學事實和科學方法,這一點非常重要。

第二點,我真的相信,就像其他很多技術和工具一樣,我們需要給 AI 的應用場景加上“約束措施”,即在真正對人類產生影響的地方去管控,而不是去阻斷其上游研發。想想汽車剛出現的時候,其實並不怎麼安全——最開始甚至沒有安全帶,沒有車門,也沒有限速等等。後來我們確實付出了一些代價,包括人員傷亡,但隨後人們並沒有要求福特或通用“關停工廠”,而是通過立法和監管,要求配備安全帶、制定速度限制等。今天的 AI 也一樣:它是一種極具賦能潛力的技術,但它會帶來某些風險,所以我們應該關注它在實際應用中的監管,比如當 AI 被用於醫療時,我們如何更新 FDA(美國食品藥品監督管理局)的相應法規;當 AI 被用於金融時,怎樣設置監管護欄來保證安全。所以,應用層面的監管纔是治理重心所在。

第三點(但並非不重要)是要認識到:要讓 AI 的未來變得積極,需要有一個“積極的生態系統”。這個生態系統既需要私營部門,也需要公共部門。

私營部門既包括大型公司,也包括初創企業,它們都非常重要。公共部門則關乎“公共產品”(public goods)的生產。我認爲公共產品可以分兩類:

基於好奇心的創新和新知識,比如說用 AI 做聚變研究、用 AI 治病、用 AI 賦能教師等等。很多這樣的想法和研究往往來自公共部門——就像 ImageNet 當年就是源自公共部門支持的研究。

人才(people)。我們需要讓更多年輕人、更多公衆瞭解這項技術,而公共部門在從 K12(基礎教育)到高等教育的領域,承擔着主要的社會教育責任。所以這些就是我非常關心的幾個 AI 治理與政策方面的要點。

四、AI 在醫療服務中的應用

主持人:你剛纔說的這些,我也想補充一點“AI for all”(讓所有人都能接觸並使用 AI)的話題。因爲你一直都在推動這件事,不希望 AI 只屬於那些頂尖教授、從加州理工拿到物理學博士又在斯坦福任教的精英,而是讓所有人都有機會接觸它。能跟我們談談 “AI for all” 這個項目的使命和貢獻嗎?

李飛飛:AI For All 是一個非營利組織,我與以前的學生和同事共同創辦的。它的使命就是給來自不同背景的 K12 學生提供機會,讓他們通過大學暑期項目或實習項目接觸 AI。這樣做的想法就是爲了實現“公共產品”中的教育部分。我們都知道,AI 會改變世界,但“誰來改變 AI”?我們希望讓更多多元化的人羣加入到 AI 的開發和使用當中,把這項技術應用到各種美好的用途上。

在這個項目裡,我們主要面向女性、農村地區或城市貧困社區的學生,以及那些在歷史上被低估或代表性不足的族羣。讓他們來參加這些暑期課程後,也確實看到很多年輕人用 AI 去改進救護車調度算法,或者用 AI 去檢測農村地區的水質問題。雖然我們的努力目前還比較小,但我希望它能不斷髮展。我真的認爲,讓更多、多元化的羣體參與到 AI 裡,是一項非常重要的目標。

主持人:你在醫療領域也做了很多工作,大家應該也留意到 AI 在改善人類健康和生活方面大有潛力。能談談你在醫療領域的研究,以及你對 AI 在醫療保健(health care)未來發展的期望嗎?

李飛飛:是的,我在我的書裡也寫到過,我對 AI 在醫療領域的應用充滿熱情。原因有很多,其中最核心的是:醫療本身就是“以人爲本”(human-centered)的核心領域。整個醫療行業非常廣闊,涵蓋從藥物研發或體外診斷(bioscience & diagnostics)到臨牀診斷與治療、到醫療服務(healthcare delivery)和公共衛生。這一龐大的體系中,AI 在每一個環節都有可能發揮巨大作用。

我本人非常關注的一個領域是“醫療服務”,也就是人與人之間的實際照護場景。比如說,在美國,我們的護士數量遠遠無法滿足病患需求,而且護士的工作負荷非常大,流失率也很高。還有一些驚人的統計數據,比如有的護士在一個班次裡平均要走四英里的路,只是用來取藥或拿設備;或者一個班次裡要處理 150 到 180 項任務。同時呢,醫院裡也出現了很多安全問題,比如患者因爲缺乏足夠照顧而從病牀上跌落;對於嚴重的敗血症(sepsis)病患如何進行分診也是個難題。再加上人口老齡化問題,比如有些老人在家中獨居,存在跌倒風險或老年癡呆的惡化……所以,在過去十多年裡,我一直致力於研究如何使用“智能攝像頭”(smart cameras)——一種非侵入式、非接觸式的攝像頭——來幫助護理人員更好地關注病人的狀況。例如,監測病人是否會從病牀上摔下來;如果是在家,可以監測他們的行爲、情緒或營養攝入;在手術室裡,可以監測手術器械的使用情況,讓護士不用不斷地清點器械,避免把物品遺留在病人體內。我們稱這類技術爲“嵌入式智能”(ambient intelligence),目的是幫助醫生和醫護人員更加全面地照顧患者,進而提升整體護理質量。

五、AI Agent 和人機交互的未來

主持人:現在大家也經常提到“AGI”(通用人工智能),但我記得你曾經說過:其實你都不確定“AGI”到底指的是什麼,因爲不同人給它的定義都不一樣,像是各自的“羅夏測驗”(Rorschach Test)。能不能談談你對“AGI”這場討論的看法?或者說,我們該如何更理性地看待它,而不是要麼覺得“它太棒了”要麼覺得“它太可怕”,彷彿要毀掉所有工作或拯救整個人類?

李飛飛:這確實既有趣又令我沮喪。我真心不知道“AGI”到底意味着什麼,因爲我覺得這個詞最初是來自商業領域,差不多十年前 AI 逐漸成熟後,商業界就開始更頻繁地討論它。其實,它最初的用意可能是爲了強調未來的 AI 需要“通用化能力”,而不是特別狹窄的任務。比如說,現在的自動駕駛汽車已經比過去那些只能識別“樹木”的單一視覺模型要“通用”得多。狹窄的 AI 只能完成一個非常特定的任務,而更“通用”的 AI 能應對多種任務,這的確是個實實在在的區別。

我一直覺得困惑的一點是,如果回顧 AI 的起源,約翰·麥卡錫(John McCarthy)和馬文·明斯基(Marvin Minsky)這些早期奠基者在 1956 年那場著名的夏季研討會上,所懷抱的夢想一直都是“讓機器能思考,能幫助人類決策,甚至能做到一些人類做不到的事”。他們從來沒有說“我們只想做一個只能識別樹木的窄領域 AI”。從一開始,“人工智能”這個領域誕生時就伴隨着“思考機器”的理想。所以從這個角度看,我不知道自己該叫它“AI”還是“AGI”,對我來說,這其實就是一回事。

主持人:我也在想,就像你說的那種 AI 能夠“做事情”——最近隨着語音和對話式 AI 的進步,感覺就離那種“我能和 AI 像普通人一樣對話,然後它去執行各種任務”的場景越來越近了。你現在生活中有沒有在用類似的“AI Agent”工具?或者你覺得在未來幾年裡,這種有“行動力”的 AI Agent 和語音交互會如何改變我們的生活?

李飛飛:我確實覺得,靠自然語言來分享知識,或者讓人們通過自然語言去搜索、構思、學習,是一個非常強大的方式。我自己也會用一些大型語言模型去理解某個概念、讀一篇論文,或者提出一些我不太懂的問題。最讓我興奮的是看到別人,尤其是孩子們,也在用它來學習和提高自己。不過我還是想強調一點:不管怎麼樣,都要確保人們保留自己的“自主性”(agency),並且給他們好的工具去學習、去賦能自己。隨着這類強大工具的不斷進化——我本人也在參與其中——我們會看到越來越多的協作能力,讓人們能更個性化地使用這些工具,我對此很期待。

主持人:我也覺得,強調這一點非常重要:我們並不是爲了替代人類或消滅人類交互。因爲有時候人們會說,“那些做 AI 的人想把人替換掉,把我們都綁在屏幕前盯上 10 個小時。” 其實沒有人想一天到晚對着屏幕,我們都知道人類交往有多重要,它對教學、對社區、對共情都意義重大。你在那本美麗的自傳《世界我來過》(The World's I See)裡提到過你高中的數學老師 Sabella 先生,他就體現了“人與人互動”的重要性。能不能說說那段經歷,以及他給你留下的寶貴建議?

李飛飛:我在書裡記錄了我早年的經歷。那時我是一個 15 歲的移民女孩,剛到新澤西的公立高中就讀,英語也不會講,可以說是我的人生起點之一。非常幸運的是,我很快就遇到了數學老師 Sabella,他對我非常尊重,總是無條件地支持我。後來他不僅是我的數學老師,也成了我在那段艱難青春歲月裡最好的朋友,一直到他去世都一直保持聯繫。他教給我的,並不是坐下來對我說,“F.F.,讓我告訴你,AI 會主宰世界,你要記得以人爲本哦。”——當時根本就沒有 AI 這個說法,也沒人會聊這些。他更像是通過日常的行動讓我體會到:對社會、對生活而言,最重要的是我們如何彼此做出積極的事情,懷抱怎樣的信念,以及我們追求的“光”在哪裡。通過他的行動,我學會了“尊重並幫助其他人”是件多麼美好的事情。哪怕這個人只是一位懵懵懂懂、不會說英語的移民小孩。對我來說,他所教給我的最大啓示就是要“把人放在中心”。

主持人:真美好,謝謝你分享。

https://www.youtube.com/watch?v=0jMgskLxw3s&t=1251s&ab_channel=ReidHoffman