☰

李飛飛最新訪談：AI Agent的根本定位應該是工具而非主導者，是賦能者而非替代者！

最新訪談：李飛飛，編輯：AI深度研究員

1月15日，李飛飛接受海外播客 Possible 的訪談。分享了她從創建 ImageNet 到目前擔任空間智能初創公司 World Labs 的聯合創始人的歷程，深入討論了大語言模型和世界模型的區別、AI 開發中人類能動性的作用、AI 醫療、AI Agent和人機交互的未來。

在她看來，AI Agent 的根本定位應該是工具而非主導者，是賦能者而非替代者。

以下是本次訪談完整實錄，經翻譯編輯：

一、“ImageNet” 的起源

主持人：Fei-Fei，很高興見到你。歡迎來到 Possible。

李飛飛：同樣，很高興見到你。

主持人：我想問一下，你當初是怎麼想到 ImageNet 這個主意的？那個讓你覺得“啊，我們需要做這個”的契機是什麼？

李飛飛：要說清楚具體的那個“關鍵時刻”其實不太容易，但大約是在 2006 年前後。當時我非常投入地在做研究，使用機器學習算法來嘗試理解物體和圖像。無論我怎麼做、怎麼看，都無法逃避一個數學概念：那就是機器學習中的“過擬合”（overfitting）。所謂過擬合，就是模型的複雜度和模型所用數據之間不匹配。尤其當數據——不僅僅是數據量，還有數據的複雜度——並不能有效驅動模型的時候，這個問題就會非常突出。

當然，並不是所有模型都生而平等。我們現在知道所謂“NE 網絡模型”（注：此處原文中出現“NE Network models”，可能指的是神經網絡模型）具有更高的容量和表徵能力。但撇開這些術語不談，數據和模型之間一定是存在相互作用的。然而我當時發現，大家只關注模型，卻不關注數據，或者說只關注模型卻以錯誤的方式看待數據。這正是當時我產生靈感的原因——我覺得我們不僅要關注模型，或者說不能只用一種方式關注模型，而是要關注數據，讓數據來驅動模型。那時我剛好到了早期職業生涯的下一階段，去普林斯頓大學任教。我在那裡接觸到了一個叫做“WordNet” 的項目。WordNet 與計算機視覺本身沒有直接關係，但它是一種很好的方式來組織世界上的各種概念，而且我也很喜歡“WordNet”這個名字。然後，一件事情推動着另一件事的發展，ImageNet 就這樣誕生了。它其實源自我對“大規模數據以及對視覺世界多樣化表徵”的強烈信念。

主持人：你在 AI 職業生涯的中段，創建了這個了不起的 ImageNet。現在你們還有一個 World Labs（世界實驗室），我想把這條線從 ImageNet 一直延伸到 World Labs。能不能和我們談談 World Labs 的想法是什麼？你正在構建什麼，這對我們理解 AI 的未來以及對 World Labs 本身，都具有怎樣的關鍵意義呢？

李飛飛：確實如此。我整個人的研究生涯——尤其是在 ImageNet 之後——一直在非常專注地思考一個問題：什麼是“智能”？我們如何在機器中實現智能？歸根結底，對我來說，它可以分解爲兩個非常簡單的方面：如果我們觀察人類智能，一方面，我們會“說話”。我們使用語言來溝通，來組織我們的知識，來交流信息。但是，智能還有另一個“半邊”，對我們來說同樣深遠，那就是我們會“做事”。我們會去做各種事情，比如做早餐煎蛋餅，或者去遠足；又或者跟朋友們一起玩耍，享受彼此的陪伴。這些行爲遠遠超越了我們說出的任何語言。比如我們可以舒適地坐在對方面前，手裡拿着啤酒罐，這些都屬於“智能”的一部分。

這一部分智能，實際上是建立在我們對三維世界的理解之上——我們能夠感知這個三維世界，並把它轉化爲一套理解、推理以及預測的過程，從而讓我們能夠在世界裡行動。在我看來，這種能力就叫做“空間智能”（spatial intelligence）。它是具有實體軀體的智慧生物（比如人類）所固有的、最根本的本能——去處理三維空間的能力。ImageNet 之所以會出現，是因爲我想要給二維圖像中的像素貼上標籤，而對於人類而言，二維圖像是三維世界的投影。所以，從某種程度來說，ImageNet 是我們去理解所處的完整可視世界的“起步階段”。這個起步階段非常關鍵，因爲無論對人、動物還是機器來說，理解並給這些圖像和物體打標籤，都是很重要的第一步。

但是現在，天啊，已經過去 15 年甚至 14 年了吧？我覺得我們已經準備好去做一個更宏大的目標了，幾乎可以說是一個“全壘打”式的目標：去解鎖智能的另一半——也就是“空間智能”這個問題。讓空間智能如此有意思的一點在於，它實際上有兩個層面：一個是物理的三維世界，另一個則是數字化的三維世界。而我們過去一直都無法“生活”在這兩者之間。

主持人：但是現在來看，空間智能可以成爲一種統一的技術，既能理解與感知“以三維爲基礎的物理世界”，也能理解“數字化的三維世界”。我在思考空間智能的前景時，如果回到 1880 年，那時候有馬車、泥土路——你會覺得那真是個截然不同的世界。可如果只回到 1980 年，人們雖然開的車不一樣，但住房還是同樣的房子，人們依舊在開車，總體來說物理世界的“運作機制”並沒有發生翻天覆地的變化。你覺得我們所說的這“另一半的智能”會不會在未來幾十年真正帶來像過去幾年數字世界所經歷的那種“大變革”，並進而改變現實世界？

李飛飛：我覺得會。而且我認爲現實與數字之間的界限將開始變得模糊。舉個例子，我會想象自己在高速公路上開車，如果車胎爆了，我雖然是個技術從業者，但我還是會覺得這會是個棘手的問題。可要是我能戴上一副眼鏡，或者僅僅用手機對着我的車、對着那個爆胎，通過某個應用來協助我更換輪胎，無論是通過視覺指引、還是對話形式，或者二者結合——我覺得這就是一個最日常不過的生活場景，卻可以突破物理三維世界和數字三維世界的邊界。我腦中浮現出這樣的科技圖景：它能幫助人們做任何事，從最簡單的換輪胎，到最複雜的心臟手術。這種想象真的讓我興奮不已。

二、大型語言模型和大型世界模型的區別

主持人：你還說過，你經常用 LLM（大型語言模型）來學習各種東西。我覺得這是個很鼓舞人的例子——我家孩子總是覺得自己數學不錯，就不想再學了，我就可以跟他們說： “看，F.F. 李飛飛都在用大型語言模型來學習，你們是不是還可以再努力一點？ ”不過，說到大型世界模型（Large World Models）和大型語言模型（LLMs），當你向別人解釋它們的區別時，你會怎麼講？你覺得它們未來會如何發展？

李飛飛：從根本上說，就像我之前提到的，一種是“說話的智能”，另一種是“看”和“做”的智能。它們在模態上有非常根本的區別。大型語言模型所處理的基本單位是詞彙——不管是字母也好，單詞也好。而在我們所說的“世界模型”（World Models）中，基本單位則是像素（pixels）或者體素（voxels）。兩者幾乎可以說是不同的“語言”：語言模型對應的是“人類語言”，而三維世界對應的是“大自然的語言”。我們的目標是讓 AI 算法能讓人去和“像素世界”進行交互，不管這個像素世界是虛擬的還是物理的。

主持人：你剛纔的回答讓我想起你引用過的一句名言：社會生物學家愛德華·威爾森（Edward O. Wilson）曾說，“我們擁有舊石器時代的情感、中世紀的制度以及神一樣的科技，這實在是危險至極。” 那在這樣一個擁有自然語言思維、又需要教育大衆的情況下，你覺得要怎樣“反轉”這個說法？或者說，在 AI 時代，人類有哪些機遇？

李飛飛：我依然相信威爾森的那句話，也正因爲如此，你、我以及朋友們才一起創辦了“以人爲本的人工智能研究院（HAI）”。如果要說“反轉”那句話，我可能會這麼講：“人類能夠創造近似‘神一樣’的技術，從而改進我們所處的‘中世紀’式制度，並超越、或引導我們那‘舊石器時代’的情感，讓它們變成創造力、生產力和善意。”

主持人：那你覺得我們應該怎麼“構建”這種技術，來幫助人類實現這些美好的目標？重點是放在“同情心”上嗎？還是說更加註重人本身與技術之間的共生關係？如果想讓科技和 AI 幫助我們成爲更好的人，你覺得下一步最該做的是什麼？

李飛飛：我知道你主修過哲學與技術之類的專業（笑），能看出來你對此很感興趣。我也同意你的觀點。提到那句話，我們常常把“舊石器時代”看作負面的東西，但其實它並不是一個貶義詞，而是個中性的概念。人類的情感、我們對自身形象的認知，都深深地植根於我們的進化和 DNA 中，這是不會輕易改變的。我們的世界也正因爲如此而既美麗又混亂。因此，當我們在探討技術，以及技術和人類未來的關係時，就要去尊重這些最根本、真正在“舊石器時代”就紮下來的東西。有幾件事是技術發展必須尊重的，尊重得越好，對我們就越有益。

第一，要尊重人類的自主性（human agency）。

我覺得 AI 在公衆層面上的溝通問題之一，就是大家經常在語句裡把“AI”當成主語，好像它替代了人的自主權。比如說，“AI 會治癒癌症”，我有時也不小心這麼說過。可事實是，人類會“使用 AI”去治癒癌症，而不是“AI 自己”去治癒癌症；“AI 會攻克核聚變”，其實是人類科學家和工程師“使用 AI 工具”去攻克。更危險的說法是“AI 會搶走你的工作”之類的。我覺得我們應該看到，這項技術其實有更多機會去創造新的崗位、帶來更多的可能性，賦能人類的自主性。這是我非常看重的一個基本原則。

第二，要尊重人本身。

每個人都希望自己健康、有成就感，並在社會中受到尊重。不管我們怎樣研發和使用 AI，都不能忽視這一點。忽視它是危險的，也會適得其反。我覺得光是這兩條原則，就足以在技術開發的過程中起到指引作用。我之所以會這樣討論，背後的深層信念是：任何技術、任何創新的意義，最終都應該是“造福人類”。這也是人類文明的走向：我們發明每一種工具，最初都是想把它往好的方向用。但這就像一把雙刃劍，總會有人濫用它，所以我們也不得不更加努力地去讓它變得更好，更加“以人爲本”。這也是我們在斯坦福一起創辦“以人爲本的人工智能研究院”（HAI）的根本原因。我們把 AI 視爲一種極其強大的工具——它是一種“文明性”工具，因此越早就把一個“以人爲本並服務於人類福祉”的框架搭建起來，就越能讓我們在未來走得更穩。

對於“以人爲本的 AI”這一理念，我認爲最關鍵的部分之一，就是“賦能人類”。我希望每一家企業、每一個開發者都能遵循這個理念。

三、AI 開發中人類能動性的作用

主持人：你在人工智能領域做了這麼多年，擔任過各種角色。我感覺很多人現在纔開始慢慢了解 AI。你對當下 AI 創新的現狀怎麼看？包括我們現在所處的位置、開發者所面臨的挑戰等。你覺得要想解決這些問題、再上一個臺階，我們當下該做些什麼？

李飛飛：這是一個非同凡響的時刻。我覺得這真的是一個重大“拐點”，因爲 AI 的應用現在可以落到普通人和普通企業的實際使用當中。我們這些早期的 AI 先驅，曾在職業生涯初期所期待的很多願景，如今已經變成現實或即將成爲現實。比如，公衆常常說起“圖靈測試”，而如今這幾乎已經是一個被攻克的難題了。雖然圖靈測試並不是衡量智能的終極標準，但它曾經被視爲一道極難的門檻，如今也可以說是被突破了。自動駕駛也是一樣，雖然還沒做到百分之百完美，但和 2006 年相比已經取得了巨大進展。所以，我覺得隨着這些強大的模型被真正用於生產環境，提供給普通人和企業使用，我們現在正處在一個令人振奮的 AI 革新時代。不過我也非常清楚，我們身處硅谷這個“泡泡”之中吧。

主持人：我覺得，全球大部分人其實都還在努力跟上 AI 的發展步伐。我們當然能看到未來，也知道未來會走向何方。所以我相信很多 Possible 的聽衆也會對你所說的那些想法產生共鳴：AI 可能極大地提升人類能力，也可能帶來巨大的積極影響，但我們確實需要擔心那些負面後果，並希望能在正確的軌道上引導 AI。那從開發的角度看，你覺得我們需要怎麼做才能確保 AI 走向積極的方向？如果你認爲政府或者跨行業的合作是必要的，也請談談這方面的想法。

李飛飛：坦白說，我們確實能做很多事情，而且我們就應該儘快去做，早就該做了，但現在開始也不算晚，只要我們真心實意地去行動。

第一點，我覺得我們應該用“科學”而不是“科幻”來指導一切。過去對 AI 的宣傳和言論有很多誇張，比如“AI 會導致人類滅絕”或者“AI 會帶來世界和平”——兩種說法都更像科幻而非科學。所以，談到 AI 政策或治理時，我們需要基於數據、基於科學事實和科學方法，這一點非常重要。

第二點，我真的相信，就像其他很多技術和工具一樣，我們需要給 AI 的應用場景加上“約束措施”，即在真正對人類產生影響的地方去管控，而不是去阻斷其上游研發。想想汽車剛出現的時候，其實並不怎麼安全——最開始甚至沒有安全帶，沒有車門，也沒有限速等等。後來我們確實付出了一些代價，包括人員傷亡，但隨後人們並沒有要求福特或通用“關停工廠”，而是通過立法和監管，要求配備安全帶、制定速度限制等。今天的 AI 也一樣：它是一種極具賦能潛力的技術，但它會帶來某些風險，所以我們應該關注它在實際應用中的監管，比如當 AI 被用於醫療時，我們如何更新 FDA（美國食品藥品監督管理局）的相應法規；當 AI 被用於金融時，怎樣設置監管護欄來保證安全。所以，應用層面的監管纔是治理重心所在。

第三點（但並非不重要）是要認識到：要讓 AI 的未來變得積極，需要有一個“積極的生態系統”。這個生態系統既需要私營部門，也需要公共部門。

私營部門既包括大型公司，也包括初創企業，它們都非常重要。公共部門則關乎“公共產品”（public goods）的生產。我認爲公共產品可以分兩類：

基於好奇心的創新和新知識，比如說用 AI 做聚變研究、用 AI 治病、用 AI 賦能教師等等。很多這樣的想法和研究往往來自公共部門——就像 ImageNet 當年就是源自公共部門支持的研究。

人才（people）。我們需要讓更多年輕人、更多公衆瞭解這項技術，而公共部門在從 K12（基礎教育）到高等教育的領域，承擔着主要的社會教育責任。所以這些就是我非常關心的幾個 AI 治理與政策方面的要點。

四、AI 在醫療服務中的應用

主持人：你剛纔說的這些，我也想補充一點“AI for all”（讓所有人都能接觸並使用 AI）的話題。因爲你一直都在推動這件事，不希望 AI 只屬於那些頂尖教授、從加州理工拿到物理學博士又在斯坦福任教的精英，而是讓所有人都有機會接觸它。能跟我們談談 “AI for all” 這個項目的使命和貢獻嗎？

李飛飛：AI For All 是一個非營利組織，我與以前的學生和同事共同創辦的。它的使命就是給來自不同背景的 K12 學生提供機會，讓他們通過大學暑期項目或實習項目接觸 AI。這樣做的想法就是爲了實現“公共產品”中的教育部分。我們都知道，AI 會改變世界，但“誰來改變 AI”？我們希望讓更多多元化的人羣加入到 AI 的開發和使用當中，把這項技術應用到各種美好的用途上。

在這個項目裡，我們主要面向女性、農村地區或城市貧困社區的學生，以及那些在歷史上被低估或代表性不足的族羣。讓他們來參加這些暑期課程後，也確實看到很多年輕人用 AI 去改進救護車調度算法，或者用 AI 去檢測農村地區的水質問題。雖然我們的努力目前還比較小，但我希望它能不斷髮展。我真的認爲，讓更多、多元化的羣體參與到 AI 裡，是一項非常重要的目標。

主持人：你在醫療領域也做了很多工作，大家應該也留意到 AI 在改善人類健康和生活方面大有潛力。能談談你在醫療領域的研究，以及你對 AI 在醫療保健（health care）未來發展的期望嗎？

李飛飛：是的，我在我的書裡也寫到過，我對 AI 在醫療領域的應用充滿熱情。原因有很多，其中最核心的是：醫療本身就是“以人爲本”（human-centered）的核心領域。整個醫療行業非常廣闊，涵蓋從藥物研發或體外診斷（bioscience & diagnostics）到臨牀診斷與治療、到醫療服務（healthcare delivery）和公共衛生。這一龐大的體系中，AI 在每一個環節都有可能發揮巨大作用。

我本人非常關注的一個領域是“醫療服務”，也就是人與人之間的實際照護場景。比如說，在美國，我們的護士數量遠遠無法滿足病患需求，而且護士的工作負荷非常大，流失率也很高。還有一些驚人的統計數據，比如有的護士在一個班次裡平均要走四英里的路，只是用來取藥或拿設備；或者一個班次裡要處理 150 到 180 項任務。同時呢，醫院裡也出現了很多安全問題，比如患者因爲缺乏足夠照顧而從病牀上跌落；對於嚴重的敗血症（sepsis）病患如何進行分診也是個難題。再加上人口老齡化問題，比如有些老人在家中獨居，存在跌倒風險或老年癡呆的惡化……所以，在過去十多年裡，我一直致力於研究如何使用“智能攝像頭”（smart cameras）——一種非侵入式、非接觸式的攝像頭——來幫助護理人員更好地關注病人的狀況。例如，監測病人是否會從病牀上摔下來；如果是在家，可以監測他們的行爲、情緒或營養攝入；在手術室裡，可以監測手術器械的使用情況，讓護士不用不斷地清點器械，避免把物品遺留在病人體內。我們稱這類技術爲“嵌入式智能”（ambient intelligence），目的是幫助醫生和醫護人員更加全面地照顧患者，進而提升整體護理質量。

五、AI Agent 和人機交互的未來

主持人：現在大家也經常提到“AGI”（通用人工智能），但我記得你曾經說過：其實你都不確定“AGI”到底指的是什麼，因爲不同人給它的定義都不一樣，像是各自的“羅夏測驗”（Rorschach Test）。能不能談談你對“AGI”這場討論的看法？或者說，我們該如何更理性地看待它，而不是要麼覺得“它太棒了”要麼覺得“它太可怕”，彷彿要毀掉所有工作或拯救整個人類？

李飛飛：這確實既有趣又令我沮喪。我真心不知道“AGI”到底意味着什麼，因爲我覺得這個詞最初是來自商業領域，差不多十年前 AI 逐漸成熟後，商業界就開始更頻繁地討論它。其實，它最初的用意可能是爲了強調未來的 AI 需要“通用化能力”，而不是特別狹窄的任務。比如說，現在的自動駕駛汽車已經比過去那些只能識別“樹木”的單一視覺模型要“通用”得多。狹窄的 AI 只能完成一個非常特定的任務，而更“通用”的 AI 能應對多種任務，這的確是個實實在在的區別。

我一直覺得困惑的一點是，如果回顧 AI 的起源，約翰·麥卡錫（John McCarthy）和馬文·明斯基（Marvin Minsky）這些早期奠基者在 1956 年那場著名的夏季研討會上，所懷抱的夢想一直都是“讓機器能思考，能幫助人類決策，甚至能做到一些人類做不到的事”。他們從來沒有說“我們只想做一個只能識別樹木的窄領域 AI”。從一開始，“人工智能”這個領域誕生時就伴隨着“思考機器”的理想。所以從這個角度看，我不知道自己該叫它“AI”還是“AGI”，對我來說，這其實就是一回事。

主持人：我也在想，就像你說的那種 AI 能夠“做事情”——最近隨着語音和對話式 AI 的進步，感覺就離那種“我能和 AI 像普通人一樣對話，然後它去執行各種任務”的場景越來越近了。你現在生活中有沒有在用類似的“AI Agent”工具？或者你覺得在未來幾年裡，這種有“行動力”的 AI Agent 和語音交互會如何改變我們的生活？

李飛飛：我確實覺得，靠自然語言來分享知識，或者讓人們通過自然語言去搜索、構思、學習，是一個非常強大的方式。我自己也會用一些大型語言模型去理解某個概念、讀一篇論文，或者提出一些我不太懂的問題。最讓我興奮的是看到別人，尤其是孩子們，也在用它來學習和提高自己。不過我還是想強調一點：不管怎麼樣，都要確保人們保留自己的“自主性”（agency），並且給他們好的工具去學習、去賦能自己。隨着這類強大工具的不斷進化——我本人也在參與其中——我們會看到越來越多的協作能力，讓人們能更個性化地使用這些工具，我對此很期待。

主持人：我也覺得，強調這一點非常重要：我們並不是爲了替代人類或消滅人類交互。因爲有時候人們會說，“那些做 AI 的人想把人替換掉，把我們都綁在屏幕前盯上 10 個小時。” 其實沒有人想一天到晚對着屏幕，我們都知道人類交往有多重要，它對教學、對社區、對共情都意義重大。你在那本美麗的自傳《世界我來過》（The World's I See）裡提到過你高中的數學老師 Sabella 先生，他就體現了“人與人互動”的重要性。能不能說說那段經歷，以及他給你留下的寶貴建議？

李飛飛：我在書裡記錄了我早年的經歷。那時我是一個 15 歲的移民女孩，剛到新澤西的公立高中就讀，英語也不會講，可以說是我的人生起點之一。非常幸運的是，我很快就遇到了數學老師 Sabella，他對我非常尊重，總是無條件地支持我。後來他不僅是我的數學老師，也成了我在那段艱難青春歲月裡最好的朋友，一直到他去世都一直保持聯繫。他教給我的，並不是坐下來對我說，“F.F.，讓我告訴你，AI 會主宰世界，你要記得以人爲本哦。”——當時根本就沒有 AI 這個說法，也沒人會聊這些。他更像是通過日常的行動讓我體會到：對社會、對生活而言，最重要的是我們如何彼此做出積極的事情，懷抱怎樣的信念，以及我們追求的“光”在哪裡。通過他的行動，我學會了“尊重並幫助其他人”是件多麼美好的事情。哪怕這個人只是一位懵懵懂懂、不會說英語的移民小孩。對我來說，他所教給我的最大啓示就是要“把人放在中心”。

主持人：真美好，謝謝你分享。

https://www.youtube.com/watch?v=0jMgskLxw3s&t=1251s&ab_channel=ReidHoffman

李飛飛最新訪談：AI Agent的根本定位應該是工具而非主導者，是賦能者而非替代者！

相關資訊