後Transformer時代,AI將何去何從?(上)|【十萬字】深度研報

從互聯網的搜索引擎和個性化推薦系統,到掃地機器人的Mapping算法和智能音箱的對話,再到“AI四小龍”的圖像識別和自動駕駛公司,一直到現在的多模態大模型的生成能力,幾乎每一次的AI的產業化,都會帶來商業革命,從而產生巨大的社會價值。

本文的重點將全方位框架性的介紹AI:從哲學和神經科學的角度映射到AI學科,從技術理論講至落地流程,最後覆蓋大模型全產業鏈。當然也包括上述的過去、現在與未來。爲同行們提供多元的觀點和投資方向,也爲了想理解AI的讀者們進行一定的補充,方便深入研究。

本文在大量專家和同行的文獻觀點基礎上,筆者加上一些淺薄的理解生成了這篇文章。真的非常感謝前輩和同行們的知識分享,如有錯誤,請及時指正,也歡迎激烈的討論。本文內容摘選於Scale Partners勢乘資本《AI研究》深度報告。

本報告由勢乘資本和光錐智能聯合發佈

一、核心判斷及觀點

壓縮即智能-十幾萬字的核心不過100多字

注意力機制告訴我們要做減法,總結是最好的減法過程。一個產業的結論:5句話足以。

1 理解神經科學機制,會對AI的發展起到關鍵作用!

2 聯結主義學派仍然繼續要走壓縮智能和物理世界模型等深度仿生路線!

3 大模型的Scaling Law大概率失效下,大模型將降本增效-模型更小,成本更低,大家將會專注基於目前大模型能力,開發PMF的產品!

4 國內大模型公司將會轉型做垂直行業產品的變多,不會有那麼多的人留在牌桌上!

5 AI Infra:推理和訓練階段的計算優化,合成數據;大模型層:有持續穩定大流量使用以及良好的盈利潛力,期望能突破互聯網的生態;應用層將大爆發:美術工具、音樂生成、AI4S、生產控制、學齡前兒童教育、遊戲、智能眼鏡、智能陪伴和具身智能;商業價值較高,投資機會明顯。

二、AI導論

AI概念

人工智能(Artificial Intelligence,AI)研究目的是通過探索智慧的實質(哲學知識論和腦科學),擴展人造智能(計算機科學)—— 促使智能主體會聽(語音識別、機器翻譯等)、會看(圖像識別、文字識別等)、會說(語音合成、人機對話等)、會思考(人機對弈、專家系統等)、會學習(知識表示,機器學習等)、會行動(機器人、自動駕駛汽車等)。

AI學科的發展是由哲學知識論不斷引導着神經科學和計算機科學融合(兩者互相促進)的。

一個經典的AI定義是:“ 智能主體可以理解數據及從中學習,並利用知識實現特定目標和任務的能力。(A system’s ability to correctly interpret external data, to learn from such data, and to use those learnings to achieve specific goals and tasks through flexible adaptation)”

意識之外...

辯證上來說,一定會有人類的感知系統盲區,無法感知就無法意識到盲事物的存在。而人類萬萬沒想到,這個盲區竟先來自於我們的大腦,具體來說是我們的神經系統。

神經系統把我們的感知死死限制在了對外界信息的獲取和處理過程中,你可以通過眼、耳、口、鼻、舌、皮膚等外界感受器,獲取大街上的帥哥美女信息,想一想今天晚上吃些什麼,然後再刷刷抖音【1】。

我們的意識絕對不能主觀控制心跳,控制腸胃的蠕動,肝臟的運行,控制血管的收縮,當然,意識更不能指導每一個神經元的運轉,由於意識權限僅僅被限制在神經網絡之中,若不是通過解剖和顯微鏡看到了神經元,人類甚至不知道神經元本身的存在。

我們以爲自己的意識是身體或者大腦的主人。但我們還在媽媽肚子裡的前兩個月,根本沒有任何的意識。我們以爲的“自我"根本就不存在。但身體,依舊按照DNA編碼的規則,按部就班的發育着。

隨着孕齡的增大,聽覺、味覺、觸覺等感知系統的發育逐漸完善後,大腦才能建立足夠多的神經網絡,讓我們產生意識。

人類科學家終於認識到--意識不等於大腦。

我們思考中的意識世界不過是神經元相互協作的結果。主動的意識習慣也可以改造神經元迴路。(辯證唯物主義:意識產生於物質,但意識可以改造物質)

神經科學

隨着人們對神經系統的研究深入,科學家們對智能的形成逐漸從意識層面(可認知的、膚淺)轉向至物理層面(難以認知的、源頭)。

圖:意識和物理上的知識形成【2】

很多AI創業者和科學家特別喜歡說自己的項目纔是更像人的運動、思維和感知模式,來強調技術的優越性,本篇將注重:

來幫助大家更好的獨立判斷項目。

神經科學的發展歷史、現狀和展望

神經科學(Neuroscience),又稱神經生物學,是對神經系統(包括大腦、脊柱和周圍神經系統)及其功能和疾病的科學研究。

神經科學是醫學領域,乃至整個自然科學界最前沿、最複雜、最深奧的學科之一。近一百年,腦科學獲得了近二十項諾貝爾獎。

“左腦負責理性思考,右腦負責創造力。”很多人曾經、甚至現在依然對類似這樣的說法信以爲真。這是因爲,很長時間以來,對大腦的研究往往會把大腦劃分出幾個區域,分別研究單個腦區的功能。

但現在,許多神經科學家指出,是時候以新的方式來提升我們對大腦運行原理的認識了:大腦的各種功能,關鍵不在於某一個腦區,而是來自於不同區域之間的交流。

圖:1873年,人類通過染色法第一次觀察到完整的神經元

西方的科學家,經歷了哲學思考、動物解剖、人類大腦解剖、腦功能分區、染色法發現神經元、電生理、神經化學、膜片鉗、核磁共振成像、甚至是AI模擬的範式轉變。由思想層面轉變至物質層面,由整體層面轉變至神經元微觀層面,由直接觀察到間接機制的模擬。

總而言之,神經科學發展是一個由不斷更新的研究手段(1 直接觀察:解剖、核磁共振影像;2 間接觀察:電壓鉗、膜片鉗、染色示蹤;3 藥理學;4 認知精神科學 5 AI模型復現)爲主要驅動和從而發現的機制原理爲次要驅動的相互影響雙螺旋發展。

至今,目前的腦科學研究,在分子生物層面和認知行爲層面還是很強的(個體機制),薄弱環節在於神經環路和系統機制方面(整體機制),如何分析各個神經環路的工作原理,以此來解釋腦的功能或人的行爲,進而闡明人腦的系統性工作機制。

圖:個體機制--神經元的工作機制

認識神經元不難,搞清楚它們之間的排列組合,纔是難【3】。

因爲人類的大腦估計已經包含860億個(10^11次方)神經元,這些細胞信號傳遞到對方通過多達100萬億(10^15)突觸連接。

圖:整體機制--神經元的排列組合

就好比,我們現在已經初步畫好了咱們大腦圖譜有哪些“中心功能大樓”,也知道了這些大樓本身是由神經元爲磚瓦砌起來的,但是大樓內部的電線管道是怎麼鋪的?大樓與大樓之間的交通線路是怎麼設計的?它們之間的排列組合、優先次序、是否有替代線路?我們仍然知之甚少。

這些像蜘蛛網一樣密密麻麻排列的“大腦”線路,神經科學家們稱之爲“連接組”(connectome)。

我們始終相信,研究大腦,就要先從全面繪製大腦的連接地圖開始(大腦的物質構造)。

階段一:C.elegan,線蟲-302個神經元(重現方法:切片/電鏡/手繪)

於是,我們決定先殺個小小的生物的大腦來試試水,第一刀,揮向的是C.elegan,線蟲(302個神經元)。

1970年代,劍橋大學兩位分子生物學家John White 和 Sidney Brenner決定利用線蟲來研究大腦連接組學,他們將線蟲大腦切成了超薄腦片,通過將相機架在電鏡下拍攝微觀圖片,然後放大打印出每一個腦片的電鏡下圖像,再人工用彩色鉛筆一點一點、一圈一圈地標記線蟲的大腦結構,繪製線蟲腦圖。

終於,十年以後,1986年,這項工作完成了,線蟲--一個擁有302個神經元的簡單生物--成爲了人類神經科學研究史上第一個,也是迄今爲止唯一一個,擁有完整大腦圖譜的生物。

階段2:果蠅的半個大腦-25,000個神經元(重現方法:切片/電鏡/CV)

我們開始想辦法提高技術,把樣品準備和電鏡拍攝速度提高、利用計算機算法來自動識別電鏡圖像下的神經元、以及引入人工智能來處理這大批量的數據,等等。

我們“教會”計算機如何識別一個個神經元細胞,命令它們將不同神經元以不同顏色區分開來,接着再將這每一個薄薄的腦片疊加還原成原本的腦組織塊,以重建裡面的每一個神經元的完整模樣和真實連接關係......

果蠅的大腦有芝麻粒那麼大,包含大約十萬個神經元和數百萬個突觸連接。

2020年,哈佛大學研究團隊宣佈他們成功繪製出了...半個果蠅大腦圖譜,下圖是這半個果蠅大腦圖譜的簡單展示,包含了約25,000個神經元。

儘管還有半個果蠅大腦需要畫,但是這半個果蠅腦譜,已經是現如今被報導出的最大的生物大腦圖譜了。

階段3:一立方毫米的老鼠的大腦-10萬個神經元(重現方法:聚焦離子束顯微鏡&3D-CV)

Janelia團隊則開始使用聚焦離子束顯微鏡,聚焦離子束系統除了具有電子成像功能外,由於離子具有較大的質量,經過加速聚焦後還可對材料和器件進行蝕刻、沉積、離子注入等加工,因此可以大大縮減樣品和拍攝時間。

同時,他們找來了谷歌合作,將2D數據進行註釋標記以及3D重建(谷歌地圖技術),但是有時候計算機會將兩個纏結在一起的神經元誤認爲是一個神經元,這給後期的勘誤工作帶來了很多麻煩。最後還是要靠經驗豐富的科學家來進行最後的結果審查。

Allen Brain也是繪製腦圖的主要貢獻者,團隊於2019年曾宣佈他們已經花了十年時間繪製出了一立方毫米的小鼠大腦圖,其中包含了10萬個神經元和100萬個突觸結構。

雖然,一個小鼠大腦有大約500個立方毫米這麼大,沒關係,總有一天!

目前,腦功能成像,神經刺激,神經信號記錄,腦損傷研究,等等研究方法【4】,大多是相關性研究,通過研究來證實某個神經核團或環路與某種腦功能的相關性,或者進一步再描述其簡單的因果關係,“AA通過BB調製CC的活動來實現XX功能”之類。這些研究帶來很多孤立的碎片的研究結論,每年在頂刊發表很多高分文章,但對整個人腦的工作原理仍然缺乏突破。

總而言之:仍然缺乏有效的觀察研究方法(AI連接主義的模型模擬預測爲一大方向),重現人類大腦結構和機制。(目前神經學前沿一大熱點仍然是神經元分類)。

神經系統機制

大腦神經元的建立過程——從基礎構建到複雜網絡的形成之旅【5】。

神經細胞

神經系統的細胞主要分爲兩大類:

神經元具有感受刺激、整合信息和傳導衝動的能力。神經元感知環境的變化後,再將信息傳遞給其他的神經元,並指令集體做出反應。

神經元佔了神經系統約一半,其他大部分由神經膠質細胞所構成。據估計,人腦中約有850-1200億個神經元,神經膠質細胞的數目則更是其10倍之多。

圖:典型神經元2D結構

結構及功能

神經元形態與功能多種多樣,但結構上大致都可分成細胞體(胞體)和神經突(胞突)兩部分。神經突又分樹突(dendrite)和軸突(axon)兩種。軸突往往很長,由細胞的軸丘分出,其直徑均勻,開始一段稱爲始段,離開細胞體若干距離後始獲得髓鞘,成爲神經纖維。

圖:典型神經元3D結構

1、樹突(dendrite)- 接收器:樹枝狀的纖維從細胞體向外伸出,分叉且非常多,這些纖維被稱爲樹突,主要是收集來自感覺器官的直接刺激或來自相鄰神經元的活動信息,並把傳入信息傳遞給神經元的中心部分。這些突觸具有一定的權重,它們決定了信號傳遞的強度和效率。權重的大小反映了神經元之間的連接強度,從而影響信息傳遞的效率和方式【6】。

2、胞體(soma) - 處理器:神經元的中心部分,含有細胞的染色體,能夠迅速評估同時接收到的數百上千條信息。其中有些信息可能是興奮性的(“放電”),有些是抑制性的(“不要放電”),胞體的喚起程度取決於所有傳入信息的彙總。

3、軸突(axon) - 發射器:從胞體上伸出,上有髓鞘(軸突覆蓋物),傳遞被喚起的神經元自己的信息(興奮大於抑制),有時很長,有的人連接脊與腳趾的軸突可以長達一米多。軸突有時會非常短,大腦裡中間神經元之間的軸突可能只有不到1釐米長。

圖:神經元連接部分-軸突末端和樹突前段

神經元的軸突會與另一個神經元的樹突通過形成突觸結構建立聯繫,在突觸結構中,一些神級遞質(化學)會通過上一個細胞的軸突上的突觸前膜,向下一個細胞的樹突上的突觸後面傳遞,以實現細胞間的信號傳遞。神經元軸突還可通過發生動作電位(電信號)進行電信號傳遞。

功能

神經細胞可以大致分爲運動神經細胞、感覺神經細胞和中間神經細胞三大類【7】。

感覺神經細胞(Sensory neurons)的細胞體位於背根神經節(細胞體簇就在脊髓外),而它們的外圍延伸遍及全身。具體來說,感覺神經元通過特定的外部和內部受體被感覺輸入激活。

運動神經細胞(Motor neurons)是一種位於大腦運動皮層、腦幹或脊髓的神經細胞,其軸突(傳出神經纖維)可延伸至脊髓內部或脊髓外部。

中間神經細胞(Interneurons)的細胞體皆位於中樞神經系統,連接神經系統的多個區域。中間神經元是神經迴路的中心節點,允許感覺神經元、運動神經元和中樞神經系統之間進行通信。此類別包含最多種類的神經元,它們參與處理許多不同類型的信息,例如反射、學習和決策。

分工與合作:三種神經細胞構成了一個大環路,如下圖。感覺神經細胞通過感受器感受到刺激(火的炙烤),並將刺激信號傳遞到中樞神經系統的中間神經細胞。中間神經細胞通過相互聯絡,做出決定(移開手指),並將指令傳遞給運動神經細胞。而後,運動神經細胞負責將指令信號傳遞到效應器,使肌肉動作(移開手指)。

釋放不同的突觸遞質來區分神經元

突觸神經突觸是允許神經通信的神經元之間的連接點。

大腦中絕大多數的神經元大致可分爲興奮性神經元(excitatory)或抑制性(inhibitory)神經元。興奮性神經元佔80-90%,它們釋放興奮性神經遞質並使得下游神經元更興奮,相當於大腦中的”油門“;抑制性神經元佔10-20%, 它們釋放抑制性神經遞質使得下游神經元更不興奮,相當於大腦中的”剎車“,避免過於興奮,比如痛覺麻痹等。

前者主要傳遞興奮性神經遞質,如穀氨酸(Glutamate)、腎上腺素(Epinephrine);而後者主要傳遞抑制性遞質,如γ-氨基丁酸(GABA)和血清素(5-HT)【8】。

神經遞質目前在人體中發現100多種(100多種信息維度),然而,大腦中絕大多數的神經元還是單純的興奮性或抑制性,再加上同時釋放多種神經遞質的意義和機制仍不清楚,相關問題還處於神經科學研究的早期階段。

具體工作原理

一個典型的神經元能夠通過樹突和胞體一次接收上千條信息【9】。當胞體被充分喚起時,它自己的信息便會被傳遞給軸突,軸突通過動作電位將信息傳遞到突觸小體。這個含有神經遞質的小泡破裂,將神經遞質釋放到突觸間隙中。形狀合適的神經遞質分子來到突觸後膜時,會停留在受體上並刺激接收細胞。多餘的神經遞質通過再攝取過程被回收到“發送”神經元中。

PS1:動作電位(action potential):當細胞體的喚起達到臨界水平時,觸發軸突中的電脈衝,軸突內外電荷發生逆轉,導致電信號沿軸突傳遞,我們稱之爲神經元“放電”or“點火”。

PS2:全或無原則(all-or-none principle):動作電位沒有中間狀態,要麼放電,要麼不放電。

PS3:靜息電位(resting potential):在正常的靜止狀態時,細胞中的離子使軸突帶有少量的負電荷,此時狀態即爲靜息電位。

特殊情況:同步放電即有些神經元(極少數)不使用神經遞質在突觸間傳遞信息,放棄了化學信息傳遞,通過電聯繫進行直接通信。電突觸不如化學突觸常見,主要存在於中樞神經系統中。電突觸中的突觸間隙要小得多,這使得神經元可以直接通過間隙連接傳遞離子電流。出於這個原因,電突觸比化學突觸工作得更快,並允許脈衝在神經元內沿任一方向傳播。然而,因爲它們不使用神經遞質,所以電突觸比化學突觸更不易改變。

如上圖所示,神經元1的軸突傳遞了4個信號給神經元2,分別是輸入1、輸入2、輸入3和輸入4。而神經元2的輸出信號(輸出1和輸出2)分別是神經元3的輸入信號(輸入1和輸入2)。

如果輸入信號之和(由各正電離子受刺激流入胞體,電壓變高)超過神經元固有的邊界值(電壓閾值),細胞體就會做出反應,向與軸突連接的其他神經元傳遞信號,這稱爲點火【10】。

點火的輸出信號是可以由"0" 或 "1"表示的數字信息表示--全或無原則(all-or-none principle):

1943年, [McCulloch and Pitts, 1943] 將神經元的工作過程抽象爲上圖所示的簡單模型,這就是一直沿用至今的 “M-P神經元模型" 。

電信號的強弱用數字大小表示,突觸的權重使用乘積,胞體接受的動作電位可以用點火函數表示,胞體的激活可以用階躍函數比較表示。

在這個模型中,神經元接收到來自 m 個其他神經元傳遞過來的輸入信號,這些輸入信號通過帶權重(weights)的連接進行傳遞,神經元接收到的總輸入值將與神經元的閾值進行比較,然後通過"激活函數" (activation function) 處理以產生神經元的輸出。神經元在信號之和超過閾值時點火,不超過閾值時不點火。

稱爲激活函數。理想中的激活函數是下圖所示的階躍函數,它將輸入值映射爲輸出值 "0" 或 "1" ,顯然,

神經膠質細胞,10-50倍與神經元數量,作用:隔離,支持,營養

這裡不一一詳細解釋了,大家有興趣可以自行查閱其功能。

神經元從來不單獨行動,總是與其他細胞一起合作,神經元與神經元結成一張神經網絡,以神經反射的形式工作。

我們可以把把神經元比喻爲字母,大腦比喻爲整篇文章,而微環路就是字母組成的單詞,神經環路則是單詞組成的句子。不同腦區使用的不同單詞就是環路模體(circuit motifs),而環路模體又進一步組成了複雜的神經環路架構【11】。

環路架構大體分爲連續地形圖、離散並行處理、維度擴展、循環迴路、偏倚輸入-分離輸出的環路結構;通過神經的不同佈線連接,達到計算和節能的目的。

神經環路架構案例

神經系統的逐漸複雜化需要神經元數量、神經元類型及其連接和大腦區域的擴展。所有這些過程都必須由 DNA 的變化引起。進化創新的一個關鍵機制是基因的複製和發散。

大腦區域進化的複製和發散原則上應該使神經元迴路模塊化:複製單元內的豐富連接和單元之間的稀疏連接。反過來,神經元迴路的模塊化特性可能會加速進化,因爲不同的模塊可以相互獨立地進化。

爲目前爲止,負責AI大模型進化的,只是人工的版本更新。

計算機環路是自上而下設計的產物,而複雜的神經元環路已經進化了數億年。神經元迴路在發育過程中使用進化選擇的遺傳指令自組裝,並通過經驗進行微調。因此,現有的神經環路結構很可能是在演化過程中很容易進化和組裝的那些選擇。

五種基本的感覺系統,聽覺、嗅覺、味覺、軀體感覺以及視覺,使我們可以解釋周圍的環境。每一種感覺包含了獨特的通路和加工,以將外部刺激轉化爲可以被大腦解釋的神經信號。

這五種感覺也不是孤立工作的,而是一致行動以構建一個對世界的豐富的解釋。正是這一整合成爲許多人類認知的基礎,並且使我們在一個多感覺的世界中生存並興旺發展【12】。

從信號的角度來看,人們通過耳朵接受聲波,鼻子和舌頭接受遠近分子化學信號,皮膚接受機械波、溫度波,視覺接受光波後,各個感覺神經再通過電信號、化學信號以及機械波的形式傳遞。

神經如何傳遞和加工處理至人類可意識的過程大抵相同,下面將主要講述視覺神經工作原理。

像大多數其他哺乳動物一樣,人類是視覺生物:絕大多數人要依賴眼睛來辨別我們看到的是什麼,往哪裡看,來引導我們動作。這些過程當然是雙向互動的。要完成諸如抓住一個扔出物的技巧性動作,我們必須確認物體大小、形狀和空間運動軌跡,這樣我們才能預先準備好把我們的手放到哪裡。

從初級到更高級的視覺皮層,視覺信息逐級傳遞。人腦理解的內容越來越複雜化、抽象化,由”模式”變成具體的“物”,再到物的特性和物與物之間的關係。在逐級傳到過程中,人們也注意到,其在皮層的傳到可以大體分成兩個通路,腹側通路(Ventral Pathway/Stream)和背側通路(DorsalPathway/Stream)。

這兩個通路,也分別代表着視覺神經的兩大功能:what-物體識別和where-空間感

物體識別

對於物體識別而言,視覺系統中的ventral stream(V1 -> V4 -> IT)通路是至關重要的。在這一視覺信息處理通路中,信息被越來越抽象成高級的語義信息。比如V1視覺皮層表徵“bar”,V4視覺皮層則表徵texture, IT則存在着對物體類別(臉,動物)的直接表徵【13】。

視覺識別是典型的Encoder-Decoder的RNN(循環網絡)架構

總而言之:大腦對外部信息處理就是不斷表徵化的過程(並且是往返循環),表徵簡單理解爲人類可認知到的集成的符號 - 能把某些實體或某類信息表達清楚的形式化系統。

神經元系統對於信息的處理是層級遞進的,簡單來說每一個皮層(不同的表徵處理單元)處理逐級規律複雜,V1視覺皮層前,輸入信息爲像素點,V1視覺皮層將之處理爲Bar-線,隨後再由V2-V4視覺皮層處理爲-面,3維;再由後續的視覺皮層加工爲顏色、光影等更綜合的表徵,直至IT皮層-形成我們對圖像的整體感知,並區分物體。

知覺分類只解決了部分識別問題。要使關鍵信息發揮作用,必須把現有加工內容與我們貯存的有關視覺物體的知識相聯繫。語義分類(學習和記憶的表達表徵--語言)使我們看到知覺對象間的相似性,並辦認出物體的獨特特徵。

看到這裡,大家對視覺神經元的表徵化的工程,感到一絲熟悉,對!以CV計算機視覺技術爲主的公司所採取的基礎模型-CNN卷積神經網絡-Convolutional Neural Networks,其設計靈感就來自於層級遞進的視覺神經物體識別通路表徵化過程--1960年代對貓的視覺皮層的研究。

有意思的是,2014年,James Dicarlo首次嘗試使用CNN來直接預測IT神經元的活動。他們將同一張圖片展示給猴子以及CNN模型,在利用線性迴歸直接根據CNN對圖片的表徵去預測在猴子IT腦區記錄到的電信號。他們驚人的發現,僅通過簡單的線性方法就可以從CNN的表徵預測出IT的腦區活動,這說明兩者表徵的信息是十分相似的。

利用數學模擬的AI模型去預測腦區電信號,當實驗結果趨同時,也意味着神經元架構和數學模型基本相同,這種新的研究範式正在反向助力神經科學的探索(比如當下最火的AI預測蛋白)!

空間感(定位和導航)

通過空間通路,人可以很好的理解所觀察到的物體在空間維度內和人的關係,從而得以判斷和操作該物體。

太陽的東昇西落,城市的東西南北,過馬路要左右看……在人們的日常生活中,大腦的空間感知作用扮演着重要角色。無論是尋找方向、定位目標還是記憶場景,都需要大腦對空間信息的處理和記憶。

很遺憾的是,人類對此空間通路機制的研究,非常淺薄,對腹側通路(物體識別功能)的神經通路的數學量化復現相當成功。

目前主流研究仍在通過小白鼠、猴子等哺乳動物實驗,繼續尋找空間感所涉及的神經單元及細分作用(仍未找齊,目前僅發現世界中心編碼和自我中心神經元),各個單元如何相互作用以及如何集成編碼,我們仍未探知清楚。空間感神經元與海馬體(記憶)緊密聯繫。

幸運的是,科學界對神經科學空間感熱情高,對此腦區的研究產出高。

世界中心的編碼方式是建立在自我中心編碼的計算和轉換上的。換言之,相比起處理 ‘前後左右’的位置信息,大腦在處理‘東西南北’的位置信息要經過更爲複雜的編碼過程。

這部分我主要講述注意,意識部分在上面已經有所提及。

想象你在參加一個雞尾酒會,身邊有人低語,有人高談闊論,偶有玻璃碰杯聲音,遠處還有樂隊在演奏。在這麼嘈雜的環境中,你依舊能夠聽到身邊的朋友在說什麼。這不僅僅是因爲你們離得近,更重要的是,你將注意力集中在了她身上。注意力讓你「選擇」把有效的認知資源都用於在一堆嘈雜的信息中,尋找、分析她的聲音【14】。

這就是著名的「雞尾酒會效應」。

注意力是一個用來分配有限的信息處理能力的選擇機制。感知系統在做信息加法,那麼注意力就是在做減法。

“少則得,多則惑,是以聖人抱一爲天下式”-道德經

隨着進化的腳步,生命體本身由簡至繁,而人類歷史發展到今天,我們的生存環境和所需要學習、掌握的工作任務和過去的叢林生活複雜到不知多少。爲了應對這個變化,大腦會如何進化呢?是發展成一個同時處理龐大的信息並且容量超大的大腦,還是發展成雖然容量不大,但可以迅速地分析信息,並配有一個高效率信息選擇和投注機制,將所有計算能力都放在重要的任務上的大腦呢?很明顯的,後者更有優勢,而且大自然也爲我們選擇了這個目標。這個「高效率信息選擇和投注機制」就是我們說的「注意力」(attention)。

注意力是指,選擇性地專注在某些感受到的信息上,這些信息可能是客觀或主觀的,同時忽視同一時刻收到的其他信息。這一個認知過程。

機制:注意力通過信號控制(關注的信息興奮,不關注的信息抑制),鎖定相關腦區的工作狀態,同時加強相關腦區的連通性,削弱其他聯通性,讓我們的大腦臨時性、軟性的改變結構,變得“任務特異化”。

這種認知資源和認知資源協同狀態的預鎖定,就像對大腦這臺計算機的“虛擬化",預先寫好資源請求參數,並預裝了所需要的程序執行和依賴環境。

一切源於2017年穀歌Brain團隊那篇鼎鼎大名的文章“Attention Is All You Need”(注意力就是你所需要的一切),就是這篇文章提出了以自注意力爲核心的Transformer網絡結構。

在自注意力機制下,輸出的內容加權平均了輸入,既考慮了輸入的全面性,也考慮了輸入的個別單詞的相關性,從而更有針對性的理解句子中的含義並輸出理解。

學習 (learning)是獲取新信息的過程,其結果便是記憶(memory)。也就是說,在學習了某樣東西后,記憶便形成了,這種學習也許會發生在信息的單次呈現後,也許是在信息的重複呈現後。記憶必須是能夠在一段時期內維持的【12】。

學習與記憶可以假設爲三個主要的階段,不斷循環:

編碼(encoding)是對輸入信息的處理與儲存它分爲兩個階段:獲取與鞏固。

存儲(storage)是獲取和鞏固的結果,代表了信息的長久記錄。

記憶則是對學習過程的儲存,即中樞神經系統儲存感覺器官的神經電位,一般也分爲兩種,短時記憶和長時記憶。

短時記憶是中樞神經系統對於刺激的瞬間記憶,是對剛剛發生事情的片刻記憶,這樣的記憶往往只能維持幾秒鐘或幾分鐘。而當片刻記憶的刺激,重複作用於中樞神經系統時,便會形成對事情的長時記憶。

提取 (retrieval)是通過利用所儲存的信息創建意識表徵或執行習得的行爲,如自動化動作。對學習機制的再次刺激,直至形成長期記憶。

有意思的是,人類的記憶向來不太準確,大家可以試着回想一下上週的事情,能不能像計算機的視頻一樣每一幀都能高清的回想起來?

語言有兩種形式:1 表達 2 語言推理(最重要)。

語言可以是某個語言上命名好的東西,也可以只是一種"表徵"(representation)【15】。我們可以在不說話的情況下,直接使用這個“表徵“進行思考、推理等等。所以常常有思維比口頭表達更快的體驗,而且如果口頭說的比較快的話,經常會說錯而不自知。也就是說,語言可以是更廣義的概念。而這種推理和邏輯思考能力,我們稱爲Verbal Reasoning!

這裡可以看出,“語言”(廣義的)跟思考具有非常直接的關係。有了語言,我們能在大腦中思考的時候對事物形成“表徵”。傳統上,我們認爲,爲了方便思考,特別是在談話和閱讀中思考,我們會首先將口頭語言中的對象物轉化爲大腦中的“表徵”,這是一種"語言過程" ,然後使用這些“表徵“進行演繹和推理,這是一種非語言過程,最後將結果轉換爲口頭語言對象(表達)。

在整個過程中,從語言對象到大腦內在表徵,以及從大腦內在表徵到語言對象的兩部轉換自然是跟語言直接相關的。對應的,還有圖像推理(Visual Reasoning),也就是直接使用視覺或者圖像表徵進行空間構建或者關係推理的過程,典型地比如玩俄羅斯方塊。

既然有圖像推理,那麼,語言介質(廣義的)就並非思考的必要條件,但是爲最主要條件。

狹義上來說,人類就是用語言來進行高級思考的,輸入的信息➡️形成表徵➡️根據表徵的特徵,尋找匹配的語言形容➡️內在表徵以語言的形式演繹推理➡️表達;

語言與思想的關係被認爲是相互依存的。一方面,語言提供框架來組織和表達思想;另一方面,思想的邊界可能受限於語言的表達能力。語言的使用不僅反映思想,也可能塑造思想,如母語對思維模式的影響。

運動功能分爲運動計劃(同步感覺和運動信息後進行位置和軌跡預測空間編碼)、運動準備(小腦-專門表徵動作的時間特性的結構,控制節奏;基底神經節轉化信息爲動作信息)以及和運動執行(調動分佈式專門運動神經系統)。

運動控制依賴於廣佈的解剖結構,這些廣佈的運動結構以層級式的方式進行運作:最高層計劃最好以動作如何實現目的來描述,底層的運動層級致力於將目標轉化爲運動。最底層是實現一個特定動作的具體指令,最高層是動作目的的抽象表徵。

然而運動計劃和學習是同時發生在各個層級上的。學習發生在所有的層級。運動控制上解耦,運動學習上強耦合!

我們對機器人的控制理論仍然是數字自動化控制(預定和固定流程控制-PID等),關於對控制的神經網絡設計(適應開放場景,魯棒性高,泛化性強)纔剛剛開始,具體看具身技術部分。

情緒的作用在動物中激勵目標的實現和躲避危險的功能。

情緒識別不僅僅是單一神經元或區域的工作,而是涉及廣泛的大腦網絡。例如,視覺皮層首先處理情緒刺激的視覺信息,然後傳遞到包括杏仁核在內的邊緣系統,進一步的處理涉及前額葉和其他高級認知區域,以綜合信息並做出情緒反應。

由意大利理工學院科學家弗朗切斯科·帕帕萊奧領導的研究團隊,發現了使人類能夠識別他人情緒的大腦網絡。識別他人表情並作出適當迴應,是人類和動物的基本技能,這能使同伴間的互動更有效,從而提高生存概率。但對這一能力背後的大腦機制,人們仍知之甚少【16】。

使用熒光顯微鏡拍攝的神經元圖像。圖片來源:意大利理工學院

認知控制 (cognitive control) 是指個體在特定的情境中,自上而下的靈活地調動認知資源來調整想法和行爲的一種目標導向的心理過程;認知控制包括計劃、控制和管理信息加工流的心理能力--調度資源和監控反饋保證目標導向行爲的成功。

目前研究熱點是認知控制的一般性/特異性機制。所謂一般性(大腦的泛化性),是指不同任務之間共享相同的加工機制 ;相反地,特異性(任務的專用性)是指不同的任務各有特異性的加工機制。

當兩個任務之間的差別大到可以歸爲兩類時,他們之間就產生了邊界 (boundary)。因此,認知控制的一般性 / 特異性很可能不是非此即彼的。

這提示我們,大腦在進行信息加工時有一定的泛化能力,並不侷限於具體的任務。但是這種泛化能力不是無限的,如果任務之間的差異達到了一定的程度,大腦會形成不同的功能模塊來分別進行加工,這樣能夠保證在面對外界刺激時有最爲高效的反應。從進化的角度來看,這種高效加工對人類適應環境也是極爲有利的。

對認知控制的資源調度和監控反饋機制的研究可以讓大模型(泛化)在應用(專用)時,進行特異化工程(形成洞悉),有效解決專用性不足的問題(通用大模型如何變成垂直大模型)。

1.智能史的第一次突破:兩側對稱動物都有個腦子來趨利避害、整合信息、持續學習和情感慣性,發源於線蟲--一切都是爲了活下去【17】。

2. 智能史的第二次突破:脊椎動物的硬質骨骼催生了更大的身體、能夠容納更大的腦,大腦開始可以簡單的強化學習(有明確的目標,但都是現實環境的目標)和好奇心(僅僅探索了未知區域滿足好奇心、也應該得到強化鼓勵);

3.智能史的第三次突破:依託於無監督學習、把同樣的腦回路排隊複製--神經元數量大爆炸(人類大腦中新皮層已經佔整個腦容量的70%),新皮層創造出“在想象力中用強化學習模型思考”;哺乳動物的“新皮層”做模擬學習,是從自己的想象中學習(GPT-4 的階段)。

OpenAI GPT4-草莓大模型(自我強化學習-RL新範式)已經發布:

你需要對一個問題建立多個智能體(agents),讓每個智能體各自生成答案。選擇最合適的一個,再輸出。這兩步加起來就是系統2思維。

而現今的大語言模型基本上只是系統1思維,純直覺輸出。但我們可以想見,跨越到系統2在技術上一點都不難,難的只是算力而已 —— 畢竟一切都是新皮層。

4. 有了心智理論,靈長類動物可以通過模仿另一個人做事來學習,也就是從他人的行動中學習(模仿學習)和羣體生活(政治博弈-對抗學習)讓大腦變得越來越大。

5.智能史的第五次突破:語言,語言讓大腦和大腦聯網。以前的我們是單獨的個體,現在我們是網絡中的一個個節點;有了語言,智人則能夠從他人的想象中學習、知識開始爆炸性積累。(羣體的智慧!)

我們的祖先們,不斷持續的優化和補充神經迴路機制,神經元的數量飆升,同時配對上好的學習範式,最終要形成精簡的功能(皮層or腦區 and 針對性功能的特異迴路),才能實現真正的智能!

實現真正的涌現能力!

‌AI的涌現能力‌是指隨着模型規模變大,模型突然在某一刻擁有了以前沒有的能力-大型語言模型在未直接訓練過的任務上表現出驚人性能的能力。

神經網絡不是黑箱!只是因爲我們尚未了解以及計算量過大。

神經學對AI的影響大討論-鳥飛派和僞鳥派

當人們最初想要製造飛行器的時候,是希望模仿鳥的飛行方式,製造出像鳥一樣飛行的機器。後來人們發現,這樣的製造方法並不可行,可能不僅實現難度大,而且還不穩定,blablabla...(非專業人士,只是猜測)於是萊特兄弟想出了另一種製造飛行器的方式,相比於模仿鳥類的飛行方式,這種飛行器的工作方式更簡單,更安全,更...【18】

這羣試圖完全模仿鳥類飛行方式來製造飛行器的人,在後世被稱爲“鳥飛派”,萊特兄弟製造出的飛機則告訴我們,鳥飛派不一定是最有效的工程方法。而他們造出的“僞鳥”,纔是更可取的飛行器製造方案。

同樣,人工智能發展的初期也有一波“鳥飛派”學者,他們認爲只有完全用機器實現大腦的結構,才能製造出一臺和人類擁有相似功能的機器大腦。然而這並非是現實的,無論是放在人工智能發展的初期還是放在工業技術更加發達的現代。

原因包括:a人腦擁有上千億個神經元,神經元之間還有數量更多的連接。要實現這些連接絕不是一件容易的事情。b這些神經元之間是怎樣連接,以實現複雜的功能的,目前神經科學家們所知甚少。

2022年的一個週末,twitter上的神經科學圈發酵了一起不大不小的爭論,引得領域內好幾個著名學者,包括Yann Lecun的參與。最初爭論的是神經科學是否推動了人工智能,後來就更多變成了未來的人工智能是否需要神經科學。中國在類腦智能領域的投入也在增加,“該不該類腦”以及“如何類腦”這樣的問題都值得在廣泛範圍內討論--詳見饒毅事件。【19】

爭論的起點10月15號時候,神經科學領域和人工智能領域一羣大佬,如Terry Sejnowski, Yoshua Bengio, Yann LeCun,Eero Simoncelli, James DiCarlo, Alex Pouget 以及今天爭論的主角Konrad Kording, 在arXiv上發表了一篇白皮書文章文章的觀點非常簡單,摘要只有兩句話:Neuroscience has long been an important driver of progress in artificial intelligence (AI). We propose that to accelerate progress in AI, we must invest in fundamental research in NeuroAI.

概括起來就是:神經科學+人工智能非常有前途,政府請打錢。

沒想到兩天後,可能是週末比較清閒,來自DeepMind的David Pfau對着Kording的這篇tweet開噴了:神經科學從來都沒推動過人工智能,你們白皮書中還說continue to drive AI progress你們真的認爲發明Transformers / ADAM的人看過一篇神經科學論文嗎?你們就假裝在爲人工智能做貢獻吧。要點臉吧 "it's embarrasing"(原文)

這樣的回覆立馬就炸雷了,引起了後面很多人的“參戰”。這裡簡單提一下這位Pfau,他其實是正兒八經的神經科學博士,畢業於哥倫比亞大學的神經生物學專業,附屬於Center for Theoretical Neuroscience (CTN)。並且在CTN裡邊有Larry Abbott和Ken Miller等計算神經科學大佬,畢業生中走出了很多在人工智能領域的佼佼者,如David Sussillo,Pfau對於這神經科學和人工智能兩個領域都不陌生。

Pfau的評論一處,上文我們所提到的David Sussillo就出來說話了過去幾年,我在Google Brain跟Transformer的主要貢獻人交往很多。我雖然不能冒昧地推定到底是什麼啓發了他發明transformer,但是他對神經科學是發自內心的感興趣,問了很多神經科學的問題。

Yann Lecun大佬出馬,直接就一句"You are wrong"甩到Pfau老兄臉上了:你錯了 。神經科學極大並且直接啓發了我和Hinton,另外神經網絡通過調節突觸權重來實現學習這一整套想法確定無疑來自神經科學。

筆者認爲如今神經學的研究會在兩大方面極大的推動AI的發展:

總結

AI模型預測作爲新的研究方法也在助推神經科學的發展,在探索完神經學原理後,又幫助ai發展,兩者螺旋上升。還有大量神經元原理未被量化,技術天花板尚未顯現!

三、AI技術流派原理與發展

(1) 總體流派類別原理和歷史

在人工智能的發展過程中,不同時代、學科背景的人對於智慧的理解及其實現方法有着不同的思想主張,並由此衍生了不同的學派,影響較大的學派及其代表方法如下:

學派之間的範式方法早已融合貫通,以神經網絡深度學習的聯結主義是目前主要貢獻學派,學派之爭都在想深度學習神經網絡的聯結主義收斂。

其中,符號主義及聯結主義爲主要的兩大派系【20】:

“符號主義”(Symbolicism),又稱邏輯主義、計算機學派,認爲認知就是通過對有意義的表示符號進行推導計算,並將學習視爲逆向演繹,主張用顯式的公理和邏輯體系搭建人工智能系統(已有知識的數學復刻)。如用決策樹模型輸入業務特徵預測天氣:

“聯結主義”(Connectionism),又叫仿生學派,篤信大腦的逆向工程,主張是利用數學模型來研究人類認知的方法,用神經元的連接機制實現人工智能。如用神經網絡模型輸入雷達圖像數據預測天氣:

從始至此,人工智能(AI)便在充滿未知的道路探索,曲折起伏,我們可將這段發展歷程大致劃分爲5個階段期(筆者羅列了關鍵的事件):

起步發展期:1943年—20世紀60年代

1943年,美國神經科學家麥卡洛克(Warren McCulloch)和邏輯學家皮茨(Water Pitts)提出神經元的數學模型,這是現代人工智能學科的奠基石之一。

1950年,艾倫·麥席森·圖靈(Alan Mathison Turing)提出“圖靈測試”(測試機器是否能表現出與人無法區分的智能),讓機器產生智能這一想法開始進入人們的視野。

圖靈在一篇論文中開門見山問道:

“I propose to consider the question, ‘Can machines think?’"

“我提議思考這樣一個問題:‘機器可以思考嗎’”

以此拉開AI的序幕,激發當時剛剛興起的計算機科學領域對AI的思考。

1956年,達特茅斯學院人工智能夏季研討會上正式使用了人工智能(artificial intelligence,AI)這一術語。這是人類歷史上第一次人工智能研討,標誌着人工智能學科的誕生。

1957年,弗蘭克·羅森布拉特(Frank Rosenblatt)在一臺IBM-704計算機上模擬實現了一種他發明的叫做“感知機”(Perceptron)的神經網絡模型。

1969年,“符號主義”代表人物馬文·明斯基(Marvin Minsky)的著作《感知器》提出對XOR線性不可分的問題:單層感知器無法劃分XOR原數據,解決這問題需要引入更高維非線性網絡(MLP, 至少需要兩層),但多層網絡並無有效的訓練算法。這些論點給神經網絡研究以沉重的打擊,神經網絡的研究走向長達10年的低潮時期。

反思發展期:20世紀70年代1974年,哈佛大學沃伯斯(Paul Werbos)博士論文裡,首次提出了通過誤差的反向傳播(BP)來訓練人工神經網絡,但在該時期未引起重視。

1975年,馬文·明斯基(Marvin Minsky)在論文《知識表示的框架》(A Framework for Representing Knowledge)中提出用於人工智能中的知識表示學習框架理論。

1979年,漢斯·貝利納(Hans Berliner)打造的計算機程序戰勝雙陸棋世界冠軍成爲標誌性事件。(隨後,基於行爲的機器人學在羅德尼·布魯克斯和薩頓等人的推動下快速發展,成爲人工智能一個重要的發展分支。格瑞·特索羅等人打造的自我學習雙陸棋程序又爲後來的強化學習的發展奠定了基礎。)

應用發展期:20世紀80年代1980年,在美國的卡內基梅隆大學(CMU)召開了第一屆機器學習國際研討會,標誌着機器學習研究已在全世界興起。

1982年,約翰·霍普菲爾德(John Hopfield) 發明了霍普菲爾德網絡,這是最早的RNN的雛形。霍普菲爾德神經網絡模型是一種單層反饋神經網絡(神經網絡結構主要可分爲前饋神經網絡、反饋神經網絡及圖網絡),從輸出到輸入有反饋連接。它的出現振奮了神經網絡領域,在人工智能之機器學習、聯想記憶、模式識別、優化計算、VLSI和光學設備的並行實現等方面有着廣泛應用。

1983年,Terrence Sejnowski, Hinton等人發明了玻爾茲曼機(Boltzmann Machines),也稱爲隨機霍普菲爾德網絡,它本質是一種無監督模型,用於對輸入數據進行重構以提取數據特徵做預測分析。

1985年,朱迪亞·珀爾提出貝葉斯網絡(Bayesian network),他以倡導人工智能的概率方法和發展貝葉斯網絡而聞名,還因發展了一種基於結構模型的因果和反事實推理理論而受到讚譽。

個性推薦算法簡介:用戶c看過物品a,c,d,用戶b看過物品b,與用戶c的喜好不重合,用戶a看過物品a,c,由此可以推測用戶a與用戶c相似,可以推薦物品d給用戶a;當然後續技術添加了組標籤等新算法,使得推薦算法更加精確,推薦算法成爲了新一代互聯網的核心護城河!任何互聯網平臺都離不開推薦算法,抖音,小紅書等推薦機制吸引了大量的注意力,便由此通過廣告變現,成爲新一代互聯網龍頭。

1986年,辛頓(Geoffrey Hinton)等人先後提出了多層感知器(MLP)與反向傳播(BP)訓練相結合的理念(該方法在當時計算力上還是有很多挑戰,基本上都是和鏈式求導的梯度算法相關的),這也解決了單層感知器不能做非線性分類的問題,開啓了神經網絡新一輪的高潮。

1989年,LeCun (CNN之父) 結合反向傳播算法與權值共享的卷積神經層發明了卷積神經網絡(Convolutional Neural Network,CNN),並首次將卷積神經網絡成功應用到美國郵局的手寫字符識別系統中。

卷積神經網絡通常由輸入層、卷積層、池化(Pooling)層和全連接層組成。卷積層負責提取圖像中的局部特徵,池化層用來大幅降低參數量級(降維),全連接層類似傳統神經網絡的部分,用來輸出想要的結果。

平穩發展期:20世紀90年代—2010年

1997年國際商業機器公司(簡稱IBM)深藍超級計算機戰勝了國際象棋世界冠軍卡斯帕羅夫。深藍是基於暴力窮舉實現國際象棋領域的智能,通過生成所有可能的走法,然後執行儘可能深的搜索,並不斷對局面進行評估,嘗試找出最佳走法。

1997年,Sepp Hochreiter 和 Jürgen Schmidhuber提出了長短期記憶神經網絡(LSTM)。

LSTM是一種複雜結構的循環神經網絡(RNN),結構上引入了遺忘門、輸入門及輸出門:輸入門決定當前時刻網絡的輸入數據有多少需要保存到單元狀態,遺忘門決定上一時刻的單元狀態有多少需要保留到當前時刻,輸出門控制當前單元狀態有多少需要輸出到當前的輸出值。這樣的結構設計可以解決長序列訓練過程中的梯度消失問題。

2003年,Google公佈了3篇大數據奠基性論文,爲大數據存儲及分佈式處理的核心問題提供了思路:非結構化文件分佈式存儲(GFS)、分佈式計算(MapReduce)及結構化數據存儲(BigTable),並奠定了現代大數據技術的理論基礎。

2006年,傑弗裡·辛頓以及他的學生魯斯蘭·薩拉赫丁諾夫正式提出了深度學習的概念(Deeping Learning),開啓了深度學習在學術界和工業界的浪潮。2006年也被稱爲深度學習元年,傑弗裡·辛頓也因此被稱爲深度學習之父。

深度學習的概念源於人工神經網絡的研究,它的本質是使用多個隱藏層網絡結構,通過大量的向量計算,學習數據內在信息的高階表示。

圖:初始的損失函數

圖:實際的梯度更新後的損失函數

蓬勃發展期:2011年至今2012年,Hinton和他的學生Alex Krizhevsky設計的AlexNet神經網絡模型在ImageNet競賽大獲全勝,這是史上第一次有模型在 ImageNet 數據集表現如此出色,並引爆了神經網絡的研究熱情。

AlexNet是一個經典的CNN模型,在數據、算法及算力層面均有較大改進,創新地應用了Data Augmentation、ReLU、Dropout和LRN等方法,並使用GPU加速網絡訓練。GPU在深度學習網絡的作用開始遠遠大於CPU。

2012年,谷歌正式發佈谷歌知識圖譜Google Knowledge Graph),它是Google的一個從多種信息來源彙集的知識庫,通過Knowledge Graph來在普通的字串搜索上疊一層相互之間的關係,協助使用者更快找到所需的資料的同時,也可以知識爲基礎的搜索更近一步,以提高Google搜索的質量。

2015年,爲紀念人工智能概念提出60週年,深度學習三巨頭LeCun、Bengio和Hinton(他們於2018年共同獲得了圖靈獎)推出了深度學習的聯合綜述《Deep learning》。

《Deep learning》文中指出深度學習就是一種特徵學習方法,把原始數據通過一些簡單的但是非線性的模型轉變成爲更高層次及抽象的表達,能夠強化輸入數據的區分能力。通過足夠多的轉換的組合,非常複雜的函數也可以被學習。

2015年,Microsoft Research的Kaiming He等人提出的殘差網絡(ResNet)在ImageNet大規模視覺識別競賽中獲得了圖像分類和物體識別的優勝。

殘差網絡的主要貢獻是發現了網絡不恆等變換導致的“退化現象(Degradation)”,並針對退化現象引入了 “快捷連接(Shortcut connection)”,緩解了在深度神經網絡中增加深度帶來的梯度消失問題。

2015年,谷歌開源TensorFlow框架。它是一個基於數據流編程(dataflow programming)的符號數學系統,被廣泛應用於各類機器學習(machine learning)算法的編程實現,其前身是谷歌的神經網絡算法庫DistBelief。

2015年,馬斯克等人共同創建OpenAI。它是一個非營利的研究組織,使命是確保通用人工智能 (即一種高度自主且在大多數具有經濟價值的工作上超越人類的系統)將爲全人類帶來福祉。其發佈熱門產品的如:OpenAI Gym,GPT等。

2016年,AlphaGo與圍棋世界冠軍、職業九段棋手李世石進行圍棋人機大戰,以4比1的總比分獲勝。

2018年,Google提出論文《Pre-training of Deep Bidirectional Transformers for Language Understanding》併發布Bert(Bidirectional Encoder Representation from Transformers)模型,成功在 11 項 NLP 任務中取得 state of the art 的結果。

BERT是一個預訓練的語言表徵模型,可在海量的語料上用無監督學習方法學習單詞的動態特徵表示。它基於Transformer注意力機制的模型,對比RNN可以更加高效、能捕捉更長距離的依賴信息,且不再像以往一樣採用傳統的單向語言模型或者把兩個單向語言模型進行淺層拼接的方法進行預訓練,而是採用新的masked language model(MLM),以致能生成深度的雙向語言表徵。

2020年,OpenAI開發的文字生成 (text generation) 人工智能GPT-3,它具有1,750億個參數的自然語言深度學習模型,比以前的版本GPT-2高100倍,該模型經過了將近0.5萬億個單詞的預訓練,可以在多個NLP任務(答題、翻譯、寫文章)基準上達到最先進的性能。

2020年,谷歌旗下DeepMind的AlphaFold2人工智能系統有力地解決了蛋白質結構預測的里程碑式問題。它在國際蛋白質結構預測競賽(CASP)上擊敗了其餘的參會選手,精確預測了蛋白質的三維結構,準確性可與冷凍電子顯微鏡(cryo-EM)、核磁共振或 X 射線晶體學等實驗技術相媲美。

2021年,OpenAI提出兩個連接文本與圖像的神經網絡:DALL·E 和 CLIP。DALL·E 可以基於文本直接生成圖像,CLIP 則能夠完成圖像與文本類別的匹配。

2021年,AlphaFold 2 能很好地預判蛋白質與分子結合的概率,爲我們展示了人工智能驅動自然學科研究的無限潛力;

2022年,ChatGPT推出,AI爆炸進行時!

總結來說,AI技術學派的發展,隨着人類對自己的智慧的研究深入-當然也有客觀物理條件的滿足(算力和數據),從意識層面(現成的知識複製)到物質層面(神經網絡的機制),所產生的智能從機械重複性工作到創意生成實現了跨越,符號主義範式向聯結主義範式遷移,少層次神經網絡到多層次深度學習的神經網絡。

(2)AI理論

在實踐中,我們根據任務,優先確認學習範式和算法,搭建ai模型,在小規模應用中收斂學習範式和ai模型至可以被大規模訓練的最佳狀態--loss fuction表現優異。

學習範式

機器學習的範式包含三種主流範式:

監督學習模型主要是根據人類已標註數據對模型的輸入和輸出學習到一種映射關係,以此對測試數據集中的樣本進行預測。包含兩類任務:分類和迴歸。許多數據標註公司業務依賴於此學習範式的模型公司。

模仿學習是指從示教者提供的範例中學習,把狀態作爲特徵(feature)【23】,動作作爲標記(label)進行分類(對於離散動作)或迴歸(對於連續動作)的學習從而得到最優策略模型。模型的訓練目標是使模型生成的狀態-動作軌跡分佈和輸入的軌跡分佈相匹配。本質上是一種對齊手段,不是真正的理解世界。

在簡單自動駕駛任務中(如下圖),狀態就是指汽車攝像頭所觀測到的畫面,動作即轉向角度。根據人類提供的狀態動作對來習得駕駛策略。這個任務也叫做行爲克隆(Behavior Cloning),即作爲監督學習的模仿學習。

缺點:由於沒有自我探索能力,性能不可能超過人類遙控機器人所能達到的性能。而很多任務實際上是通過遙控/示教難以實現的,比如人形機器人的奔跑跳躍等動態平衡問題,以及與動態物體的交互。

相比於監督學習,無監督學習僅依賴於無標籤的數據訓練模型來學習數據表徵。自監督學習是無監督學習的一種。

自監督學習主要是利用「輔助任務(pretext)--自動標註、自動訓練「從大規模的無監督數據中挖掘」自身的監督信息」來提高學習表徵的質量,通過這種構造監督信息對網絡進行訓練,從而可以學習到對下游任務具有價值的表徵。

最常見的通過隨機刪去訓練集句子中的單詞來構造輔助任務訓練集和標籤,來訓練網絡預測被刪去的單詞,以提升模型對於語序特徵的提取能力(BERT)。

基於環境的反饋而行動,通過不斷與環境的交互、試錯,最終完成特定目的或者使得整體行動收益最大化。強化學習不需要訓練數據的label,但是它需要每一步行動環說給的反饋,是獎勵還是懲別!反饋可以量化,基於反饋不斷調整訓練對象的行爲【24】。

強化學習是智能體(Agent)以“試錯”的方式進行學習,通過與環境進行交互獲得的獎賞指導行爲,目標是使智能體獲得最大的獎賞。

強化學習主要是指導訓練對象每一步如何決策,採用什麼樣的行動可以完成特定的目的或者使收益最大化。

比如AlphaGo下圍棋,AlphaGo就是強化學習的訓練對象,AlphaGo走的每一步不存在對錯之分,但是存在“好壞”之分。當前這個棋面下,下的“好”,這是一步好棋。下的“壞”,這是一步臭棋。強化學習的訓練基礎在於AlphaGo的每一步行動環境都能給予明確的反饋,是“好”是“壞”?“好”“壞”具體是多少,可以量化。強化學習在AlphaGo這個場景中最終訓練目的就是讓棋子佔領棋面上更多的區域,贏得最後的勝利。

但實際我們在進行強化學習訓練過程中,會遇到一個“EE”問題。這裡的Double E不是“Electronic Engineering”,而是“Explore & Exploit”,“探索&利用”。

所以在強化學習訓練的時候,一開始會讓Agent更偏向於探索Explore,並不是哪一個Action帶來的Value最大就執行該Action,選擇Action時具有一定的隨機性,目的是爲了覆蓋更多的Action,嘗試每一種可能性。等訓練很多輪以後各種State下的各種Action基本嘗試完以後,我們這時候會大幅降低探索的比例,儘量讓Agent更偏向於利用Exploit,哪一個Action返回的Value最大,就選擇哪一個Action。

Explore&Exploit是一個在機器學習領域經常遇到的問題,並不僅僅只是強化學習中會遇到,在推薦系統中也會遇到,比如用戶對某個商品 or 內容感興趣,系統是否應該一直爲用戶推送,是不是也要適當搭配隨機一些其他商品 or 內容。

該學習範式容易陷入局部最優:部分場景中Agent採取的行動可能是當前局部最優,而不是全局最優。網上經常有人截圖爆出打遊戲碰到了王者榮耀AI,明明此時推塔或者推水晶是最合理的行爲,但是AI卻去打小兵,因爲AI採取的是一個局部最優的行爲。再合理的Reward函數設置都可能陷入局部最優中。

能力成長滯後:比如沒有遇到的問題--長尾問題,長時間重複學習後,才能學會,沒有Zero-Shot的能力。

AI模型算法

下面對典型的基本 AI 模型結構進行類型歸納【25】:

基礎模型的典型算子已經被 AI 開發框架和底層 AI 硬件做了較多優化,但是 AI 模型已經不單純只在算子層面產生變化,其從網絡結構,搜索空間等方向演化出如下的新的趨勢:

更大的模型:以 Transformer 爲基本結構的代表性預訓練神經語言模型(Neural Language Model),例如,BERT、GPT-3、LLAMA 等,在自然語言處理和計算機視覺等場景應用越來越廣泛。其不斷增加的層數和參數量,該模型對底層系統內存管理,分佈式訓練和硬件設計提出了很大的挑戰。

更靈活的結構:圖神經網絡模型、深度搜索樹網模型等算法不斷抽象多樣且靈活的數據結構(例如圖 Graph,樹 Tree 等),應對更爲複雜的建模需求。進而衍生了新的算子(例如圖卷積等)與計算框架(例如圖神經網絡框架等)。

更稀疏的模型結構:以多專家模型(Mixture of Experts,MoE)和 Pathways 模型結構爲代表的模型融合結構,讓運行時的 AI 系統執行模型更加動態(Dynamic)和稀疏(Sparse),提升模型的訓練效率減少訓練代價,支持更多的任務。給系統設計靜態分析帶來了不小的挑戰,同時驅動運用即時編譯(Just In Time Compiling)和運行時(Runtime)更加高效的調度與優化。

更大規模的搜索空間:用戶定義更大規模的超參數與模型結構搜索空間,通過超參數搜索優化(HPO)與神經網絡結構搜索(NAS)自動化找到最優的模型結構。自動化機器學習(AutoML)爲代表的訓練方式,衍生出多作業執行與多作業(Multi-Jobs)編排優化的系統需求。

更多樣的訓練方式:擴散模型(Diffusion Model)和深度強化學習(Deep Reinforcement Learning)爲代表的算法有比傳統訓練方式更爲複雜的過程。其衍生出訓練,推理,數據處理混合部署與協同優化的系統需求。

當然還有軟硬結合的算法:具身智能算法和自動駕駛算法。

接下來,筆者會重點闡述以trasfomer架構爲主的算法演變及原理。

Transfomer模型算法

深度學習算法都是:通過學習輸入的概率分佈,形成神經網絡潛空間的知識庫-包羅萬象的概率分佈,然後引導輸出的概率分佈與現實的需求對齊。

一句話:通過概率分佈找到事物的各種關係

深度學習RNN模型在自然語言領域的大規模探索和商業化後,人們逐漸發現其致命弱點,導致其學習能力受限--梯度爆炸和消失問題。

比較簡單的深層網絡如下【26】:

圖中是一個四層的全連接網絡,假設每一層網絡激活後的輸出爲

其中i爲第i層, x代表第i層的輸入,也就是第i−1層的輸出,f是激活函數,那麼,得出

簡單記爲

BP算法基於梯度下降策略,以目標的負梯度方向對參數進行調整,參數的更新爲

給定學習率α,得出

如果要更新第二隱藏層的權值信息,根據鏈式求導法則,更新梯度信息:

很容易看出來

即第二隱藏層的輸入。

所以說, 就是對激活函數進行求導,如果此部分大於1,那麼層數增多的時候,最終的求出的梯度更新將以指數形式增加,即發生梯度爆炸,如果此部分小於1,那麼隨着層數增多,求出的梯度更新信息將會以指數形式衰減,即發生了梯度消失。

總而言之,隨着層數增多,鏈式求導的微積分算法導致的梯度更新求解失控。

如果說從數學上看不夠直觀的話,下面幾個圖可以很直觀的說明深層網絡的梯度問題。

從深層網絡角度來講,不同的層學習的速度差異很大,表現爲網絡中靠近輸出的層學習的情況很好,靠近輸入的層學習的很慢,有時甚至訓練了很久,前幾層的權值和剛開始隨機初始化的值差不多。

梯度消失、爆炸,導致了RNN的學習能力受限,從而無法解決長時依賴問題,當預測點與依賴的相關信息距離比較遠的時候,就難以學到該相關信息。例如在句子”我是一名中國人,…(省略數十字),我會說中文”,如果我們要預測未尾的“中文”兩個字,我們需要上文的“中國人”,或者“中國”。

其根本原因在於反向傳播訓練法則,本質在於方法問題,而且對於人來說,在大腦的思考機制裡是沒有反向傳播的。

同時在RNN當中,tokens是一個一個被餵給模型的。比如在a3的位置,模型要等a1和a2的信息都處理完成後,纔可以生成a3。無法並行計算導致只能接納有限的上下文。

爲了更好地捕捉長距離信息,研究者們想要尋找到一種更強的語言模型方法,由此提出了以 transformer結構爲基礎的預訓練語言模型。

一切源於2017年穀歌Brain團隊那篇鼎鼎大名的文章“Attention Is All You Need”(注意力就是你所需要的一切),就是這篇文章提出了Transformer網絡結構。

首先,Transformer引入的自注意力機制能夠有效捕捉序列信息中長距離依賴關係,相比於以往的RNNs,它在處理長序列時的表現更好。

而自注意力機制的另一個特點是允許模型並行計算,無需RNN一樣t步驟的計算必須依賴t-1步驟的結果,因此Transformer結構讓模型的計算效率更高,加速訓練和推理速度。

Transformer最開始應用於NLP領域的機器翻譯任務,但是它的通用性很好,除了NLP領域的其他任務,經過變體,還可以用於視覺領域,如ViT(Vision Transformer)。

我們把模型拆成了各個零件進行學習,最後把這些零件組裝成一個標準的Transformer。

最初,Transformer 模型是爲機器翻譯而設計的。它是一個編碼器-解碼器結構,其中編碼器將原始語言的句子作爲輸入並生成基於注意力的表徵。而解碼器關注編碼信息並以自迴歸方式生成翻譯的句子,就像 RNN 一樣。

“Embedding”直譯是嵌入式、嵌入層。作用就是將文字降維至數字,讓計算機可計算。

嵌入之前,我們首先tokenize是指將文本分割成稱爲“tokens”的有意義的片段的過程--可以理解爲把句子裡的主語、謂語等有意義的單詞切割開,每個token單獨輸入給嵌入層。

簡單來說,我們常見的地圖就是對於現實地理的Embedding,現實的地理地形的信息其實遠遠超過三維,但是地圖通過顏色和等高線等來最大化表現現實的地理信息。通過它,我們在現實世界裡的文字、圖片、語言、視頻就能轉化爲計算機能識別、能使用的語言,且轉化的過程中信息不丟失。

圖:直觀的幾何表達壓縮爲:三維圖像變壓縮成3張二維的圖像

假設,我們中文,一共只有10個字,那麼我們用0-9就可以表示完【27】。

比如,這十個字就是“小普喜歡星海灣的朋友”,其分別對應“0-9”,如下:

那麼,其實我們只用一個列表就能表示所有的對話。例如:

但是中文單詞有幾十萬的,都需要特殊編碼,可以經過one-hot編碼把上面變成,保持其唯一特殊性:

即:把每一個字都對應成一個十個(樣本總數/字總數)元素的數組/列表,其中每一個字都用唯一對應的數組/列表對應,數組/列表的唯一性用1表示。

稀疏矩陣做矩陣計算的時候,只需要把1對應位置的數相乘求和就行。何況這個列表還是一行,如果是100行、1000行或1000列呢?所以,one-hot編碼的優勢就體現出來了,計算方便快捷、表達能力強。

然而,缺點也隨着來了。比如:中文大大小小簡體繁體常用不常用有十幾萬,然後一篇文章100W字,表示成100W X 10W的矩陣???這是它最明顯的缺點:過於稀疏時,過度佔用資源。比如:其實我們這篇文章,雖然100W字,但是其實我們整合起來,有99W字是重複的,只有1W字是完全不重複的。那我們用100W X 10W的豈不是白白浪費了99W X 10W的矩陣存儲空間。那怎麼辦???這時,Embedding層就出現了!

假設:我們有一個2 x 6的矩陣,然後乘上一個6 x 3的矩陣後,變成了一個2 x 3的矩陣。

這個過程,我們把一個A中的12個元素的矩陣變成C中6個元素的矩陣,直觀上,大小是不是縮小了一半,Embedding層,在某種程度上,就是用來降維的,降維的原理就是矩陣乘法。

假如我們有一個100W X10W的矩陣,用它乘上一個10W X 20的矩陣,我們可以把它降到100W X 20,瞬間量級降了10W/20=5000倍。

它就是作爲這個橋樑的存在,讓我們手頭的東西可伸可縮,變成我們希望的樣子。

我們的輸入除了嵌入層的降維數字信息外,還需要對每一個文字打上數字編碼,知道每一個文字的上下文順序【28】。

在self-attention模型中,輸入是一整排的tokens,對於人來說,我們很容易知道tokens的位置信息,比如:

但是這些對於self-attention來說,是無法分辯的信息,因爲self-attention的運算是無向的。因爲,我們要想辦法,把tokens的位置信息,餵給模型。

編碼有三大要求:1 絕對位置信息有界限(否則距離大小無限)2 連續 3 不同位置的相對距離可以被轉換計算

假設以下句子是我們要翻譯的輸入句子:

“動物沒有過馬路,因爲它太累了”【29】

這句話中的“它”指的是什麼?它是指街道還是動物?這對人類來說是一個簡單的問題,但對算法來說卻不那麼簡單, 當模型處理單詞“它”時,自注意力允許它將“它”與“動物”聯繫起來。

當模型處理每個單詞(輸入序列中的每個位置)時,自注意力允許它查看輸入序列中的其他位置以尋找有助於更好地編碼該單詞的線索。

自注意力機制就是要通過權重矩陣來自發地找到詞與詞之間的關係

(1)計算框架

Self-Attention的意思是,我們給Attention的輸入都來自同一個序列,其計算方式如下【30】: