李國傑院士 | 智能化科研要適當容忍“黑盒模型”

在大模型如雨後春筍、百模大戰如火如荼的當下,人工智能技術(AI)正以前所未有的速度改變着我們的生活方式、工作模式乃至科研方法。從自動駕駛汽車到智能家居,從醫療診斷到金融分析,AI的觸角已經深入社會的各個角落。然而,AI的潛力遠不止於此,它在科研領域的應用正引領着一場前所未有的變革,被稱爲“智能化科研”或“第五科研範式”。

一、智能化科研(AI4R):科研範式的重大變革

在人類歷史的長河中,科研範式經歷了多次演變。從農業時代的觀察和實驗歸納(第一範式),到工業時代的理論分析和邏輯演繹(第二範式),再到信息時代的計算機模擬仿真(第三範式),以及互聯網普及後的數據驅動科研(第四範式),每一次變革都極大地推動了科學的進步。如今,我們正邁向智能時代,智能化科研(AI4R)作爲第五科研範式應運而生,它不僅融合了前幾範式的精髓,更引入了人工智能這一強大工具,開啓了科研的新篇章。智能化科研(AI4R)不僅僅是工具層面的變革,更是科研思維和方法論的全面升級。它利用人工智能技術,如深度學習、強化學習等,輔助甚至主導科研過程,從數據收集、模型構建到結果分析,實現科研效率和精度的雙重提升。

二、科學智能(AI4S)與技術智能(AI4T):智能化科研(AI4R)的雙輪驅動

在智能化科研(AI4R)的框架下,科學智能(AI4S)和技術智能(AI4T)是兩個不可或缺的部分,共同推動着科研範式的變革。AI4S側重於利用AI技術解決基礎科學問題,將大量觀察數據編碼成符號化的規律或知識;而AI4T則更關注於技術發明和工程應用,將大量滿足需求規範的樣例解碼成人造物的具體設計。如芯片設計、天氣預報優化等。

近年來,智能化科研在智能科學與技術科學的雙輪驅動下取得了突破性進展。例如,在智能科學方面,由DeepMind團隊開發的AlphaFold系列模型已經成功預測了超過2億個蛋白質的三維結構,爲生物製藥等領域的發展提供了重要支撐。在技術智能方面,AI技術可以在芯片設計領域自動生成高效的CPU架構,大大縮短設計週期;在材料科學可以幫助科學家們快速發現新型穩定材料,推動材料科學的創新發展。 這些成功案例表明,科學智能不僅能夠解決基礎科學問題,還能夠滲透到技術研究甚至工程科學中,推動整個科研領域的智能化轉型。 因此,在探討科研方法創新時,我們不僅要關注AI在科學研究中的應用,還要高度重視AI在技術創新和工程實踐中的潛力。

三、大語言模型(LLM)與大科學模型(LSM):智能化科研(AI4R)的模型選擇

在智能化科研的實踐中,大模型是不可或缺的工具。然而,對於大模型的選擇和應用,我們需要有清晰的認識和合理的規劃。 當前,國內學者普遍關注大語言模型(Large Language Model,LLM),這主要是受到ChatGPT等應用的影響,側重於從海量數據中學習語言知識,實現文本、圖像、語音的合成等多種功能。 其缺陷是知識主要來源於訓練數據,缺乏對實踐活動的隱性知識的理解。 相比之下,大科學模型(LSM)則更加關注科研領域的實際應用。 不僅需要考慮神經網絡架構、機器學習算法等技術因素,還需要關注數據驅動和模型驅動的融合、科學倫理等多個方面。 例如,DeepMind團隊在推進智能化科研過程中,採用了強化學習等方法,使機器本身也產生大量數據,從而提高了模型的適應性和準確性。 因此,在智能化科研中,我們不僅要關注大語言模型(LLM)的發展,更要重視大科學模型(LSM)的構建和應用。

四、計算模型的轉變:實現智能化科研(AI4R)的突破口

1.算力不是萬能的

人工智能的突破主要得益於大數據、大模型和大算力的結合。單純提高算力並不是解決問題的萬能藥。實際上,人工智能的突破更多依賴於計算模型的轉變。從基於邏輯的確定性計算模型轉變爲基於概率統計的神經網絡模型,這一轉變能極大提高AI處理複雜問題的能力。因此,重複開發許多沒有新意的小模型,對推進人工智能作用不大。中國應當爭取在基礎模型上做出顛覆性的創新,爲人工智能和智能化科研的發展做出歷史性的貢獻。

2.突破“複雜性閾值”系統問題

在科研領域,許多複雜問題具有“組合爆炸”的特點,即假設空間非常大,難以通過傳統方法進行有效求解。例如,在藥物研發方面,小分子候選藥物的數量估計有1060種,可能成爲穩定材料的總數多達10180種,在傳統的研究方式中這種範圍幾乎是無窮大,而利用AI技術,可以對大量候選藥物進行篩選和優化,大大提高研發效率。同時,通過海量數據的訓練學習,可以學習到一些過去人類不知道的啓發信息,提高複雜問題的解決能力。

此外,神經網絡模型也值得關注。它擁有千億甚至上萬億的參數,涉及的內容可能已接近能處理困難問題的複雜度閾值點。而突破了複雜度閾值的系統,就會由於在數據層的擴散和變異作用而不斷進化,在處理一些不確定性和動態變化的問題時具有獨特優勢,進而可以解決一些個很困難的事情。這也是智能化科研的威力之一。

五、擁抱不確定性與黑盒模型的合理性

傳統科研方法一般都追求精確解和最優解,但複雜問題往往具有不確定性和動態變化的特點,難以找到形式化的精確解答。智能化科研(AI4R)的實踐表明,在不確定的環境中尋找最優解或近似解,滿足科研的實際需求。放棄絕對性、擁抱不確定性是科研方法的重要轉變。

此外,科學研究就是一個將“黑盒模型”逐步轉化爲“白盒模型”的過程,即從對某些現象或過程不瞭解逐步推進到充分理解其內部機制和原理。解決複雜度不高的問題時,我們已掌握其基本原理,因此更強調可解釋性,儘可能採用白盒模型。但對於非常複雜的問題,一開始不可能有白盒模型,一定時期要適當容忍黑盒模型,承認其存在的合理性,纔能有助於實際問題的解決。當然,在容忍黑盒模型的過程中,爲了防止黑盒模型潛在的失控或可能出現的不良後果,要加強科技倫理監管,讓智能化科研始終在安全可控的軌道上良性發展。

作者:李國傑,中國工程院院士、發展中國家科學院(TWAS)院士、中國科學院計算技術研究所首席科學家

本文轉載自微信公衆號科技導報,原載於《科技導報》2024年第10期

‍‍

| | | | | | | | | | | | | | | |更多精彩敬請期待

投稿郵箱: nais-research@cnais.org.cn