龔海鵬:AlphaFold2與結構生物學
施一公教授等頂級結構生物學家甚至宣稱AF2本世紀最重要的科學突破;也有科學家對AF2預測的精度提出質疑。此外,有很多人認爲實驗結構生物學會成爲昨日黃花,逐漸退出歷史舞臺。
導讀
近年來,受益於人工智能和深度學習技術的快速發展以及結構生物學數據的大量積累,蛋白質結構預測的方法學取得了突破性的進展。2020年舉辦的第14屆蛋白質結構預測競賽CASP14中,Google DeepMind團隊開發出的人工智能算法AlphaFold2(簡稱AF2)震驚了世界,對競賽的目標蛋白的預測精度GDT_TS分數超過了90%,意味着對其中很多蛋白所預測的結構與實驗結構非常接近,RMSD在1-2埃以內。2021年7月15日,DeepMind團隊在Nature雜誌發表論文,詳細描述了AF2的設計思路,並提供了可運行的開源代碼。同一天,David Baker 團隊在Science雜誌發表論文,提出了採用類似設計思路的RoseTTAFold算法及其開源代碼。隨後,DeepMind團隊使用AF2預測了多個物種中共30餘萬個無實驗結構的蛋白質的結構模型,並聯手EBI建立了結構預測數據庫AFDB。這一系列成果的出現吸引了科學界的大量關注,大家衆說紛紜。一方面,施一公教授等頂級結構生物學家甚至宣稱AF2本世紀最重要的科學突破;另一方面,也有科學家對AF2預測的精度提出質疑。此外,有很多人認爲實驗結構生物學會成爲昨日黃花,逐漸退出歷史舞臺。本文中對此現象做出一些個人解讀。
AF2的重要性和創新性
根據Anfinsen法則,蛋白質的氨基酸序列決定其三維結構,同時三維結構又是蛋白質行使其生物學功能的基礎。因此,研究蛋白質序列和結構間關係的蛋白質摺疊問題是生物物理領域最重要的基礎問題之一,困擾了科學界50年之久。由於蛋白質序列和結構之間屬於高維到高維的映射關係,傳統上採用數學或物理的方法都無法解決這一問題。近年來,隨實驗技術的進步,通過新一代測序技術和蛋白質晶體學以及冷凍電鏡等結構生物學方法,積累了大量的蛋白質序列和結構信息,爲使用人工智能技術研究序列-結構間關係打下了良好基礎。從2016年舉辦的CASP12競賽開始,各種深度學習技術廣泛應用於蛋白質結構預測領域,引發了結構預測準確度的快速提升。AF2是其中的集大成者,採用了不同於以往方法的全新算法設計,具有極高的創新性。從生物物理角度看,AF2設計的神經網絡架構,特別是Evoformer架構中序列信息與氨基酸殘基相互作用圖譜間的迭代優化,與蛋白質摺疊的物理機理隱隱吻合。同時,模型第一次成功地實現了端對端的精準結構預測,以序列比對爲輸入,不經過中間步驟,直接預測三維結構座標。此外,能顯著提高預測水平的recycling和self-distillation等技術也是首次應用於結構預測領域,體現了工程設計優化對方法學發展的重要性。因此,無論是從方法設計的角度還是從性能的角度看,AF2都體現了人工智能方法和生物物理思想的完美結合,不失爲近年來最重要的科學突破之一。
AF2的侷限性
受限於算法和硬件,AF2在實用中還有一定的侷限性。首先,DeepMind團隊使用AF2算法對近期(2018年4月30日至2021年2月15日)新解析出的一萬餘條蛋白質序列進行了結構預測。雖然其中近一半的蛋白預測精度較高,RMSD95(覆蓋95%殘基的RMSD)在2埃以內,但是仍有許多蛋白的預測結果不佳,比如近20%的蛋白其RMSD95超過8埃。衆所周知,依託結構的機理研究和藥物開發等往往需要高精度的結構模型,誤差在2埃以上的預測模型對真實應用沒有指導作用。因此,針對這些蛋白,仍然需要採用實驗結構生物學方法進行結構解析。其次,AF2在預測時嚴重依賴GPU顯存,即使使用目前市面上最好的A100顯卡,在進行單卡預測時該算法也僅能處理2500殘基以內的蛋白序列。如果使用CPU進行預測則會嚴重影響算法的運行效率,而且隨蛋白殘基數越多,對內存的壓力越大。當前的AF2程序還無法像單顆粒冷凍電鏡一樣解析出超大型複合體的結構。第三,AF2的輸入信息來源於多重序列比對(MSA),而非單純的氨基酸序列。多重序列比對相當於自然界以進化的方式做的實驗,其中含有許多額外的信息。根據測算,當不使用MSA而僅使用目標蛋白的單序列信息時,AF2的預測精度大幅度下滑。因此AF2還不能算是完全解決了序列和結構間的映射關係。最後,AF2等結構預測方法目前僅能預測特定氨基酸序列的一種構象。蛋白質在行使生物學功能時往往需要發生構象變化。比如酶從失活狀態轉變爲活性狀態、膜轉運蛋白需要通過構象變化交替接觸膜兩側的溶液、蛋白和配體結合時發生構象變化等等。在實驗結構生物學方法中,冷凍電鏡、核磁共振、小角散射和單分子等技術都可以在一定程度上捕捉結構的動態特徵,揭示構象變化過程。目前的AF2還不具有這樣的能力。可以看到,由於以上侷限性,AF2至少在目前階段還無法取代實驗結構生物學的地位。
AF2爲新一代結構生物學的發展提供契機
即便有以上的侷限性,AF2的提出仍屬於重要的科學突破。同時AF2將會成爲實驗結構生物學的重要工具,並推動相關領域的進一步發展。首先,冷凍電鏡等實驗生物學研究的前提是目標蛋白的表達和提純,因此往往在天然蛋白質序列中引入點突變,以穩定蛋白的結構(比如把目標蛋白鎖定在一種主要構象中)。在缺乏結構信息時,突變位點的設計往往以經驗爲主,費時費力。AF2可以快速預測蛋白的結構,爲突變位點的設計提供重要的結構信息作爲參考。基於結構的突變位點設計顯然更有針對性,比如相對於蛋白結構的內部殘基,表面的殘基的突變往往不容易破壞結構的穩定性。其次,AF2預測的結構可以作爲實驗結構生物學的初始結構模型,輔助最終的結構建模。比如,X射線晶體衍射實驗往往由於缺乏相位信息無法建立結構模型,已有研究表明,AF2預測的結構可以提供重要的相位信息,從而有效輔助蛋白質晶體學家快速解析結構。再比如,單顆粒冷凍電鏡結構解析中二維圖像的分類對最終模型的建立至關重要,但是目前的算法要先依賴經驗進行初始分類再迭代優化。AF2預測的結構顯然可以對二維圖像的分類提供重要的理論指導,從而進一步優化電鏡結構模型的建模。第三,AF2預測的結構可以提供初始座標作爲蛋白質結構動態研究的基礎。冷凍電鏡斷層掃描、核磁共振、小角散射以及單分子熒光等實驗可以快速獲取蛋白質的部分結構特徵用於表徵或描述蛋白質的結構動態變化,但是這些方法或者只能得到低分辨率的結構信息(如冷凍電鏡斷層掃描),或者完全缺失結構細節(如小角散射和單分子熒光),或者需要複雜冗長的實驗流程才能得到結構細節(如核磁共振)。顯然,AF2預測的結構可以爲這些方法補充缺失的結構信息。最後,有了AF2預測的結構,分子動力學模擬等計算化學方法也會有更廣泛的應用。傳統的分子動力學模擬計算需要以可靠的結構作爲模擬起始點,因此很難用於研究未知結構蛋白。AF2則大大擴展了分子動力學模擬計算的研究範圍,從而對分子機理的研究、蛋白質設計和藥物設計等提供重要的輔助作用。
綜上所述,以AF2爲代表的新一代蛋白質結構預測方法將會成爲結構生物學的重要補充,並推動整個結構生物學領域的進一步發展。在新的形式下,需要充分利用蛋白質結構預測算法提供的信息對結構生物學的研究模式進行新的探索。
免責聲明:本文根據轉自結構生物學高精尖創新中心 ,原作者龔海鵬。文章內容系原作者個人觀點,本公衆號轉載僅爲分享、傳達不同觀點,如有任何異議,歡迎聯繫我們!
轉自丨結構生物學高精尖創新中心
作者丨龔海鵬
編輯丨鄭實
研究所簡介
國際技術經濟研究所(IITE)成立於1985年11月,是隸屬於國務院發展研究中心的非營利性研究機構,主要職能是研究我國經濟、科技社會發展中的重大政策性、戰略性、前瞻性問題,跟蹤和分析世界科技、經濟發展態勢,爲中央和有關部委提供決策諮詢服務。“全球技術地圖”爲國際技術經濟研究所官方微信賬號,致力於向公衆傳遞前沿技術資訊和科技創新洞見。
地址:北京市海淀區小南莊20號樓A座
電話:010-82635522
微信:iite_er