離譜嗎?諾貝爾化學獎也頒給了計算機科學家?!
計算?人工智能?該不會諾獎委員會把化學獎也給了計算機科學家吧?
還真讓你猜對了,雖然大衛·貝克和約翰·詹珀這二位科學家身上都有生物化學家的頭銜,但他們同時也擁有計算機科學家的頭銜。至於德米斯·哈薩比斯嘛,那就更不用說了,他是一名專注於人工智能的計算機科學家,在進入科研圈兒之前,他是一名棋盤遊戲專家,還是業內知名的視頻遊戲的 AI 程序員和設計師。
以前,計算機科學家常常會被公衆看成是類似程序員一樣的工作,他們常常被稱之爲工程師而不是科學家。今年,絕對是計算機科學打翻身仗的一年。
很多人都以爲,化學家應該是那種身穿白大褂,被一大堆瓶瓶罐罐圍着,要麼在看顯微鏡,要麼在搖試管的人。但是,隨着各種學科與計算機科學之間的交叉越來越緊密,尤其是隨着計算能力和人工智能技術的發展,你可能真的分不出一個身穿寬鬆的便裝,坐在電腦前噼裡啪啦敲打鍵盤的人到底是一名遊戲玩家,還是一名科學家了。
David Baker 在華盛頓大學的化學實驗室
在我剛剛出版的新書《未來科技大爆炸》中,就專門講過大衛·貝克的故事。他的爸爸馬歇爾·貝克是著名物理學家,媽媽瑪西亞·貝克是地球物理學家。1989 年他在加州伯克利分校拿到了生物化學博士學位,從那時候起就開始研究蛋白質相關的課題。
Father Msrshall Backer
Son David Baker
Mother Marcia Baker
蛋白質是構成生命的基本零件,而氨基酸又是構成蛋白質的基本零件。從微觀結構上來說,蛋白質就是一團由不同種類的氨基酸拼裝成的有機大分子,而不同的氨基酸就是拼裝大分子的小積木。由於每一種氨基酸都有固定的三維結構,當氨基酸相互連接之後,就會讓蛋白質這根長長的氨基酸鏈條發生摺疊,形成一個更大的三維結構。
美國生物化學家克里斯蒂安·安芬森(Christian Anfinsen)就發現,蛋白質可以展開再重新摺疊,每次都能保持原來相同的形狀。於是他在反覆試驗後得出結論:蛋白質的三維結構完全是由蛋白質中的氨基酸序列決定的。這也幫他贏得了 1972 年的諾貝爾化學獎。
Christian Anfinsen (右)
蛋白質可以在可逆過程中摺疊或展開
蛋白質的摺疊有點兒像一種經典的智力玩具——百變魔尺。百變魔尺有很多節,每一節都可以向四個不同方向翻轉。這樣,一根長長的魔尺就可以被摺疊成各種各樣的形狀。魔尺的節就像是氨基酸,而魔尺的節數越多,可能摺疊出的三維結構的數量就會呈現出幾何級數的增長。
蛋白質也是這樣。即便是隻有 100 個氨基酸組成的蛋白質,理論上就可以摺疊出 1047 種不同的三維結構。如果氨基酸鏈隨機摺疊,那麼找到正確的蛋白質結構需要的時間比宇宙的年齡還要長。但是在細胞中,蛋白質完成一次正確的摺疊,只需要幾毫秒即可,到底如何找到蛋白質正確的三維結構,這成了一個巨大的謎題。
百變魔尺的說明書
蛋白質的摺疊過程太像是一個解謎遊戲了。2008 年的時候,大衛·貝克突發奇想,既然拼裝氨基酸的過程與遊戲如此相似,那麼幹嘛不開發一款遊戲,讓玩家來參與蛋白質的組合和拼裝呢?也許人多真的力量大呢?
說幹就幹,有了想法之後,大衛·貝克立即率領化學家團隊,搞起了遊戲開發。沒過多長時間,大衛·貝克的遊戲開發團隊就把這個蛋白質拼裝的遊戲做出來了,爲了吸引更多玩家,他們還升級了遊戲,讓遊戲可以聯網運行。這個遊戲的名字就叫做 Foldit——摺疊。
在這個遊戲中,玩家的目標就是用各種各樣的氨基酸,拼裝出給定的蛋白質分子的三維結構。與宏觀世界中的物體差不多,蛋白質的三維結構某種程度上也決定了一個蛋白質的性狀和功能。比如說,我們的免疫系統在面對病毒和細菌的入侵時,會產生一種抗體蛋白。抗體蛋白的功能就是要緊緊夾住病毒身上突出的刺突蛋白,夾住之後,就能破壞刺突蛋白的特異性,從而阻止病毒進入細胞。所以抗體蛋白的樣子,真的就像是一個抓娃娃的夾子,它能夠精準地把刺突蛋白抓住。
圖:正在瞄準和識別病毒的抗體
膠原蛋白是一種經常被我們談論的蛋白,它能讓我們的皮膚充滿彈性和活力。那麼根據前面說過的原理,你大概就能猜到膠原蛋白應該的樣子,沒錯,膠原蛋白的樣子就像是三股互相擰在一起的橡皮筋。這樣的形態才能爲我們的皮膚提供張力。
圖:長相酷似橡皮筋的膠原蛋白
還有,2020 年獲得諾貝爾獎的基因定點編輯技術 CRISPR,就是利用了 CAS9蛋白能夠切斷 DNA 的能力而發明的。那麼 CAS9 蛋白長什麼樣呢?對了,它確實就像是一把剪刀。下圖中橙色的蛋白質就是 CAS9 蛋白,而綠色的部分則是被 CAS9 蛋白切斷的 DNA 分子。
圖:剪刀一樣的 CAS9 蛋白(橙色),緊緊地夾着 DNA(綠色)
由於蛋白質常常有着與功能匹配的三維構造,讓玩家們興趣盎然。蛋白質摺疊遊戲 Foldit 一上線就火了。一個個的蛋白質拼裝任務,被海量的玩家一一攻破。在 Foldit 官網的論壇上,還有玩家留言說:“下一個任務什麼時候出?希望有點兒難度纔有挑戰性。”
要知道,玩家破解的這可不是什麼設計出來的遊戲任務,那是一個又一個難度極高的蛋白質結構分析工程。用大衛·貝克自己的話說,當時這款遊戲產出的科研成果,可以讓他的團隊寫論文都寫到手軟。
2011 年,大衛·貝克發表了一篇關於猴類艾滋病毒相關蛋白結構解析的重磅文章。這也是遊戲 Foldit 的功勞。這個蛋白的結構已經困擾了全世界研究者 15 年之久,但是,這個任務發到 Foldit 上之後,僅僅 10 天就宣告破解。連早已習以爲常,論文寫到手軟的大衛·貝克本人都大感震驚。這就是羣衆的力量。
猴類艾滋病毒相關蛋白
當然,大衛·貝克並沒有忘記一邊遊戲一邊幫助他搞科研的遊戲玩家們。爲了感謝玩家們的集體貢獻,他專門寫了一篇論文發表在《自然》雜誌上。論文的名字就叫《通過多人在線遊戲預測蛋白質結構》。在論文作者一欄裡赫然寫着:超過 57000 名 Foldit 玩家。這回玩家可高興了,免費玩兒了這麼有趣的遊戲,幫助了科學研究,還順便成了成了頂級科學期刊的論文作者。這真是一舉三得贏麻了呀。
不過,你可以別以爲從蛋白質的三維結構推導出氨基酸的序列是一件容易的事情。其實在過去很長一段時間裡,人類都是通過給蛋白質結晶體拍攝 X 光衍射圖像,再根據衍射圖案反向倒推出蛋白質結構的。這種方法雖然理論上可行,但實際上會受到很多方面因素的影響,而且實際實驗精度也不高。所以在 1994 年之前的三十年間,人們已知結構的蛋白質總類只有幾百種而已。
實驗室中確定結構的蛋白質數量隨時間的變化
當時,想要弄清楚一個蛋白質的三維結構,唯一的辦法只能是耗費巨大的人力、物力,用大量的重複實驗,通過觀察、思考、假設、驗證的循環模式一步一步逼近一個蛋白質結構的真相。而且,這事兒並不是勤奮刻苦就能出成績的,因爲解析結構的過程是否順利有很大的運氣成分。運氣不好的時候,重複個上千次實驗都有可能出不來結果。因此,每解析一個蛋白質結構,通常的成本在幾萬到幾十萬美元之間。
那麼,1994 年到底發生了什麼呢?原來,從 1994 年開始,誕生了一個名叫 CASP 的蛋白質三維結構預測大賽。這場大賽每兩年舉行一次,每次都有來自全世界的超過 100 個研究團隊參加。研究蛋白質的科學家都會把贏得大賽當作蛋白質研究領域的至高榮譽。
CASP逐年預測蛋白質結構的得分
大衛·貝克作爲預測和設計蛋白質結構算法的專家,自然每次都會去參加 CASP 大賽,也多次取得過不錯的成績。用於從頭預測蛋白質結構的 Rosetta 算法,以及志願者利用計算機空閒時間就可以參與預測計算的分佈式蛋白質預測項目Rosetta@home 都是大衛·貝克的團隊在這段時期開發出來的。
2018 年 12 月,第 13 屆 CASP 大賽的桂冠被一個名叫 AlphaFold 的人工智能程序摘得。這一下子就成了生物學界的頭條新聞,因爲之前參賽的算法很多,但是從來沒有過人工智能程序來 CASP 參賽。而且還一舉奪冠。
2020 年 11 月,第 14 屆 CASP 大賽的桂冠再次被同一支參賽團隊奪走,只不過,這一次他們參賽的版本是 AlphaFold2。這次比賽,AlphaFold2 的成績與第二名呈現出斷崖式的巨大差距。他們的得分達到了驚人的 92.4 分,而上一次奪冠時,它的得分還不到 60 分。這種進步的速度實在令人震驚。AlphaFold 預測的蛋白質結構已經非常接近於真實實驗做出來的結果,人類離計算機攻克蛋白質摺疊問題只有一步之遙。
設計了 AlphaFold 的不是別人,正是因爲開發出人工智能圍棋程序 AlphaGo 而聞名的人工智能公司 DeepMind,而我們本屆諾貝爾化學獎的另外兩名獲獎者德米斯·哈薩比斯和約翰·詹珀,正是 AlphaFold 開發團隊中的兩位核心科學家。
故事講到這裡,相信你也理解了本屆諾貝爾化學獎的前因後果。計算機科學家的連續獲獎並非偶然。在科學探索的道路上,跨學科的合作正變得越來越重要,而數據、算法和人工智能驅動的研究正在成爲趨勢。
大衛·貝克、德米斯·哈薩比斯和約翰·詹珀的工作展示了計算機科學與生物學的結合如何推動了我們對生命的理解。通過將人工智能的力量引入到蛋白質結構預測中,他們不僅解決了長久以來困擾科學家們的難題,也爲藥物設計、疾病治療以及生物工程等領域開闢了新的可能性。
很顯然,我們現在就生活在一個新舊時代交替的節點上。一個由數據驅動、由算力支撐,由人工智能推動的新時代就在眼前。在這個時代裡,傳統的實驗室工作與先進的計算方法相輔相成,共同推進着科學研究的進步。正如大衛·貝克所展示的那樣,即使是看似遙不可及的問題,也有可能通過創新思維和技術革新找到答案。而這一切纔剛剛開始。