OpenAI研發 GPT - 4b micro 新模型或將改變生物醫療領域的未來

山中因子(Yamanaka factors)是一組蛋白質,由諾獎得主山中伸彌在2006年提出,包括Oct4、Sox2、Klf4和c - Myc共4種因子,又稱OSKM。在胎兒發育過程中,山中因子起着極爲關鍵的作用。

胎兒的生長髮育是一個極其複雜且精細的過程,各類細胞需有序地分裂、分化、遷移以及發生形態結構的特化等。山中因子在這一系列過程中的意義在於,它似乎如同一個“指揮中樞”角色的生物信號啓動者。以幹細胞來說,在胚胎髮育早期,幹細胞具有一種“全能性”,也就是它們能夠分化成身體內幾乎所有類型的細胞。山中因子能夠參與維持胚胎幹細胞的這種多能性狀態,確保幹細胞可以朝着各種不同的細胞命運發展,例如分化形成神經細胞、肌肉細胞、血細胞等各種類型的組織特異細胞,進而構建起胎兒身體的各個部分體系。

同時,山中因子還關聯到細胞間的相互作用協調。在胎兒發育期間,細胞並非是各自爲戰,它們之間存在着繁複的信號傳導、物質交換等相互作用的網絡關係。山中因子可以影響細胞之間的通訊機制,保證整個細胞羣體以一種協同的方式發育。假設在正常的神經發育場景中,山中因子可能參與到神經幹細胞和周圍細胞(如神經膠質細胞前體細胞等)之間的平衡調節。倘若山中因子的表達或者功能出現異常,很可能會引發胎兒發育的一系列問題,例如發育畸形、器官形成障礙等。

OpenAI開發了名爲GPT - 4bmicro的人工智能模型來精準設計山中因子。這一模型與其它相關模型(如用於預測蛋白質結構的AlphaFold)工作原理存在不同,是專門爲處理這類蛋白質而構建的,主要因爲山中因子本身結構比較鬆散。

在設計過程中,OpenAI採用了大量物種的蛋白質序列實例以及蛋白質相互作用相關信息作爲GPT - 4bmicro模型的訓練素材。Retro的科學家運用了類似於“few - shot”的提示方式來引導模型產生可能的山中蛋白質重新設計方案,即向模型提供一系列帶有答案的示例作爲上下文提示,接着加入一個待模型生成答案的新示例來指引模型向生成符合需求的山中因子設計方案前行。

雖然傳統的基因工程師在實驗室中能夠採用特定的方法引導分子的進化,但往往受限於實驗條件,只能測試數量相當有限的可能性。然而對於典型長度的蛋白質而言,理論上的改造方式卻近乎無限。GPT - 4bmicro模型卻能夠經常性地生成包含顯著改動的設計建議,在對山中因子進行設計時,甚至能夠改變蛋白質中三分之一的氨基酸組成。模型提出的設計建議經過實際的實驗室驗證確實表現十分優異,能夠對山中因子進行有效的優化和改造,例如在將普通細胞轉化爲幹細胞的能力上得以大幅提升,遠超原始的山中因子的功效,如此便實現了對山中因子的精準設計。

成熟細胞重返年輕態就是將已分化、功能形態較爲固定、呈現出衰老特徵(如細胞分裂能力下降、新陳代謝減緩、細胞損傷物質積累之類特徵)的細胞逆轉變成類似幹細胞狀態。實現這一過程涉及細胞重編程的機制。

首先,細胞內部是遺傳信息的“大本營”,山中因子在這一場景下進入成熟細胞後可以和細胞內的許多基因啓動子等調控元件發生相互結合作用。以這一結合爲起始點,那些在成熟細胞中原本已經關閉或者表達量極低(因爲特定的分化程序關閉了相關基因,例如肌肉細胞中與神經細胞功能相關基因就處於關閉狀態)的基因將重新被開啓或者表達量得以調整,從而逐步改變細胞的基因表達圖譜。

順着這個方向深入理解,隨着細胞內特異性基因表達程序發生改變,細胞內的代謝狀態也會相應地受到影響,這就如同車轍路線改變之後,沿着車轍前行的車身(對應細胞)的行進情況(對應細胞功能狀態)也會發生變化。從代謝層面看,各種代謝途徑的活性會發生重調,比如與細胞分裂相關的能量代謝和物質合成代謝從衰老細胞的抑制狀態開始逐步被調動到活躍起來。

從細胞的表觀遺傳角度考慮,細胞內的DNA甲基化狀態、組蛋白修飾狀態等這些與基因表達密切相關的表觀遺傳標記也會被山中因子擾亂原有狀態。例如原本高度甲基化抑制基因表達的某些區域可能發生去甲基化,使得曾經沉默的基因“開口說話”。形象地說,細胞剛剛生成的時候是一張白紙(自身是幹細胞狀態沒有太多特定的功能和結構限制),隨着發育和分化在白紙上做了很多標記(對應各種表觀遺傳修飾等特殊指令,引導細胞往獨特的細胞功能身份進化),現在山中因子像是橡皮擦的角色,擦去一部分標記重新讓一些功能模塊可以發揮,細胞從而朝着年輕態幹細胞那樣有廣泛分化潛能的方向轉變,最終實現成熟細胞重返年輕態的神奇效果。

OpenAI開發出的GPT - 4bmicro模型顯著地提高了山中因子蛋白質的生產效率。之前,在常規的實驗室環境下細胞重編程的效率一直處於極低水平,例如細胞重編程整個過程往往需要數週的時間,而且在實驗室裡培養的細胞中通常只有不到1%能夠成功完成這種逆生長的轉變,這意味着山中因子的工作效率極爲低下,轉化生成幹細胞的數量極低。

GPT - 4bmicro模型採用大量物種的蛋白質序列實例以及蛋白質相互作用相關信息對模型進行訓練,它以一種極爲特殊的、適合處理山中因子這種結構鬆散蛋白質的技術邏輯來構建模型,這種專門化的構建以及針對性訓練素材的使用方式有助於提升模型對山中因子特性的把握以及優化能力。

在模型的運作方式方面,通過“few - shot”提示方式引導模型聚焦于山中因子蛋白質結構優化,模型可以在極爲廣袤的蛋白質結構可能性空間中搜索較優解。以一個類比來解釋,就像是在衆多錯綜複雜的迷宮通路(代表蛋白質的無數種可能設計結構)中更合理地找到出口(代表符合高效功能需求的山中因子蛋白質結構)。一旦模型生成了相關的優化設計建議,在現實實驗室環境下,科學家依據其建議對山中因子進行改造後,從初步的測量結果來看,效果提升了50倍以上,有效地提升了山中因子蛋白質的生產效率,更高效地將普通細胞轉化爲幹細胞。

在當下,有關山中因子的研究中,OpenAI與RetroBiosciences的合作成果顯著。他們通過人工智能(GPT - 4bmicro模型)深入參與到山中因子的研究裡。

首先是AI參與設計山中因子這一突破性事件,AI在生物技術領域出現這種創新的應用,改變了傳統上依賴人工經驗和較爲有限的實驗室探索模式。其設計出的山中因子新蛋白質成功地讓幹細胞生產效率提升了多達50倍,意味着在將普通細胞轉化成爲幹細胞這件事上人類有了更高效的“工具”。

這種能夠促使成熟細胞重返年輕態的山中因子研究成果爲再生醫學開拓新的邊界。特別是在器官創造方面,如果能夠高效地利用山中因子相關成果在體外進行細胞的重編程構建有機組織,這會爲缺乏器官供體的衆多患者帶來新希望。在治療應用前景上看,像糖尿病、心臟病等這類曾經被視爲難以治癒的疾病也可能借助山中因子這個突破口找到治癒的可能路徑,因爲可以設想利用山中因子將患者已有的細胞經過重編程轉化爲健康的可以起正常生理功能的細胞類型,替換那些疾病引發功能異常的細胞似乎變爲可行的治療思路。

並且從AI角度來看這一合作項目,過去AI研究領域較少深度觸及生物學蛋白質因子這樣結構鬆散且傳統研究方式比較受挫的對象,而如今這種新的嘗試也爲AI技術在生物領域進一步滲透,開發專門針對生物醫學特殊結構數據和處理任務提供全新的思路和實踐經驗,是一種學科交叉融合的典範。近期研究在改變細胞命運這一關鍵技術能力的提升上實現了巨大的飛躍,它還爲後續更多疾病治癒願景、衰老幹預策略、再生醫療深入革新等多個研究大方向奠定了紮實的基石,當然整個成果距離大量實際應用還有一段路要走,不過從研究進展角度來說是具有劃時代意義的。