科學家實現多項單細胞多組學分析算法的系統性評估

來源:媒體滾動

近日,中國科學技術大學生命科學與醫學部教授瞿昆課題組、數學科學學院教授陳發來課題組以及北京生命科學研究所研究員黎斌課題組合作完成了一項成果。該團隊分析了百萬量級單細胞多組學數據,系統評估了14種單細胞模態預測算法和18種單細胞多組學整合算法的性能。相關研究成果以Benchmarking algorithms for single-cell multi-omics prediction and integration爲題,在線發表在《自然-方法》(Nature Methods)上。

單細胞多組學技術的發展,爲探索細胞功能和複雜的基因調控機制提供了機遇。然而,溼實驗方法通常面臨着高成本、數據質量有限及批次效應等挑戰。爲克服這些侷限,生物信息學家基於統計模型和人工智能技術,開發了多種算法。這些算法能夠利用單細胞轉錄組數據推斷同一細胞內的蛋白質丰度和染色質可及性信息,並通過將不同模態的數據映射到統一的特徵空間實現數據整合以去除批次效應。這些工具提升了現有單細胞數據的解析能力。然而,面對海量數據和衆多算法,科研人員往往難以判斷哪些工具最適合他們的研究工作。因此,對這些算法進行基準測試尤爲重要。

該研究收集了47個數據集的上百萬個單細胞多組學數據,涵蓋多個生物樣本和實驗平臺。研究設計了一套全面的評估流程,結合算法的準確性、魯棒性和計算資源消耗等多維度指標,評估了領域內的常用算法。結果顯示,在蛋白質丰度預測方面,totalVI和scArches表現最優異;在染色質可及性預測中,LS_Lab算法排名領先;在多組學整合分析中,Seurat、MOJITOO和scAI在垂直整合上表現突出,而totalVI和UINMF在水平整合和馬賽克整合任務中展現出優異性能。該工作爲算法設計提供了新思路,併爲未來多組學數據的分析和應用奠定了基礎。同時,爲幫助科研人員選擇合適的分析工具,該團隊在GitHub上發佈了完整的分析流程、代碼和測試數據集,以供同行使用和改進。

進一步,科研人員探討了這些算法的數學原理,發現了降噪處理是提高單細胞數據預測精度的關鍵。在性能評估中,機器學習算法以及基於概率模型的深度學習算法表現出優勢。同時,研究提出,現有模態預測算法在某些關鍵蛋白的預測性能上有待提升,染色質可及性預測的準確性需要進一步優化。

研究工作得到國家重點研發計劃和國家自然科學基金等的資助,並獲得中國科大超級計算中心與生命科學學院生物信息學中心的計算資源支持。