AWS上海人工智能研究院推動研發的DGL圖神經網絡框架已在Amazon SageMaker上推出
我們高興地宣佈,Deep Graph Library (DGL) ——一個便於部署圖神經網絡的開源框架——在Amazon SageMaker上推出啦。
近年來,深度學習席捲世界,各種原因是它具有從複雜數據(如自由格式的文本、圖像或視頻)中提取複雜模式的神奇能力。但是,許多數據集不符合這些類別,更適合用圖或者說網絡來表示。很自然的,我們能夠意識到傳統的神經網絡架構,如卷積神經網絡或循環神經網絡,並不適合這樣的數據集,需要一種新的方法。
圖神經網絡入門
圖神經網絡(GNN)是當今機器學習中最令人興奮的進展之一,以下參考論文有助於您開始學習。
1. 還有更多!
大多數時候,這些數據集非常大,有標記的只有一小部分。例如在欺詐檢測場景中,我們分析某些用戶與已知欺詐者的關係,預測他們是否是欺詐參與者的可能性。這一問題可以定義爲半監督的學習任務,也即只對其中一小部分圖節點進行標記(’欺詐者’或’合法’)。這樣的解決方案,勝過構建手工標記的大型數據集、對它進行"線性化"以便使用傳統的機器學習算法。
解決這些問題需要領域知識(例如零售、金融、化學等)、計算機科學知識(Python、深度學習、開源工具)和基礎架構知識(訓練、部署和模型擴展)。然而很少有人掌握所有這些技能,所以就需要DGL圖神經框架和Amazon SageMaker這樣的工具。
DGL圖神經框架介紹
DGL圖神經框架於2018年12月在Github上發佈,它是一個開源的Python框架,可幫助研究人員、數據科學家和科學家在其數據集上快速構建、訓練和評估圖神經網絡。
DGL建立在流行的深度學習框架(如PyTorch和Apache MXNet)之上。如果您知道其中一個或兩個,你會發現得心應手。我們沒有忘記TensorFlow的粉絲:DGL的下一個小版本將增加對TensorFlow的初步支持,預計下一個大版本將完全支持。
無論使用哪個框架,您都可以藉助這些適合初學者的示例輕鬆入門。我還發現 GTC 2019研討會的幻燈片和代碼非常有用。
完成簡單示例之後,您可以開始探索在DGL中已經實現的一系列前沿模型。例如,您可以使用圖形卷積網絡(GCN)和CORA數據集,訓練文檔分類模型:
$ python3 train.py --dataset cora --gpu 0 --self-loop
所有模型的代碼都可以檢查和調整。AWS團隊對這些實現方法進行了仔細驗證,驗證了其性能,確保可以重現結果。
DGL 還包括一系列圖數據集,您可以輕鬆地下載和試驗這些數據集。
當然,您可以在本地安裝和運行DGL,但爲了讓用戶有更簡單、流暢的體驗,我們將其添加到PyTorch 和 Apache MXNet深度學習容器中,這使得在Amazon SageMaker上使用DGL更方便,便於規模化訓練和部署模型,無需管理單個服務器。
藥明康德 (WuXi AppTec) 是一家全球性的製藥和醫療器械服務公司。開發一款新藥是一個複雜、昂貴、漫長的過程,通常要花費26億美元,平均需要12年。爲了加快這一過程,藥明康德的計算機輔助藥物設計(CADD)團隊一直在探索神經網絡模型,以預測候選藥物分子的藥物特性。使用傳統的方法,科學家們要花幾個星期甚至幾個月的時間來構建和驗證模型、設置應用模型所需的計算資源。DGL和Amazon SageMaker爲科學家提供了快速部署藥物特性預測模型的解決方案,將建模時間縮短了5倍,從而加快了藥物開發過程。
Bio-Techne是一家全球性的生命科學和診斷公司,爲世界各地的研究人員和臨牀醫生提供服務。公司的產品有超過50萬種,包括高質量的試劑、儀器、臨牀控制,以及組織和液體活檢診斷測試等。以高效而有意義的方式向其廣泛的客戶組織和推薦產品,變得至關重要。Bio-Techne數據實驗室正在與 AWS 協作,積極測試圖神經網絡(GNN)的使用,以改進其當前的推薦算法。DGL 通過簡單易用的 API ,簡化了實現,將開發時間從幾個月縮短到數週。BioTechne的評估結果表明,使用 DGL 實現的、基於GNN的推薦模型得出的Top 10推薦,其精度比非GNN模型提高了70%。Bio-Techne將繼續優化這些模型、正式使用 DGL和Amazon SageMaker部署推薦算法。
DGL的研發由2018年底成立的AWS上海人工智能研究院推動,與美國帕洛阿爾託的MXNet科學團隊密切協作完成。
###