打造OpenAI GPT超算:微軟雲上生成式AI創新

這是微軟Azure首席技術官Mark最近在一次斯坦福大學研討會上的演講內容。全面介紹了微軟azure如何在雲端企業級實現生成式AI模型(特別是OpenAI gpt)訓練推理的優化和創新。很多內容應該都是首次公開披露。

Mark是微軟全球企業級雲平臺的負責人,也是分佈式系統、操作系統和網絡安全領域的專家。他在卡內基梅隆大學獲得了計算機科學博士學位,並與他人共同創立了Winternal Software,後來加入Microsoft。

在研討會上,Mark深入講解了Microsoft的AI架構,包括訓練基礎模型的超級計算機以及有效服務於預訓練和微調模型的基礎設施。他還探討了人工智能研究趨勢和人工智能機密方面的機會。

講座的視頻完整版:

Mark強調,微軟並不僅僅是一個提供NVIDIA硬件或OpenAI人工智能模型的商店,而是與其他人工智能公司建立了合作伙伴關係,併爲他們的模型提供一流的服務,爲微軟的客戶以及他們在Azure上提供的服務。

此外,Mark還介紹了Project Forge,這是微軟的資源管理器,用於跨GPU和其他加速器進行調度。Project Forge的目標是,微軟能否在具有工作負載意識的情況下有效管理基礎設施,以提高訓練和推理的效率。首先,通過全球調度程序Project Forge,可以全球查看GPU容量,根據工作負載的限制有效地放置工作負載。其次,Project Forge專注於無服務器AI,允許用戶訪問虛擬GPU和虛擬集羣,而不是特定類型的GPU。這種方法打破了傳統的碎片化問題,提高了GPU的利用率。

此外,微軟還提出了一種名爲Splitwise的方法,將計算任務分解爲提示服務器、處理服務器和生成服務器,以提高效率。另一個項目,Project Flywheel,通過將大提示分解爲小塊並與生成處理交織在一起,實現了可預測的吞吐量和線性規模。

微軟還提供了一種名爲LoRa的微調方法,它通過創建額外的權重(稱爲微調適配器)而不是觸碰預訓練的模型,來進行微調。這種方法減少了訓練所需的GPU數量,降低了檢查點的大小,並縮短了模型切換的時間。

最後,微軟創建了一種名爲多LoRa微調服務的服務,可以在同一GPU上加載數十到數百個適配器,從而在同一GPU上爲數百個企業客戶定製模型提供服務。延遲測試比較了預先訓練的LoRa與數千個LoRa的延遲,發現無論是GPT-3.5的完全微調模型,還是在基準測試中隨機測試的一千個模型,他們的延遲都是相同的。

介紹在人工智能科學領域進行研究,提出了一個問題:語言模型可以很小但仍然很強大嗎?研究員提出了一個假設,即我們是否可以測試數據的質量對模型的影響?他們創建了一個非常小的模型,大小隻有幾百兆字節,但它可以生成連貫的兒童故事。

一個研究方向是可否通過關注非常高質量的面向推理的數據,讓模型很好地推理。研究表明,這種方法是有效的。PHi項目使用了由GPT綜合生成的高質量教科書數據。PHi2模型在與推理相關的人工智能的不同知名行業基準上表現優秀,甚至超過了一些大型模型。

正在探索的另一個研究方向是視覺模型是否也可以被縮小。COSMOS模型,它擁有60億多的參數,能夠通過高質量的數據,在小模型中得到很好的推理。

Mark還介紹了個人的人工智能研究,包括如何使用GitHub Copilot改變編程方式,以及一個專注於人工智能遺忘的項目,即讓大型語言模型忘記一些東西。

最後提到了機密人工智能的重要性,因爲未來的計算不僅僅是機密計算,而且機密人工智能是人工智能的未來。

==以下是講座的天空之城書面版=

我們今天要介紹的是我們的演講者Mark,他是Microsoft Azure的CTO和技術研究員。他是微軟全球企業級雲平臺的負責人,是分佈式系統、操作系統和網絡安全領域廣泛認可的專家。Mark在卡內基梅隆大學獲得了計算機科學博士學位,後來與他人共同創立了Winternal Software,並於2006年加入Microsoft,當時該公司被Microsoft收購。他撰寫了多本非小說類和小說類書籍,包括Microsoft Press、Windows、Internals叢書、Sysinternals工具故障排除,以及虛構的網絡安全驚悚小說《零日》、《俄羅斯之馬》和《Rogue Code》。

然而,在今天的研討會中,我們將與Mark一起深入瞭解Microsoft的AI架構,包括訓練基礎模型的超級計算機以及有效服務於預訓練和微調模型的基礎設施。他還將探討人工智能研究趨勢和人工智能機密方面的機會。

Mark:

大家好,感謝您邀請我來斯坦福大學做演講。幾年前,我曾去過斯坦福一次,很高興能回來並受邀來這裡演講。這是我第一次在斯坦福大學演講。正如艾哈邁德所說,我在卡內基梅隆大學獲得了計算機工程博士學位。斯坦福大學也是一所非常好的學校,所以來到這裡真的很棒。

現在,我想今天早上要和大家討論的是我們在Azure和整個Microsoft中使用人工智能所做的事情,更多的是我們在人工智能方面所做的技術基礎,以及只是爲您提供艾哈邁德提到的不同領域的重點內容。有點技術性,但不是太技術性,只是爲了讓您瞭解我們正在嘗試突破極限的工作。我認爲,我們需要明確的是,人工智能研究,尤其是純粹的人工智能研究,與將產品投入生產是兩個完全不同的概念。我們的客戶主要是企業級客戶。因此,正如艾哈邁德所提到的,Azure 是一個面向企業的平臺。我們向企業銷售服務,因此,我們的任務就是將科學應用於企業,包括企業級運營。這是我們需要牢記的重要事項。

正如許多人所知,試圖將研究中的某些成果應用於工業生產和銷售,往往並非易事。這也是在像微軟這樣的公司工作的樂趣所在。

現在,爲了概括整個情況,毫無疑問,人工智能在過去15年裡確實經歷了爆炸性的增長。這在很大程度上是由雲計算的力量推動的,包括無處不在的GPU和雲提供的按需計算。我們已經看到了人工智能模型能力的崛起。這只是一個圖表,雖然已經有幾年了,但你可以看到我們期望人類在許多不同領域的能力,多年來,人工智能一直是最先進的,但現在人工智能已經匹配或超越了它。如果你看不懂這個圖表,手寫識別、語音識別、圖像識別、閱讀,所有這些不同的領域都已經被人工智能所掌握。正如我所說,真正推動這一點的是無處不在的按需計算的興起。

你可以在這裡非常清楚地看到,多年來,隨着模型大小的增長,功能也有了相應的提升。最近,你可以在右上角看到,儘管我們在上週看到了最新版本,但前沿模型仍然被認爲是最先進的。OpenAI提供的GPT-4模型的大小尚未公開,但我們知道,它比這張幻燈片上的最小模型大很多數量級。這些模型早在2018年就出現了,就在幾年前。OpenAI是一家與我們密切合作的公司。

許多人可能都知道,微軟和OpenAI已經合作多年。這種合作關係的基礎是我們提供的人工智能計算基礎設施。當我們開始與OpenAI討論時,他們的一個主要目標就是實現通用人工智能。他們認爲,規模對於實現這一目標至關重要。他們需要一個基礎設施提供商能夠在他們需要的時候爲他們提供所需的規模。我們致力於爲他們提供這樣的規模,我們首先爲他們創建了一臺定製的AI超級計算機來訓練GPT-3。

這臺超級計算機,我們以全面生產的方式交付給他們。我們通常會在這些超級計算機上線時分批交付它們,我們將它們交給OpenAI。完整的超級計算機已於2020年交付,當時我們估計,如果我們將該超級計算機的基準提交給超級計算機500強基準,那麼我們將成爲世界第五大超級計算機。我說的不僅僅是在公共雲中,而是在世界任何地方。

就人工智能而言,2020年已經是很久以前的事了,而我們仍在繼續構建下一代超級計算機。一個訓練了GPT-3的訓練,我們可以提供另一訓練GPT-4的訓練。我們正在構建一個用於訓練下一版本GPT模型和其他大型模型的模型。

去年年底,我們在超級計算機的一小部分上進行了實際生產的top 500運行,我們仍在爲下一代OpenAI模型構建超級計算機。這個是14,400個H100 GPU,這是NVIDIA最新一代的GPU。我們在全球最大的超級計算機中排名前三、第三。在全球任何地方的本地或公共雲中,我想強調的是,我們正在構建的系統只是一小部分,我們仍在爲其進行構建。現在,我得到了分享已完成系統規模的許可,雖然我能分享的信息並不多,但我可以告訴你,14,400個GPU只是這個更大系統的一小部分。我們已經開始構建和設計系統。值得一提的是,設計這些系統所需的不僅僅是擁有這些GPU的服務器,而是包括數據中心在內的整個系統,而且不僅僅是一個數據中心,而是多個數據中心。這就是這些超級計算機的規模。

另外,我想提到一個很棒的基準,它顯示了基礎設施在加速人工智能方面的進步。如果你從2023年3月開始查看,你會看到H100 MLPerf基準測試。這是另一個基準。BERT 3.5億參數模型訓練最快只需5.4分鐘。截至去年11月,GPT 3的訓練記錄達到了1750億個參數模型,明顯更大。但你可以看到從三月下旬到去年年初的時間裡,儘管我們在參數方面提高了幾個數量級,但在總時間方面卻下降或基本上只增加了一倍。我們在OpenAI超級計算機的一小部分上進行的運行,我們訓練GPT 3只需四分鐘。這是在1300 ND H100 V5虛擬機上進行的。我將在一分鐘內向您展示該虛擬機的樣子,但每個虛擬機都有八個GPU。這是本次訓練中使用的1300個GPU的八倍。這是我們向OpenAI提供的虛擬化計算。

這些虛擬機都直接連接GPU。我們同時向MLPerf提交了NVIDIA的裸機運行,該運行在3.92分鐘內完成。因此,我們只需爲運行OpenAI的虛擬化基礎設施的彈性和安全優勢支付2%的性能開銷。正如我所說,其秘訣在於系統設計。系統設計的一部分是定製後端,這確實是OpenAI感興趣的首要原因。我們爲這些GPU定製了後端,將它們連接在一起。這是InfiniBand網絡,因此原始超級計算機上大約1.5微秒的延遲在它們之間建立了100個千兆位連接。這些最新的服務器之間有400GB連接,並且這些連接完全連接到OpenAI超級計算機中的所有服務器,甚至跨數據中心。

這是對虛擬機的觀察,因爲我想在這裡提出的另一個有趣的觀點是OpenAI正在超級計算機上進行訓練。OpenAI訓練的內容與我們向像您這樣的客戶和企業客戶提供的內容之間的唯一區別是InfiniBand後端網絡的規模。就他們而言,這些網絡跨越多個數據中心。就我們的公共集羣而言,有幾千臺服務器,因爲我們大多數客戶沒有像OpenAI這樣的超級計算機需求。但除此之外,它是完全相同的虛擬機、完全相同的服務器、完全相同的GPU和完全相同的InfiniBand網絡。

這是其中的一張圖片,因爲我知道我們都喜歡看真實硬件的圖片。以下是OpenAI超級計算機系統中一些機架背面的照片。您可以看到InfiniBand電纜,以及從後面引出的青色淺藍色電纜。其中一個托盤被拉開,您可以看到托盤中放置了8個H100 GPU。

然而,我們的工作並不僅僅專注於NVIDIA硬件。我們也與AMD保持緊密的合作關係,我們在公共雲中提供AMD MI300X GPU,並且我們正在開發自己的芯片。在去年秋末,我們宣佈了我們正在開發的Maya100定製加速器。我們已經從如何運行AI的生產客戶工作負載中汲取經驗教訓,並將這些知識構建到這些AI加速器中。

Maia100是一個由1050億個5納米部件組成的設備,是有史以來晶體管數量最多的部件之一。作爲對比,H100大約有800億個晶體管。現在,我想向您展示一個關於這個系統的小視頻。

這是我們的探針板,我們可以在其中探測部件上的連接,這是我們測試SoC的啓動板。您可以看到,這看起來就像我大學時期炎熱夏天的宿舍,擁有衆多的風扇。雖然這看起來並不複雜,但當你開始啓動並運行設備時,基本的硬件設計在實驗室中看起來是真實的。現在生產的Maia系統看起來就像這樣。

這是一個機架,機架的一半是Maia加速器及其多臺服務器,機架的另一半是我們所說的sidekick。這代表了雲計算和液冷的未來。我們確定液體冷卻是迄今爲止冷卻這些設備的最有效方法,特別是當您獲得這些設備更高的TDP或熱特性時。僅GPU或加速器就可以消耗數百瓦的功率,大量的熱量需要消散。高效實現這一點並最大限度地減少數據中心佔地面積的方法是採用液體冷卻。我們還認爲您實際上也可以節省電力,而且它確實節省了水。這是一個封閉的系統。我們可以將它與此處的sidekick一起放置在任何數據中心,這樣我們就可以對任何數據中心進行液體冷卻。

我們還在致力於設計公用水冷數據中心,從外部取水並將其引入來冷卻這些服務器。這是Maia 100板的外觀。我想強調的一點是,我們已經將這些連接器連接到這些加速器中,這些加速器可以帶來電力、網絡和水。如果我們打開其中一個並取下蓋子,您會看到進入加速器頂部座位的進水口和出水口。這就是我們如何設計完全端到端的系統,包括它們如何連接到數據中心以及如何將水和其他服務引入加速器。

然而,正如我提到的,我們的願景不僅僅是將我們的客戶或我們自己鎖定在一組特定的加速器中。事實上,我們認爲有很多不同的加速器會有用。我提到了AMD、NVIDIA和我們自己的加速器,可能還有其他的。我們的目標是儘可能地抽象,同時不犧牲效率和性能。

因此,我們一直在Triton上與OpenAI密切合作,這是一個用於創建內核並能夠針對不同類型的加速器而不會犧牲性能的庫。事實上,這就是OpenAI工程師編寫自定義內核的方式。他們可以針對NVIDIA的CUDA,但他們也可以採用相同的內核,然後針對AMD的RockM。因此,我們堅信未來的發展方向,並且我們正專注於這個未來。從像ONNX Runtime這樣的抽象硬件庫,到我們與OpenAI合作的Triton內核設計,我們都在爲此努力。我想通過一個快速的演示向您展示這一切是真實存在的。

這是Visual Studio代碼。我想知道,有多少人在使用Visual Studio Code?看來在場的很多人都在使用。我們可以創建自定義的Copilot連接。這是一個Maya SMI,它與NVIDIA SMI類似,可以顯示我們實際上有四個加速器。然後,我將GitHub Copilot配置爲指向這個Maya設備。

這是運行GPT-3的一個示例。此時,Copilot的狀態爲5 Turbo,您可以看到我正在對Copilot進行完成操作。在某個Python(實際上是一個大型完成)的正上方,您可以看到進入Maya加速器的流量。您可以看到那裡有一個峰值,這是因爲它正在處理該提示並生成響應。

現在,我將向您介紹我們是如何對軟件進行分層並在這些加速器之上進行資源管理的。我認爲,很多人誤以爲我們只是從OpenAI獲取這些模型,然後將它們放入我們的基礎設施中,併爲人們提供一個直接連接到它的端點。但實際上,情況並非如此。

從底層的基礎設施,到客戶的API以及客戶用來訪問這些模型的服務,我們都進行了大量的創新。這是Microsoft Copilot堆棧的橫截面視圖,其中大方框代表重要的子系統。所有這些都協同工作,以提供類似Microsoft Copilot的功能。

它從我們的硬件基礎設施開始,然後有一個名爲Project Forge的項目來管理這些服務器並在此之上提供工作負載資源管理,我稍後會詳細介紹。然後,您可以看到有一個推理託管運行時,其中包含大量的遙測和硬件運行狀況。

接下來,您可以看到我們與OpenAI共同設計的堆棧。這就是模型所在的位置:模型副本、鍵值提示緩存、准入控制界面以及可讓您直接訪問放置在基礎設施中某處的模型實例的API。當涉及到將模型放置在基礎設施中時,我們有模型池來跟蹤模型的不同版本。

我們在管理存儲、網絡和計算的不同服務之間提供了跨租戶路由。然後我們提供了最重要的服務,例如爲已進入Microsoft 365 Copilot並具有某些SLA的客戶提供的API,以及對批量和在線服務的推理的不同類型的使用。

因此,要真正將這些東西投入生產,需要做很多工作。關於這個堆棧,我想強調一點,微軟並不只是一個提供NVIDIA硬件或OpenAI人工智能模型的商店。我們與其他人工智能公司建立了合作伙伴關係,併爲他們的模型提供一流的服務,以便爲我們的客戶以及他們在Azure上提供的服務提供支持。

例如,我們與Meta建立了合作伙伴關係,我們在Azure內提供他們的Llama系列模型作爲託管服務。然後,有多少人看到了我們上週與Mistral的聲明?法國公司Mistral推出了一款新的前沿車型,名爲Mistral Large。目前,Azure是Mistral Large的獨家提供商。OpenAI雲不僅僅是一個雲服務。現在,我們有一個名爲Project Forge的資源管理器,它用於跨GPU和其他加速器進行調度。Project Forge實際上是由我的CTO辦公室孵化出來的服務,並於去年初在Azure機器學習團隊中投入生產。

Project Forge的目標是,我們能否在具有工作負載意識的情況下有效管理基礎設施?在人工智能領域,我們需要了解訓練工作的性質以及我們的模型是什麼。因此,Project Forge從根本上將這些概念內置於訓練和推理中。

有效管理基礎設施涉及許多複雜性,例如模型推理,因爲你有不同版本的模型。你必須在客戶對特定GPU的請求之間保持粘性。你還必須管理容量池。

在訓練方面,我們想要解決的問題之一是如何使訓練使用GPU在Microsoft內部進行,以提高我們的客戶的效率。我們使用一種稱爲全局調度程序的工具來實現這一目標,它不是按集羣、數據中心或區域查看GPU容量,而是全球性地查看它。

因此,Project Forge瞭解我們在全球所有地區擁有的所有GPU容量。這使得它能夠根據其限制有效地放置工作負載,例如,如果工作負載必須在美國運行,它將在美國任何有可用容量的地方運行。如果工作負載必須在歐洲運行,它就會在歐洲運行。

Project Forge可以做出最密集地使用該容量的決策。它還專注於無服務器人工智能。我們希望人們不再認爲我在服務器上有GPU,而是認爲我可以使用人工智能能力。Project Forge甚至從特定類型的GPU中抽象出來,一直專注於無服務器AI。

這意味着我可以開始訪問虛擬GPU和虛擬集羣。我可以訪問的GPU,我可以高優先級訪問那些容量。這並不意味着我可以訪問該特定區域中的這些特定GPU。但在限制範圍內,我的集羣可以訪問該容量。當我不使用其他客戶時,他們可以訪問該容量。

這打破了我們今天在爲人們提供集羣或多個GPU時看到的碎片。他們在GPU上的位置並沒有有效地使用它們。如果他們需要更多GPU,他們將無法獲得它們,因爲它們被分配給其他集羣並且無法訪問它們。Project Forge擺脫了這些界限。

去年,我們已經讓所有內部人員入職Project Forge的訓練工作量。我們在Project Forge中看到的,擁有這種全球視野,擁有這種優先系統和無服務器架構,我們已經能夠將GPU利用率從50%提高到60%,甚至提高到70%到80%,甚至達到90%的範圍。

我們正在幕後進行許多不同類型的優化和效率調整,以嘗試儘可能接近100%。因爲這些資源顯然非常昂貴。但這已經帶來了巨大的節省。上個季度,微軟在資本支出上花費了100億美元,其中很大一部分當然都花在了GPU上。我們希望確保即使是5%的效率提升也能轉化爲數億美元。

現在我們還關注的事情之一是如何更有效地服務模型。事實證明,我們幾年前的預測有誤,我們曾認爲我們的大部分能力將用於訓練。訓練是一項艱鉅的任務,我們預計這項任務會變得越來越大。然而,現實情況是,就我們的基礎設施而言,我們現在處於推理和訓練之間。我們預計,隨着時間的推移,推理的權重實際上會超過訓練。因此,我們希望確保我們能夠真正有效地爲模型提供服務。

我們在Azure中有一些嵌入式研究團隊,這些團隊屬於我密切關注的Azure核心小組。他們正在研究如何爲這些模型提供提示。例如,模型可能會提示“番茄是一種水果”,然後通過模型進行前向傳遞,生成下一個標記。在這個過程的第一階段,計算量非常大,你有很多Token進來,你需要對這些Token進行大量處理,然後建立一個鍵值緩存,這是一個內存密集型的過程。然後,你會進入生成階段,這個階段是連續的,計算量低,內存量高,因爲你同時服務於許多不同的請求,每個請求都有自己的鍵值緩存。

我們的團隊提出了一個問題:如果我們把這些任務分開在同一臺服務器、同一GPU上完成,會怎樣?這個想法在一篇名爲Splitwise的論文中得到了闡述,論文探討了使用相分裂的高效生成LLM推理的方法。這個方法的基本思想是將計算機分爲提示服務器、處理服務器和生成服務器,並在它們之間建立低延遲無限頻帶連接。我們的目標是,通過將即時處理和生成處理分別推向不同的批次,提高效率。論文還探討了使用不同功率的GPU進行處理和生成,我們發現這樣可以節省15%的電量。

這個想法已經被產品化,並得到了OpenAI的認可,他們已經在他們的系統中部署了這個方法。我們現在正在將其納入我們的Project Forge服務堆棧中。

另一方面,作爲企業級服務,我們需要提供一致的系統行爲,包括可用性和執行方式。企業不希望今天可以每秒提供10個提示,明天卻只能每秒提供5個提示。他們在構建應用程序時需要對系統的工作方式有一定的瞭解,並相應地進行調整。

在LLM的服務中,我們發現有很多不同類型的個人資料。例如,內容創建是一個快速的過程,你給它幾句話來表達你想要的內容,它可能會輸出整個文檔。另一方面,你也可能給它一個巨大的文檔,它會吐出幾句話來總結它。在同一GPU上調度這些不同類型的配置文件時,我們遇到了一些問題。例如,當一個大的提示在處理時,另一個大的提示可能會開始生成,這會減慢第一個提示的生成速度。一旦第二個提示完成處理,它的大量計算需求可能會干擾第一個提示的推理。

然而,一旦這兩個提示都進入生成階段,系統就可以恢復正常速度,因爲有足夠的計算和內存來滿足這兩個需求。對於那些希望確保其企業客戶的系統性能的公司來說,這是一個令人恐懼的問題。因此,我們開始探索如何爲他們提供一種方式來滿足他們所需的規模,再次實現無服務器的目標。這並不是說他們想要H100,而是他們實際上想要的是每秒處理的Token數量,即吞吐量指標。然後,他們可以在我們的幫助下衡量自己的工作量,並支付他們所需的費用。因此,我們想出了一種解決方案,並於去年年底投入生產。

這個解決方案被稱爲Project Flywheel。Flywheel的想法非常簡單。你接受大量的提示,然後將它們分成塊,然後將它們與生成處理交織在一起。所以在這裡,我們得到了同樣的大量提示。我們一次只處理其中的一部分,然後我們開始生成。現在,第二個大量的提示出現了,我們正在交錯處理,並且該提示處理的塊與第一個模型的生成重疊,我們沒有看到任何性能退化。我們在每秒處理的Token上具有非常一致的性能,其中tokens包括每秒處理的提示Token。

因此,可預測的吞吐量、線性規模,這就是我們所說的預配置吞吐量單位。截至去年,我們爲客戶提供GPT-4等服務的能力的方式是使用預配置的吞吐量單位,他們實際上必須購買多臺服務器,並在最短的時間內使用專用的GPU的時間。這是極其昂貴的。現在我們可以根據他們的Token吞吐量要求爲他們提供分數PTU。

讓我在這裡向您展示一個快速演示,您可以在頂部看到我們在沒有Project Flywheel的情況下正在進行大量服務。您可以看到正在處理的Token數量的大小。顏色代表單獨的推理請求,你可以看到其中一些是大塊,一些是小塊,這意味着它們的完成時間和處理時間非常不可預測。

現在在Project Flywheel的底部,您可以看到我們正在將事情分塊。一切看起來都非常統一。提示處理和生成的大小大致相等,這意味着我們可以瞭解給定模型的服務器的容量,然後進行預測。

我在這裡得到的是不同提示生成配置文件的三個示例,每個配置文件分配了不同數量的預配置吞吐量單位。這是中號,200個提示大小,1,000個Token生成。就像文檔創建一樣。現在我正在做的是將請求發送到其中每一個,您可以看到左上角每分鐘提示Token,右側每分鐘生成的Token,底部消耗的PTU容量,您可以看到提示Token每分鐘取決於工作負載情況。

我有這三種不同的極端,其中一種處於中間。每分鐘生成的Token,與您可以在那裡看到的內容相同,但關鍵是這三個Token的每個Token的時間完全相同。因此,無論提示或生成量如何,我們都會根據每分鐘的Token爲每個客戶提供保證的吞吐量。

這裡你可以看到我們調高了一個客戶的PTU等級,所以我們每分鐘會給他們更多的Token,你可以立即看到跳躍的是每分鐘的提示Token和每分鐘生成的Token,因爲在這個在這種情況下,客戶向系統發出大量推理請求,但由於PTU級別太低而未得到服務。

因此,這對於企業客戶來說是非常具有變革性的,因爲現在他們可以更輕鬆地負擔得起爲他們的模型、他們自己的Copilot(例如GPT-4)提供服務的費用。

我們考慮效率的另一種方式是服務自定義模型,您會看到我們的許多客戶想要做的就是構建微調模型。微調模型可能會根據自己的特定數據進行模型訓練,或者訓練爲以某些方式響應,具體取決於他們正在開發的應用程序。這就是微調可以提供幫助的地方。

順便說一句,我們官方給客戶的建議是不要微調,使用RAG,先使用提示工程,然後再去RAG,然後才嘗試微調,因爲微調當然需要很多的專業知識、大量的時間和金錢。對於已經做出決定的客戶,包括我們自己,我們需要對模型進行微調。直到大約一年半前,我們採用的是一種相對簡單的方法。我們使用預訓練的模型,創建一個小數據集來表示我們希望模型更好地理解的內容,然後進行更多的訓練。最終,你得到的是一個與原始模型大小相同的新版本。例如,如果你微調GPT-3.5,也就是1750億個參數,你的自定義版本的GPT-3.5也有1750億個參數。微調這樣大的模型需要一段時間,因爲你必須在所有這些不同的GPU上進行訓練才能支持這麼大的模型。

因此,我們引入了一種叫做LoRa的技術。我這是在斯坦福大學發表演講,很多人都聽說過LoRa,因爲現在每個人都在使用LoRa進行微調。這是來自微軟研究院的技術。LoRa微調的工作方式是,你不去碰預訓練的模型,而是創建一些額外的權重,也就是你的微調適配器。你對你的數據集進行訓練,只更新那些適應的權重,然後你就得到了一個目標模型,只需添加這些自適應權重即可。

如果你比較GPT-3的微調和LoRa的微調,你會發現,以簡單的方式進行微調需要96個GPU,而使用LoRa只需要24個。在訓練期間,簡單方式的檢查點爲1TB,而LoRa方式的檢查點爲200MB。然後,切換模型只需要一分多鐘的時間。當你提供許多不同的自定義模型時,這一點很重要,因爲你需要能夠在收到不同請求時在各個模型之間進行切換,而這隻需要幾秒鐘。並且,沒有額外的推理延遲,所以一切都很好,我們獲得了更好的訓練吞吐量。

現在,我們要將其投入生產。我們如何將其投入生產呢?當我們看一下我們之前爲模型提供服務的方式時,我們有一個GPU池,當客戶A想要他們的自定義模型時,我們需要將他們的模型加載到這個GPU上。然後,當客戶B進來時,我們需要換掉模型。模型很大,所以它們甚至可能不會佔用整個GPU,所以我們不能將GPU用於其他用途。同時,我們還有轉換成本。

因此,我們創建了一種稱爲多LoRa微調服務的東西,現在我們可以在同一GPU上加載數十到數百個適配器。因此,它能夠使用多LoRa在同一GPU上爲數百個企業客戶定製模型提供服務。這就是我們在生產中加載它們的方式。

讓我向你展示一個多LoRa推理的快速演示。這是傳統的推理,我們只是對預先訓練的模型進行推理。

如果我們發送多個請求,會發生模型仍在加載中,我們實際上不會完成。在LoRa端,我們可以發送這些請求。我們已經在該GPU上創建了一千個LoRa,因此該模型有一千個自定義版本,現在我們將隨機選擇一個。

你可以看到我可以很快擊中其中多個,並從每一個推論中獲得成功,因爲它們基本上都是有負載的。如果它們沒有加載,那麼在這種情況下,在它們之間切換需要幾秒鐘,甚至不到一秒鐘。

現在,讓我向你展示運行延遲測試。一個預先訓練的LoRa與數千個LoRa相比,這對延遲有何影響?因此,我們只是在那裡運行延遲運行,並且我們將繪製圖表。您可以在左側看到 GPT-3。在討論完全微調模型的延遲時,我們發現其與在基準測試中隨機測試的一千個模型相比,得到的延遲是相同的。

我想再次強調,這並沒有包含 Project Flywheel,這只是爲了向您展示,使用 LoRa 基本上會給你一種錯覺,讓你以爲你有 1000 個 GPU,儘管實際上它只是一個帶有 LoRa 微調模型的 GPU。您可以在這裡看到一個併發圖,它向您展示這些請求(單個請求)的延遲在所有請求中都是一致的。您還可以在此處看到所有這些 GPT-3.5 Turbo模型,這就是我們的服務堆棧。

我剛纔向大家展示的是我們的人工智能研究,通過幾個例子,展示了我們的系統人工智能研究。但我們也在人工智能科學領域進行研究。去年年初,我們提出了一個問題:語言模型可以很小但仍然很強大嗎?

如果你回顧我之前的幻燈片,你會發現能力和模型大小之間的關係是非常直接的,呈指數關係。我們能否讓一個非常小的機器像一個非常大的機器一樣工作呢?這是我們的一個觀察結果,你可以看到這是從一篇論文中得出的。

這篇論文名爲《Tiny Stories》,有多少人出於好奇而閱讀過它呢?研究員提出了一個問題:我們可以測試一下數據的質量到底是什麼的假設嗎?在特定領域獲得良好的推理能力很重要嗎?現在,如果你想到 GPT-4,其中數千億個參數,GPT-4 擅長的事情之一就是推理。它仍然被認爲是最先進的。但它是巨大的,並不一定是因爲它強大的推理能力,而是因爲它有效地承載了幾乎所有公衆在網絡上擁有的關於其權重的知識。這意味着你可以去問它,用梵文寫一些東西,它可能知道怎麼做。你可以去問它有關生物學的知識,它可能知道。所有這些都在它的重量中。這與推理無關,也許它對訓練部分有所幫助。

我們的想法是,我們是否可以使用這些大型模型之一獲取並創建合成數據,以創建一個非常小的模型,該模型仍然可以寫出連貫的兒童故事,因此被稱爲“小故事”?答案是肯定的。他們創建了一個非常小的模型,大小隻有幾百兆字節。它可以生成三年級的兒童故事,而且非常連貫。你可以用“我想要三隻熊,我想要森林等等”的提示來播種它,它就會產生一個很棒的故事。所以我們問,我們可以這樣做來進行一般推理嗎?因此我們決定開始研究物理學來關注這個問題。

您可以在這裡看到人類所做的事情和LLM所做的事情之間的比較。一個人只能讀一個他們一生中擁有少量Token。他們只瞭解一些基本事實。而模型則讀取數萬億個Token,嘗試記住所有內容,並且它可以學習純粹的信息,但學習推理很難。我們的假設是,只需關注非常高質量的面向推理的數據,看看是否能讓模型很好地推理。

正如您可能想象的那樣,這會帶來很多好處。如果你看一下 Llama1 數據集,它基本上是讓我們把廚房水槽扔到這個東西上,看看它是否能學到東西,有點像 GPT-4,把網絡的廚房水槽扔到這個東西上,讓我們看看會出現什麼結果。在這種情況下,您可以看到數據集的質量非常好。普通的爬行中有各種各樣的垃圾,有毒垃圾也在其中。質量非常低,其中很多也沒有表現出很好的批判性思維。該模型正因此受到阻礙。

現在我們對 PHi 項目所做的工作是使用 GPT-5 和 4 教科書數據綜合生成的。高質量的教科書數據是至關重要的。許多實時工程項目都試圖獲取多樣化和豐富的例子,這些例子中嵌入了大量的推理。此外,我們還看到了幾款新的家庭車型。

目前,我們正在討論的是PHi2,這是去年發佈的PHi系列的最新版本。如圖所示,PHi是黃色的。它覆蓋了與推理相關的人工智能的各種知名行業基準。你可以看到,Llama270B是深藍色的條形,是圖中的第三條。前三個是不同尺寸的Llama模型,分別是7、13和70。你可以看到,PHi正在與所有模型競爭,包括Llama70模型,儘管它只有2.7億個參數。因此,在這些基準測試中,2.7B和70B的表現都達到了該水平或更高。我們目前正在開發PHi3。

所以,是的,小模型可以很小,語言模型也可以很小。但是,視覺模型也可以很小嗎?這是另一個研究方向。這是COSMOS2, 1.6億的多式聯運模式。這是我與它的互動。我只是給它一張時代廣場上Azure標誌的DALL-E3合成圖片,然後問它,這是什麼?只需1.6億個參數,它就能回答,一大羣人正在走在時代廣場上,上面有一個巨大的藍色Microsoft Azure標誌。當然,我們希望確保它能理解建築物上顯示的Microsoft Azure徽標的含義。

但是,當我給它另一張圖片時,它能夠識別出邊界框,並告訴我這棟建築是悉尼歌劇院。所以,這很明顯,利用高質量的數據,我們可以在小模型中得到很好的推理。

因此,大的語言模型可以很小。順便說一句,這是你可以閱讀的兩篇論文,一篇是關於最新的PHi2模型,另一篇是關於COSMOS模型。我將提供這些幻燈片,如果你不想拍照,就不必拍照。

現在,我想分享一些我自己的人工智能研究。去年夏天,我休了一個假期,這是在微軟工作10年後的一項福利。我有一段時間可以休息,但我也無法坐視不管。我做了一些旅行,拜訪了家人,但後來我想,我應該親自接觸人工智能。因此,我開始與《Tiny Stories》論文的作者Ronan Elden合作開展一個項目,我稍後會向你們介紹這個項目。

但我想首先分享一下人工智能如何改變了我自己的編程方式。我一生中寫過很多代碼,我仍然在一些名爲Sysinternals的工具上編寫代碼,你們中的一些人可能聽說過。在這裡,我學到了新的編程語言,如PyTorch和Python。我對它們有一些瞭解,但肯定不是專家。我要告訴你的是,我現在還不是專家,但我是GitHub Copilot的專家。我發現我不再想自己編碼,我想讓模型爲我編碼。這就是我很快就適應了有這個出色的助手的方式。即使只是幾行代碼,我也只需要輸入評論,然後它就會從Copilot中生成。它並不總是正確的,所以我會坐下來反覆思考多次,然後最終放棄、生氣,然後自己做。我對此感到憤怒,這讓我笑了。我正在做一些我無論如何都必須自己做的事情。可能通過觀察它在做什麼,我可以同時取得領先地位。但隨後還有所有其他積蓄。因此,它已經向我展示了編程的發展方向。

這是試圖讓模型按照人類的指令做你想做的事情。這裡有一個 GitHub Copilot 的示例,供大家參考。事實上,這是我們研究得出的。這並不完全是流程,但基本上我們採用了這個 ResNet-18 模型。我們希望看到所有批量歸一化層的內部表示。

您可以看到我所做的只是在此處輸入註釋,返回張量列表。如果我必須用 PyTorch、Python 來寫這個,我可能需要半個小時。我在那裡一瞬間就做到了。我說,啊,你知道嗎?我想把這件事形象化。

所以這裡我只是打印長度。您可以看到自動補全功能正在發揮作用,基本上,這有點神奇。你沒用過它。它知道你下一步想做什麼。我在這裡發表評論,將其可視化,然後按 Enter。我只是自動完成它的建議。

有多少人曾與 Matplotlib 進行過鬥爭?所以我不跟它較勁。我只是讓Copilot來解決這個問題。現在我們開始。再次強調這一點。這並不是那麼簡單,但您可以看到這是一個多麼強大的推動者。

現在我們決定做一個專注於人工智能遺忘的項目。5分鐘?好的。不過,玩得很開心。最後,讓我談談這個忘卻項目, 因爲這對我來說很有趣。我們決定做的是,嘿, 我們可以採用一個大型語言模型並讓它忘記一些東西嗎?您可能希望忘記某些東西的原因有多種。這是您不希望模型使用的受版權保護的數據,受到 GDPR 或有毒數據的影響。

我們怎樣才能忘掉它呢?所以我們決定,讓我們採取一些具有獨特簽名的東西,一些非常明顯的東西,就像我們的第一步一樣,這將是非常明顯的。事實證明,所有這些模型深深地瞭解哈利波特故事。如果你說哈利·波特那年秋天回到了學校見到他的朋友羅恩和赫敏就結束了。就像每個大型語言模型一樣很瞭解他們。所以我們想,如果我們能讓它忘記哈利·波特怎麼辦?所以我們選擇了 Llama 7b。

我們做了這樣的訓練,我不會花太多細節,你可以閱讀一兩點。但我們想出了這項技術, 同時使用了我們在書本上訓練的 Llama 7b 的微調強化版本,所以它真的只想整天談論哈利·波特。你可能會說,今天天氣怎麼樣?他們會說,我不知道,但哈利認爲天氣晴朗。然後我們還想出了另一個叫做錨定術語的東西,這是我們使用 GPT-4 爲我們生成的獨特術語,通過說,嘿,GPT-4, 去閱讀這篇文章並找出所有獨特的術語,例如麻瓜和哈利和霍格沃茨。

它做到了。然後我們要做的就是切斷這些詞之間的關係。哈利不是巫師。哈利頭上沒有傷疤。然後我們還想爲模型創建通用生成並微調模型,以便它想要生成哈利·波特特定提示的通用完成。

舉個例子,哈利·波特是誰?左邊是 Llama 7b。右邊是未學過的版本,位於擁抱的臉上。哈利·波特是一位英國演員、作家和導演。他以戲劇作品而聞名,參演了多部作品, 包括《歷史男孩》和《認真的重要性》。他還曾在電視劇《王冠》中飾演神秘博士,這顯然完全是無稽之談。而這叫什麼?幻覺了吧?

但您可以看到它在這裡用非哈利波特文本完成了許多不同的提示。正如哈利回到班級看到他的好朋友一樣,你也可以看到我所提到的,經過預先訓練的羅恩和赫敏。莎拉和艾米麗已經坐在辦公桌前。在基準測試中,他們的性能基本相同,沒有退化。

一篇優秀的論文的標誌是,其他人會寫論文來討論你的論文。讓我們看看這個論文,這是我們的論文。上週,我看到了一條推文,提到了遺忘學習可能帶來更安全的警報,但評估起來卻很棘手。這裡有八種評估技術。

這篇論文主要是關於我們的論文《哈利·波特》的研究。他們對我們在遺忘過程中可以改進的事情有一些深刻的見解。因此,這項研究仍在進行中。

在我結束之前,我想談一下機密人工智能。因爲這不僅是未來的計算,而且機密人工智能是人工智能的未來。機密計算是你在使用數據時保護數據的地方,而不僅僅是在數據靜止或傳輸時。

如果你考慮一下我們去年秋天與NVIDIA合作推出的機密H100的AI環境,你可以保護模型的知識產權。你有一個非常昂貴的模型,你可以保護它的知識產權。你已經獲得了你想要進行提示和推理或微調的數據。你可以保護這些數據,使任何人都看不到它,包括管理員、服務器、虛擬機管理程序。還有一個非常酷的場景是多方共享。

那麼,我就結束了。我想我們有一些時間來回答問題。我們有時間嗎?好的,非常感謝。

=問答==

非常感謝馬克,你的演講既精彩又有趣。我非常喜歡所有的幻覺例子和學習如何遺忘的部分。這真的很令人着迷。你展示的所有模型,飛輪、Lora、多Lora,看到小型模型甚至可以超越或至少與大型模型同等性能,這一切都令人着迷。

在瞭解GPU和服務器如何構建以及如何構建堆棧時,我們的典型思維方式可能不適合思考這些系統的結構以及堆棧的實現方式。這很令人着迷。對於我們的觀衆,我們將配備浮動麥克風。因此,如果你對馬克有疑問,請繼續提出你的問題。

馬克,你談了很多關於保證吞吐量和整個調度過程的問題,那麼關於這個調度過程是否可以提高這些系統的脫碳效率以及它們總體上如何使用能源,就有很多問題。這是可以討論的嗎?

是的。當我談論我們用來提高系統效率的這些不同技術和架構時,它的效率旨在降低成本,但同時也降低了對環境的影響,這也是一個很好的好處。液體冷卻、降低成本、降低環境影響等也是如此。

如果你考慮一下Multilore所做的事情,你會發現,我們需要部署、配置它們來服務相同數量的工作負載,因此節省的GPU數量可能是幾個數量級。所以可以肯定的是,這直接影響碳。

當你考慮不同的GPU(無論是NVIDIA、AMD還是你自己的)時,這是否是你的策略的一部分?Maia,這是你們在構建堆棧時關注的事情嗎?對環境影響的不同考慮?我問這個問題是因爲斯坦福大學,如你所知,剛剛成立了新的可持續發展學院。我們一直致力於瞭解舊的和現代的人工智能系統對環境和社會的影響。

是的。微軟實際上不僅擁有行業領先,而且擁有全球領先的承諾。我想,是爲了我們在2018年做出的環境友好或環境承諾。那談到了達到水中和,達到碳中和,然後實際去除碳。事實上,我們希望到2050年抵消微軟自1975年成立以來直接和間接排放到環境中的所有碳,順便說一句,明年是50週年紀念日。所以它就像一根繩子貫穿我們所做的一切。在我們的數據中心設計中,我們正在探索使用質子內存交換和氫燃料電池來替代發電機等技術。然而,目前這些技術的成本非常高,因爲還沒有人能夠達到我們所需的規模。但我們相信,如果我們通過投資和推動行業採用這些綠色技術,我們就能實現這一目標,並提高可靠性。雖然最初的成本可能會較高,但這對環境的影響將是巨大的。

你好,我是伊曼紐爾,我在摩根大通工作。我有一個關於學習的問題。目前,我們正在使用不同的方法。我對從語言模型本身中提取和移除知識,然後將其放入外部數據庫或圖數據庫,並將知識管理到圖數據庫或其他數據庫中,僅讓語言模型專注於語言措辭的方法感到好奇。在這種情況下,我們可以管理知識,而無需遍歷參數。這種方法似乎更爲簡單。微軟有類似的工作嗎?

是的,我手下有一個專注於安全隱私的研究團隊。他們最近發表的一篇論文或即將發表的論文之一是通過LLM系統跟蹤數據流,因此基於代理的系統,如RAG,可以及時處理,將事情交給不同的代理,這樣我們就可以確保數據按照模型可以訪問的內容以及模型輸出的接收者應該訪問的內容進行適當分類。當談到基於RAG的系統時,瞭解數據流絕對是關鍵。我們最關心的是這一點,但我們也關注下游和上游系統,我們如何訓練這些LLM。即使在PHi的情況下,我們也需要創建越來越廣泛的數據集,其中甚至包括一些公共數據。因此,你總是會面臨風險,你可能無意添加到模型訓練數據集中的數據。所以這就是忘記學習的重點,一旦它出現了,你如何擺脫它?但是,RAG是一個很好的方法來控制模型看到的數據。

根據您所說的關於學習或訓練與推理之間的權衡,您認爲未來三五年的趨勢是什麼?

就像我在四年前的演講中提到的,我們微軟認爲訓練與推理的比例將是80-20,大致就在這個範圍內。然後我們看到的是下降到50-50。就像我說的,我個人相信它實際上會進一步走向推理與訓練。僅僅因爲Copilot、聊天機器人以及支持人工智能、支持LLM的系統的興起纔剛剛開始,這隻會引發比我們今天已經有的越來越多的推論。所以我認爲這種趨勢不會很快放緩。

最近,Gemini發佈了Gemini 1.5 Ultra,它擁有約百萬個Token的上下文窗口。您認爲雲系統如何才能跟上日益增長的需求,以滿足上下文限制窗口?谷歌剛剛發佈了百萬Token模型。您認爲使用Microsoft的Azure系統進行OpenAI是否有可能達到類似的上下文窗口級別?當你現在談論推理爲50-50時,它對性能有何影響?

因此,如果上下文限制較高,那麼模型處理它所需的時間會更長。因此,當涉及到我們圍繞推理系統放置的基礎設施時,我們將架構、Transformer架構視爲基本上是一個黑匣子。因此,如果它使用稀疏注意力或塊注意力或其他什麼,對我們來說並不重要,或者分裂可能是唯一一種出現類似情況的地方。我舉個例子。目前,最新的生成預訓練模型(GPT)無法在單個服務器上安裝。因此,我們不得不處理分佈式大型語言模型(LLM)以爲其提供服務。然而,我們並不關注如何處理這些大的上下文大小。值得一提的是,在處理這些大上下文大小時,許多優化意味着並非所有的注意力頭都會關注所有的標記,因此,如果你天真地這樣做,你的鍵值緩存會比較大。因此,它們並不隨着上下文窗口的大小線性縮放。感謝您的傾聽,我們現在向觀衆提問。

我是納格什,我在視覺實驗室工作。我有一個問題,關於忘記學習,除了語言模型之外,它是否能擴展到不同的數據模式?它是否也可以應用於圖像數據、音樂或其他東西?另外,我還有一個問題,當可解釋性是你所涵蓋的主題之一時,你是如何選擇你的研究重點的?

實際上,當我在考慮我想做什麼時,我受到了Google舉辦的Kaggle競賽的啓發,該競賽是NeurIPS的一部分,關於圖像分類模型視覺類別的遺忘。因此,我的研究從羅南開始,我們實際上有一種我們認爲比比賽排行榜上名列前茅的技術更好的技術。我們計劃發表一篇論文,大約一個月後您可能會在檔案中看到它。但已經有很多關於擴散模型的擴散遺忘的工作。有一件我們沒有看到的事情,而這是我一直在關注的事情,我思考了很長一段時間,LLM和因爲我提到的所有原因而忘記學習,爲什麼你可能想忘記學習。然而我們基本上找不到任何關於它的研究。所以我說讓我們繼續吧,因爲這似乎是一個新領域,我們實際上可以在其中做一些前沿工作。

你好,非常感謝你來到這裡。我是Rachel,是GSB的MBA1級學生。你在演講中早些時候所說的一些話引起了我的注意,你說進行研究和實際產品化然後將其提供給企業之間有很大的區別。因此,當您考慮您的忘卻研究時,您如何想象它會成爲微軟產品套件的一部分?它是否是一個像時間機器一樣的功能,用戶可以跳進去,說,哦,我不是故意告知模型該數據的,我想把它拉回來?您計劃提供完全獨立的服務還是獨立的產品?

我們還沒有一個明確的答案。事實上,我們還處於早期階段,還沒有忘記學習的情況。我們期望它成爲的問題。人們仍在訓練這些模型,他們並沒有將它們放入這些大型模型所在的非常敏感的環境中。例如,我們以GDPR爲例,您可能有一個小模型。它不是一個基於LLM的模型,而是一個小型模型,它是在一堆人臉圖像上進行訓練的,現在你已經有了GDPR,刪除它們。我認爲這種情況首先出現,這就是谷歌將其作爲競爭目標的原因。對於LLM來說,我們還沒有進入這樣的領域:嘿,訓練中有些數據是我們想要忘記的。我們正在忘卻學習。我們需要擅長於此,因爲沒有這些數據的再訓練成本非常昂貴。但這就是我堅信的,隨着這些模型在更多場景中得到訓練和部署,這種趨勢開始顯現。那麼它用在哪裡呢?顯然,Ronin是PHi團隊的一員,我們認爲進入PHi並對PHi進行微調,甚至可能隨着PHi的數據集變得更加多樣化,我們可能有理由甚至想要在PHi上忘記,因爲PHi模型儘管很小,仍然需要大量的計算資源來訓練。

感謝您,馬克。我是帕維爾,我在傢俱批發行業工作。我們目前的主要目標之一是利用人工智能來增強我們的後臺運營,並最終實現一種監督模式,使得供應鏈中的常見任務可以由我們的管理員進行監督。因此,我想問的是,後臺軟件如Dynamics和ERP系統是否有任何新的進展?有什麼可以推動這些進展的嗎?

我們確實有供應鏈動態,但我不確定具體在哪裡。

首先,我想說的是,微軟的所有產品可能都已經有了一個Copilot。這是我認爲去年最酷的事情之一,那就是GPT-4的出現。Satya和ChatGPT已經進入市場,Satya說人工智能是下一個重大事件,我們需要抓住並引領它。他告訴公司,大家要思考如何將人工智能應用到你們的產品中,現在已經足夠投入並提供價值了。大家需要自己去弄清楚如何在內部使用人工智能。

那是去年3月的事,現在基本上是一年後的事了,微軟已經在產品和服務中提供了大約50個Copilot,當然包括主要的Microsoft Copilot。我知道最先出現在後臺的人員之一是銷售人員,他是Dynamics的銷售Copilot,負責查看員工記錄並製作電子郵件、接收電子郵件併爲您建議電子郵件回覆。我猜供應鏈也有一個,但我一時不知道。

你好,我想問你一個問題,關於你剛纔提到的關於忘卻的事情,特別是對於使用醫療保健的LLM,您可以使用的標準是什麼,或者有人可以知道LLM需要忘記數據庫?

如果我直接理解這個問題,可能不是問這個問題的合適人選,因爲我不在醫療保健領域。

我認爲你需要忘記的東西,你可能想要忘記的東西與模型實際訓練的內容是非常特定的,並且會有所不同。我們討論了面向RAG的服務,您實際上並沒有在任何這些數據上訓練模型,您只是在線提供它,而我實際上將創建一個定製的醫學LLM,在那裡可能是敏感數據在我可能需要忘記的訓練數據中。所以我認爲這實際上取決於具體情況。我想我無法給你一個一刀切的答案。

謝謝,馬克。我們將回答Slido的一個問題,它可能與之前有關管理訓練與推理的答案有關。人們問你對芯片組的看法。您是否設想在服務器端進行更多預訓練,然後爲用戶設計芯片組的情況在邊緣進行推理?

是的,我們的筆記本電腦(包括Surface筆記本電腦和Apple MacBook)的邊緣內部已經有了定製NPU、神經處理單元的設計。所以現在肯定有AMD之類的GPU和NVIDIA GPU。他們既可以服務又可以訓練。

還有NVIDIA和AMD的GPU系列專門用於數據中心的推理,當然現在還有許多用於邊緣的NPU。這似乎是趨勢。

Slido還提出了一個問題,只是爲了適應我們的虛擬與會者,這個問題也有點開放式,但您對量子計算機進入人工智能的發展有何看法?

是的,第一臺量子計算機。讓我簡單介紹一下我對量子計算以及微軟在其中的地位的看法。微軟一直在投資量子技術自2000年代初以來的計算研究。實際上,我們在聖巴巴拉大學設立了一個名爲Station Q的研究中心,專門進行量子研究。目前,我們在全球範圍內設有大約八個實驗室,致力於量子研究,包括與其他大學實驗室的合作,共同爲我們的量子計劃做出貢獻。

我們在量子計算的物理方面採取了一種與衆不同的方法。有一種理論粒子叫做馬約拉納費米子,它看起來可能是可擴展量子計算機的關鍵。這種粒子非常小,變化迅速,且極其穩定。然而,儘管如此,我們並未證明這種粒子的存在,或者我們能否創造出這種粒子。因此,我們花費了多年的時間,堅信這些粒子可能真實存在,而且我們可以創造出它們。

幾年前,我們在《自然》雜誌上發表了一篇論文,證明我們實際上可以創造出這些粒子,它們是真實存在的。接下來的步驟就是利用這些粒子構建一個量子位,然後構建一個量子計算門。這是一個涉及物理學和材料科學的巨大挑戰,但我們正在創建解決這些問題的系統。

我們認爲,基於馬約拉納費米子的物理量子位是擴展真正的量子計算機以解決實際問題的唯一方法。大多數實際問題,例如創造新化學品、進行化學模擬、創造新藥物,需要大約一百萬個量子比特。我們估計,馬約拉納量子位晶圓上可以容納一百萬個量子位。現在,一百萬個量子位的傳輸量子位或超導量子位,其他公司正在研究離子陷阱或光子量子位。爲了達到一百萬的規模,你現在所說的系統只有這個房間的一半大。沒有人解決如何從一側向另一側獲取信息以及如何同步這些事情。這是一個懸而未決的問題,我們正在努力解決這些問題。我們微軟認爲這些問題沒有任何好的答案,所以在不久的將來,您將看到我們在量子計算方面的更多新聞。

感謝您的分享,這真的很鼓舞人心。我想我們還有時間再問兩個問題,所以我們在這裡問一個。感謝馬克富有洞察力的演講。我的名字是瓦西里,我是SCP 23,我想問你一個問題。

對許多公司來說,數據質量都是一個巨大的挑戰,對我來說,我的創業公司是人工智能。因此,您可以讓最好的模型對所有內容進行微調,但如果數據不好,則無法解決問題。所以你知道有很多而且這是一個複雜的問題,因此結構化數據和結構化數據你可以在那裡擁有圖像URL,就像數據中的視頻一樣。我想問微軟是否正在做任何事情或對某種自動化進行搜索,或者您是否知道更有效的方法來構建準備數據,包括清理和所有必要的操作,以真正擁有良好的數據。

是的,這是一個好問題。我不認爲當你有髒數據時,有什麼靈丹妙藥。事實上,使用LLM來清理髒數據,這顯然是一項研究,我認爲這可以消除大量的人力勞動。並且標記數據的好工具也包括人工標記和通過自動化系統標記,包括使用LLM,這實際上是我們所做的事情。昨天,FI團隊的對齊研究負責人介紹了他們正在使用的工具,這些工具是與OpenAI共同開發的,用於爲FI標記數據以創建乾淨的數據。他們有很多用於清理數據的管道,以確保低質量數據並消除數據冗餘所有這些事情或任何進行大規模訓練的人都必須擔心。但目前我認爲我們還沒有處於交鑰匙階段。

讓我們問最後一個問題。您好,我是亨利,一名本科生。我對模型的轉變趨勢產生了好奇,似乎我們正在轉向更高效的計算方式,就像您提到的那些較小的模型。因爲Azure在計算過程中起着重要的作用,

如果我們能夠獲得計算效率更高的架構,那麼每個人都將從中受益。我們希望能夠實現這一目標,這也是我們進行金融研究的原因。實際上,我們進行研究的原因有兩個,一是我認爲無論如何,我所設想的世界都會是一個你會擁有一些東西的世界。

大型前沿模型將被用於需要這類模型的場景,然後還有許多中型和小型模型,這些模型要麼用於獨立服務場景,要麼用於增強大型模型。如果您看一下這些視覺模型,它們實際上是多個模型的組合。我設想一組模型和具有不同模型的不同代理可能與一箇中心推理模型協作。事實是,如果沒有小型模型的支持,您最終可能需要在效率低下且昂貴的任何地方攜帶這些大型模型,而且速度可能會很慢,可能需要多個服務器或GPU來運行,因此它們不適合某些環境。

我認爲對空間狀態的探索沒有任何結束,針對特定場景的模型會越來越完善,根據他們的要求定製設計功率大小、延遲和功能。感謝您的關注,我想感謝大家,今天我們所擁有的時間一直很有趣。如果您有任何問題,請隨時與我聯繫,我們將提供便利作爲我們HAI合作伙伴關係的一部分,與Azure和Microsoft進行不同的研究合作。