大約五年前,人工智能研究組織 OpenAI 向微軟提出了一個大膽的想法,即它可以構建將永遠改變人們與計算機交互方式的人工智能係統。
當時,沒有人知道這將意味著 AI 系統可以創建人們用簡單語言描述的任何圖片,或者聊天機器人可以根據少量單詞編寫說唱歌詞、起草電子郵件和規劃整個菜單。但是像這樣的技術是可能的。為了構建它,OpenAI 需要真正大規模的計算能力。微軟能提供嗎?
從 Word 中的自動拼寫檢查器到在 PowerPoint 中編寫照片說明和在 Microsoft Translator 中翻譯 100 多種語言的 AI 工具,Microsoft 花費了幾十年的時間來開發幫助人們更有效地使用語言的 AI 模型。隨著這些 AI 功能的改進,該公司運用其在高性能計算方面的專業知識來擴展其 Azure 雲中的基礎設施,使客戶能夠使用其AI 工具來構建、訓練和服務自定義 AI 應用程序。
隨著 AI 研究人員開始使用更強大的圖形處理單元(稱為 GPU)來處理更複雜的 AI 工作負載,他們開始瞥見更大的 AI 模型的潛力,這些模型可以很好地理解細微差別,從而能夠同時處理許多不同的語言任務. 但是這些更大的模型很快就會遇到現有計算資源的邊界。微軟了解 OpenAI 需要什麼樣的超級計算基礎設施——以及所需的規模。
“我們從研究中學到的一件事是,模型越大,擁有的數據越多,訓練時間越長,模型的準確性就越好,”微軟 Azure high 產品負責人 Nidhi Chappell 說。 -性能計算和人工智能。“因此,肯定有強烈的推動力讓更大的模型接受更長時間的訓練,這意味著你不僅需要擁有最大的基礎設施,還必須能夠長時間可靠地運行它。 ”
2019 年,微軟和 OpenAI 建立了合作夥伴關係,並在今年得到了擴展,合作開發新的 Azure AI 超級計算技術,加速 AI 的突破,兌現大型語言模型的承諾,並幫助確保 AI 的好處得到廣泛共享。
兩家公司開始密切合作,在 Azure 中構建超級計算資源,這些資源旨在讓 OpenAI 能夠訓練越來越強大的 AI 模型的擴展套件。該基礎設施包括數以千計的NVIDIA AI 優化 GPU,這些 GPU在基於 NVIDIA Quantum InfiniBand 通信的高吞吐量、低延遲網絡中連接在一起,用於高性能計算。
微軟負責戰略合作夥伴關係的高級主管菲爾·韋茅斯 (Phil Waymouth) 指出,OpenAI 訓練其模型所需的雲計算基礎設施的規模是前所未有的——網絡 GPU 集群的規模呈指數級增長,超過了業內任何人試圖構建的規模。與 OpenAI 打交道。
微軟 Azure 高性能計算和人工智能產品負責人 Nidhi Chappell(左)和微軟戰略合作夥伴關係高級總監 Phil Waymouth(右)。照片由 Dan DeLong 為 Microsoft 拍攝。
微軟決定與 OpenAI 合作,是因為堅信這種前所未有的基礎設施規模將產生結果——新的 AI 功能,一種新型編程平台——微軟可以將其轉化為為客戶提供真正利益的產品和服務,Waymouth 說。這種信念激發了公司克服構建它的任何技術挑戰並繼續突破 AI 超級計算界限的雄心。
“從實驗室進行的大規模研究到人工智能產業化的轉變使我們能夠獲得今天開始看到的結果,”他說。
這包括拼湊夢想假期的 Bing 搜索結果, Viva Sales中起草營銷電子郵件的聊天機器人,GitHub Copilot從軟件開發人員的現有代碼中提取上下文以建議額外的代碼行和功能,消除計算機編程中的苦差事,以及Azure OpenAI 服務,它提供對 OpenAI 的大型語言模型的訪問,以及 Azure 的企業級功能。
OpenAI 總裁兼聯合創始人 Greg Brockman 表示:“與 Azure 共同設計超級計算機對於擴展我們苛刻的 AI 培訓需求、使我們在 ChatGPT 等系統上的研究和調整工作成為可能至關重要。”
Microsoft 及其合作夥伴繼續推進此基礎架構,以滿足對更複雜和更大模型的日益增長的需求。
例如,今天 Microsoft宣布了新的功能強大且可大規模擴展的虛擬機,這些虛擬機集成了最新的 NVIDIA H100 Tensor Core GPU 和 NVIDIA Quantum-2 InfiniBand 網絡。虛擬機是 Microsoft 向客戶提供基礎設施的方式,可以根據任何 AI 任務的規模進行擴展。據微軟稱,Azure 的新 ND H100 v5 虛擬機為 AI 開發人員提供了卓越的性能和跨數千個 GPU 的擴展。
大規模AI訓練
Chappell 說,這些突破的關鍵是學習如何構建、操作和維護數万個在高吞吐量、低延遲 InfiniBand 網絡上相互連接的共置 GPU。她解釋說,這個規模甚至比 GPU 和網絡設備供應商測試過的還要大。這是一片未知的領域。沒有人確切知道硬件是否可以在不損壞的情況下被推到那麼遠。
圖形處理單元(稱為 GPU)是計算機硬件的關鍵部分,已針對 AI 工作負載進行了優化。照片由微軟提供。
她解釋說,為了訓練一個大型語言模型,計算工作量被分配到一個集群中的數千個 GPU 上。在此計算的某些階段(稱為 allreduce),GPU 會交換有關它們已完成工作的信息。InfiniBand 網絡加速了這一階段,該階段必須在 GPU 開始下一個計算塊之前完成。
“因為這些工作涉及數千個 GPU,所以你需要確保擁有可靠的基礎設施,然後你需要在後端擁有網絡,這樣你才能更快地溝通,並能夠連續幾週這樣做,”Chappell 說。“這不是你只需購買一大堆 GPU,將它們連接在一起就可以開始協同工作的東西。為了獲得最佳性能,需要進行大量系統級優化,這需要幾代人積累的豐富經驗。”
系統級優化包括能夠有效利用 GPU 和網絡設備的軟件。在過去幾年中,Microsoft 開發的軟件技術提高了使用數万億參數訓練模型的能力,同時降低了在生產中訓練和服務它們的資源需求和時間。
微軟及其合作夥伴也一直在逐步增加 GPU 集群的容量,發展 InfiniBand 網絡,看看他們能在多大程度上推動保持 GPU 集群運行所需的數據中心基礎設施,包括冷卻系統、不間斷電源系統和備用發電機,Waymouth 指出.
“它起作用的原因是因為我們正在為我們的內部團隊構建類似的系統,並且那裡有互補的元素,”他說。“但我們在內部或與外部合作夥伴一起使用 OpenAI 進行的規模要大得多。”
微軟 AI 平台公司副總裁 Eric Boyd 表示,如今,這種針對大型語言模型訓練優化的 Azure 基礎設施可通過雲中的 Azure AI 超級計算功能獲得。該資源提供了 GPU、網絡硬件和虛擬化軟件的組合,以提供為下一波 AI 創新提供動力所需的計算。
“我們看到我們需要構建專注於支持大型訓練工作負載的特殊用途集群,而 OpenAI 是這方面的早期證據之一,”博伊德說。“我們與他們密切合作,了解他們在構建培訓環境時尋找的關鍵東西是什麼,以及他們需要的關鍵東西是什麼。”
“現在,當其他人來找我們並想要相同風格的基礎設施時,我們可以將其提供給他們,因為這是我們做這件事的標準方式,”他補充道。
人人適用的人工智能
在微軟開發人工智能優化的雲計算基礎設施的早期,該公司專注於專用硬件,以加速人工智能模型在部署以完成任務時進行的實時計算,這被稱為推理。今天,推理是指 AI 模型編寫電子郵件的初稿、總結法律文件、推薦晚宴菜單、幫助軟件程序員找到一段代碼,或者為新玩具勾勒出概念草圖。
將這些 AI 功能帶給世界各地的客戶需要針對推理進行優化的 AI 基礎設施。今天,Microsoft 已經在公司的 Azure 數據中心範圍內部署了 GPU 進行推理,該數據中心覆蓋全球 60 多個地區。這是客戶使用的基礎設施,例如,為定制的聊天機器人提供動力,以安排醫療保健預約並運行定制的 AI 解決方案,以幫助確保航空公司按計劃進行。
微軟已經部署了 GPU 用於在公司的全球 Azure 數據中心覆蓋範圍內進行推理,包括華盛頓州的這個數據中心。照片由微軟提供。
Chappell 表示,隨著經過訓練的 AI 模型規模越來越大,推理將需要 GPU 以與模型訓練相同的方式聯網在一起,以提供快速且具有成本效益的任務完成。這就是為什麼 Microsoft 一直在提高將 GPU 與 InfiniBand 網絡連接到整個 Azure 數據中心足蹟的能力。
“因為 GPU 連接在一個更快的網絡中,所以你可以在它們上面安裝更大的模型,”她解釋道。“而且由於模型與自身的通信速度更快,你將能夠在更短的時間內完成相同數量的計算,因此它更便宜。從最終客戶的角度來看,這完全取決於我們提供推理服務的成本有多低。”
為幫助加快推理速度,Microsoft 投資了開放式神經網絡交換運行時或 ONNX 運行時的系統優化,這是一種開源推理引擎,結合了先進的優化技術,可提供高達 17 倍的推理速度。如今,ONNX Runtime 每天執行超過一萬億次推理,並支持許多最普遍的人工智能數字服務。
Microsoft 和全球 Azure 客戶的團隊也在使用這個全球基礎設施來針對特定用例微調大型 AI 模型,從更有幫助的聊天機器人到更準確的自動生成字幕。Boyd 表示,Azure 的 AI 優化基礎設施具有獨特的縱向擴展和橫向擴展能力,使其成為當今從 AI 模型訓練到推理的許多 AI 工作負載的理想選擇。
“我們已經完成了工作,以真正了解大規模提供這些服務的感覺,”他說。
持續創新
博伊德補充說,微軟繼續在專用人工智能基礎設施的設計和優化方面進行創新。這包括與計算機硬件供應商和數據中心設備製造商合作,從頭開始構建雲計算基礎架構,以提供最高性能、最大規模和最具成本效益的解決方案。
他說:“從那些正在挑戰極限並處於最前沿的人們那裡獲得早期反饋經驗教訓,讓我們有了很多洞察力,並搶先了解了這個基礎設施向前發展所需要的東西。”
這種針對 AI 優化的基礎架構現在已成為整個 Azure 雲計算結構的標準配置,其中包括針對 AI 工作負載優化的虛擬機組合、連接的計算和存儲資源。
微軟雲和人工智能集團執行副總裁 Scott Guthrie 表示,構建這種基礎設施釋放了 OpenAI 的 ChatGPT 和新的 Microsoft Bing 等產品中的人工智能功能。
“只有 Microsoft Azure 提供 GPU、InfiniBand 網絡和獨特的 AI 基礎設施,這是大規模構建這些類型的轉型 AI 模型所必需的,這就是 OpenAI 選擇與 Microsoft 合作的原因,”他說。“Azure 現在確實是開發和運行大型轉型 AI 工作負載的好地方。”