歡迎來到WEPoker(微撲克)官網(wǎng),打造一個有趣的線上德?lián)淦脚_,為玩家提供豐富的在線德州游戲和德?lián)溴\標賽。俱樂部專注于為會員提供優(yōu)質(zhì)德?lián)潴w驗和客服服務
(1) 訓練階段,MindSpore 構建了 MSAdapter 生態(tài)適配工具,覆蓋 90% 以上 PyTorch 接口,實現(xiàn)第三方框架的無縫遷移,并針對動態(tài)圖執(zhí)行效率的問題,通過多級流水線技術與即時編譯(JIT)優(yōu)化顯著提升執(zhí)行效率。
接下來我們將逐一揭秘這些支撐 AI 算力集群的關鍵特性,看看華為團隊如何用工程智慧馴服這頭算力巨獸。
(1) Sim2Train 訓練建模仿真:馬爾科夫訓練集群建模仿真平臺,AdaptPack 編排優(yōu)化長序列 PP 空泡,吞吐提升 4.5%-8.24%。通信與計算協(xié)同場景,引入 AdaptS/R 技術,通信暴露時間降 89.84%,單步總時長縮短 3.25%;MoE 通過 AdaptExpert 提升端到端性能 7.5%。
隨著新型應用快速變化,硬件系統(tǒng)持續(xù)創(chuàng)新,系統(tǒng)架構不斷演進,工程能力走向智能化,未來算力基礎設施的演進將走上算法 - 算力 - 工程協(xié)同進化的道路,有可能形成形成 “應用需求→硬件創(chuàng)新→工程反哺” 的閉環(huán),算法層驅(qū)動算力專用化(如復合 AI 需異構加速),算力層通過架構革新(如光電混合)釋放性能潛力,工程層以智能化手段(如 AI 運維)彌合復雜度鴻溝,最終實現(xiàn)高效、彈性、自愈的下一代算力基礎設施。
給模型跑車換更酷炫輪胎
隨著人工智能從簡單規(guī)則判斷進化到能處理萬億參數(shù)的大模型,單臺計算機的算力就像小舢板面對汪洋大海,而算力集群則是把上萬臺甚至幾十萬臺計算機像搭積木一樣連接起來,形成一艘能承載巨量計算任務的 "算力航空母艦"。
當我們把上萬臺計算機整合成一個有機整體時,需要解決一系列世界級難題:如何讓它們像精密鐘表一樣協(xié)同工作?如何在部分設備故障時依然保持高效運行?如何快速修復大規(guī)模訓練中的中斷問題?
(3) 運維層容錯:主要構筑亞健康感知和優(yōu)雅恢復技術,通過主動方式將消減亞健康事件影響。
華為團隊提出拓撲感知的協(xié)同編排技術 TACO、網(wǎng)絡級網(wǎng)存算融合技術 NSF、拓撲感知的層次化集合通信技術 NB、無侵入通信跨層測量與診斷技術 AICT 等四項關鍵技術,實現(xiàn)盤古模型訓練線性度提升。
理想情況下,100 臺計算機的算力應該是 1 臺的 100 倍,1000 臺就是 1000 倍,這就是 "線性度"。算力集群通過精密的任務分配算法,讓每臺計算機都像 orchestra(交響樂團)的樂手一樣各司其職,避免出現(xiàn) "三臺和尚沒水喝" 的混亂。比如訓練一個需要萬億次計算的模型時,萬臺計算機能像整齊劃一地劃槳的龍舟隊,讓算力隨規(guī)模增長而幾乎同步提升。
(2) 推理階段,MindSpore 基于主流生態(tài)的 HuggingFace 權重配置,無需修改即可實現(xiàn)一鍵部署,通過 vllm-MindSpore 插件對接 vLLM 框架,支持大模型推理服務化能力。實現(xiàn)盤古 72B 模型快速部署,實現(xiàn)推理性能提升。
(3) Sim2Availability 高可用建模仿真:馬爾科夫高可用建模仿真框架,通過離散時間步長仿真,建模單步時長內(nèi)的故障性能劣化影響與恢復耗時,模擬復雜系統(tǒng)訓練任務中的故障場景及運維響應,實現(xiàn)對訓練過程性能表現(xiàn)與故障恢復狀態(tài)的全周期監(jiān)控仿真。
針對面向算力集群的故障感知能力,華為團隊構建了大規(guī)模集群在線故障感知(全??捎^測)和故障診斷(全棧故障模式庫、跨域故障診斷、計算節(jié)點故障診斷、網(wǎng)絡故障診斷)技術:
(2) 業(yè)務層容錯:租戶無感知下,通過重試容忍網(wǎng)絡閃斷,將系統(tǒng)故障轉為亞健康,
(1) 實例內(nèi)快速重啟恢復技術:根據(jù)實際環(huán)境測試驗證,該技術將實例恢復時間從 20min 降低 5min。
綜上所述,華為團隊針對昇騰算力集群基礎設施,提出了針對超節(jié)點高可用、集群線性度、萬卡集群訓練快速恢復、萬億 MoE 模型推理容錯、集群故障感知及感知診斷、集群仿真建模、框架遷移等方面的全維度的創(chuàng)新方案。
(1) 全??捎^測能力:構建了大規(guī)模集群的故障感知能力,主要由集群運行視圖、告警視圖、網(wǎng)絡鏈路監(jiān)控、告警接入和配置、網(wǎng)絡流可觀測能力組成
24 小時不停工的智能工廠
集群線性度:人多力量大的完美協(xié)作
實驗及理論分析結果顯示,訓練Pangu Ultra 135B 稠密模型時,4K 卡 Atlas 800T A2 集群相比 256 卡基線,線性度為 96%。訓練Pangu Ultra MoE 718B 稀疏模型時,8K 卡 Atlas 800T A2 集群相比 512 卡基線,線性度 95.05%;4K 卡 CloudMatrix 384 集群相比 256 卡基線,線性度 96.48%。
(3) 減卡彈性恢復技術:作為當前進行工作,解決硬件故障下業(yè)務中斷問題,通過專家遷移,實現(xiàn)故障時推理進程不退出,以減卡為容錯手段,動態(tài)調(diào)整推理實例規(guī)模,在用戶無感知情況下秒級恢復。
(1) 系統(tǒng)層容錯:通過超時代答欺騙 OS + 網(wǎng)絡路由切換,防系統(tǒng)藍屏,同時避免整個超節(jié)點級故障。
當用上萬個計算單元(俗稱 "萬卡")訓練超大規(guī)模模型時,偶爾有幾臺機器 "罷工" 是難免的。這時系統(tǒng)會像游戲存檔一樣,自動記錄最近的訓練進度。一旦檢測到故障,能快速定位出問題的計算單元,跳過故障部分,從最新的存檔點繼續(xù)訓練,避免從頭再來的巨大浪費。比如訓練一個需要 30 天的模型,即使中間有設備故障,也能在幾分鐘內(nèi)恢復進度,就像視頻播放可以隨時續(xù)播。
(1) 進程級重調(diào)度恢復:正常節(jié)點通過參數(shù)面網(wǎng)絡將臨終 CKPT 傳遞到備用節(jié)點上,完成參數(shù)狀態(tài)恢復后繼續(xù)訓練,能夠有效縮短訓練恢復時間到 3min 以內(nèi)。
就像醫(yī)院的急診系統(tǒng)必須時刻在線,AI 訓練和推理也不能輕易中斷。算力集群里每臺計算機都有 "備用替身",當某臺機器出現(xiàn)故障(比如突然斷電或硬件損壞),系統(tǒng)會立刻啟動備用機接管任務,就像接力賽中接力棒無縫傳遞,確保自動駕駛訓練、語音識別等任務持續(xù)運行,不會因為個別設備故障而全盤停止。
(2) TOKEN 級重試:基于 DeepSeekV3 在 CloudMatrix 384 超節(jié)點場景下,驗證 30~60s 實現(xiàn)實例恢復。
針對 CloudMatrix 384 超節(jié)點,華為團隊提出面向整個超節(jié)點的故障容錯方案,分為 “系統(tǒng)層容錯”、“業(yè)務層容錯”,以及后續(xù) “運維層容錯”,核心思想就是 將故障問題轉為亞健康問題,通過運維手段優(yōu)雅消除:
萬卡集群訓練快速恢復
針對當前超大規(guī)模 MoE 模型帶來的大 EP 推理架構的可靠性難題,華為提出三級容錯方案,實例間切換、實例內(nèi)重啟恢復、實例內(nèi)無損恢復,從硬件驅(qū)動層、框架層、平臺層相互協(xié)作,構筑端到端可靠性體系。在不同的故障場景下,采用不同的容錯恢復手段,可以最小化用戶損失。
(2) 故障診斷能力:包括全棧故障模式庫、跨域故障診斷、計算節(jié)點故障診斷、網(wǎng)絡故障診斷;
算力集群里有一套實時監(jiān)控系統(tǒng),就像給每臺計算機安裝了 "健康手環(huán)",持續(xù)監(jiān)測溫度、算力利用率、數(shù)據(jù)傳輸速度等指標。一旦發(fā)現(xiàn)某臺設備運行異常(比如散熱不良導致速度變慢),系統(tǒng)會立即發(fā)出警報,并像醫(yī)生一樣分析故障原因 —— 是硬件老化?網(wǎng)絡擁堵?還是軟件 bug?快速定位問題并啟動修復機制,防止小故障演變成大停機。
(2) 進程級在線恢復:針對硬件 UCE 故障,通過業(yè)務面昇騰 CANN 軟件、框架軟件、MindCluster 軟件配合實現(xiàn)故障地址在線修復,進一步縮短訓練恢復時間到 30s 以內(nèi)。
針對面向算力集群的硬件故障管理,華為團隊提供了一套完整的解決方案:基于 CloudMatrix 384 超節(jié)點的設備物理形態(tài)和組網(wǎng)方案的昇騰 AI 硬件災備高可靠架構設計、涵蓋基礎檢錯糾錯能力、故障隔離能力、故障容錯能力以及深度巡檢與故障預測能力的昇騰 RAS 統(tǒng)一故障管理容錯框架、進一步提升光鏈路的可靠性的網(wǎng)絡自診斷可靠性管理、以及綠色低碳、穩(wěn)定可靠和安全可信的云數(shù)據(jù)中心管理體系。
為了使萬卡集群訓練可以達到分鐘級快恢,華為團隊提出了以下多個創(chuàng)新:
(3) 算子級在線恢復:針對 CloudMatrix 384 產(chǎn)品 HCCS 網(wǎng)絡、ROCE 參數(shù)面網(wǎng)絡提供 HCCL 算子重試能力,容忍更長時間的網(wǎng)絡異常,實現(xiàn)網(wǎng)絡故障影響的通信算子秒級重執(zhí)行,訓練任務不中斷。
在正式開展復雜 AI 模型的訓推之前,算力集群可以先在虛擬環(huán)境的 “數(shù)字化風洞” 中 "彩排"。比如研發(fā)一個新藥篩選模型時,先通過模擬不同的算法參數(shù)、數(shù)據(jù)輸入和計算資源分配方案,預測模型在真實場景中的表現(xiàn),就像電影導演用動畫預演復雜鏡頭。這種 "先模擬后實戰(zhàn)" 的方式,能提前發(fā)現(xiàn)計算系統(tǒng)的瓶頸點和邏輯漏洞,并提出相應優(yōu)化手段,節(jié)省大量真實訓推的時間和資源。
你是否注意到,現(xiàn)在的 AI 越來越 "聰明" 了?能寫小說、做翻譯、甚至幫醫(yī)生看 CT 片,這些能力背后離不開一個默默工作的 "超級大腦工廠"——AI 算力集群。
(2) Sim2Infer 推理建模仿真:面向昇騰復雜推理系統(tǒng)的馬爾科夫建模仿真平臺,實現(xiàn)了從高層算子描述到底層硬件指令的自動化映射與仿真,平均誤差低至 6.6%。
華為團隊創(chuàng)新性提出系統(tǒng)化、可擴展的馬爾科夫建模仿真平臺,圍繞對訓練、推理、高可用三大核心領域?qū)崿F(xiàn)多維度系統(tǒng)性建模分析與性能預測調(diào)優(yōu),實現(xiàn)集群資源高效配置與動態(tài)優(yōu)化,達成算力極致利用與系統(tǒng)長期穩(wěn)定可靠運行。
隨著千億 MOE 模型架構演進,實例部署的組網(wǎng)架構從傳統(tǒng)的一機八卡演進為大 EP 組網(wǎng)架構,將多且小的專家部署在多個服務器節(jié)點上緩解顯存帶寬壓力,目前在大 EP 組網(wǎng)架構下主要面臨部署規(guī)模擴大導致的故障概率數(shù)量增大、故障爆炸半徑變大的可靠性問題,任意硬件故障都會導致整個 Decode 實例不可用,進而導致推理業(yè)務受損,甚至中斷。
自從 2020 年 3 月全面開源以來,華為推出的全場景 AI 框架昇思 MindSpore 一路高歌猛進,開發(fā)者生態(tài)迅速成長。除了為基于昇騰 + 昇思的自主創(chuàng)新外,昇思 MindSpore 也提供了擁抱主流生態(tài)的兼容方案,適應大模型時代的挑戰(zhàn)和需求。
24 小時在線的設備醫(yī)生
超大規(guī)模 MoE 模型推理分鐘級恢復
技術報告地址:https://gitcode.com/ascend-tribe/ascend-cluster-infra/blob/main/Overview/%E6%98%87%E8%85%BE%E9%9B%86%E7%BE%A4%E5%9F%BA%E7%A1%80%E8%AE%BE%E6%96%BD%E7%BB%BC%E8%BF%B0.pdf
帶 "存檔功能" 的訓練師
算力底座的 “數(shù)字化風洞”