放眼當下,到底哪個芯片跑滿血 DeepSeek是最快的?
答案很意外——不是你以為的英偉達,而是一家國產 GPU。
因為現在它的速度,已經直接來到了100 tokens/s!
當中間的國產 GPU 以行云流水之勢給出了完整準確答案之際,兩邊的 " 選手 " 則是還在深度思考過程中:
不賣關子,它就是摩爾線程。
但這時肯定有很多小伙伴會問了,從成立到現在不到 5 年時間,摩爾線程的何以取得如此速度。
在量子位了解完其在 " 算力之道 " 的全貌之后發現,答案,遠比 " 做出一顆更快的芯片 " 要宏大和深刻。
已經造了個 AI 超級工廠
沒錯,這是因為摩爾線程在搞算力這件事兒上,已經給自家打造了一個AI 超級工廠(AI Foundry)。
提到 Foundry 這個單詞,很多人第一反應或許就是造芯片時的 " 晶圓廠 ",它的價值取決于于生產芯片的良率、產能和工藝先進性。
但 AI 超級工廠,它并非指代一個物理上生產芯片的晶圓廠,而是一個類比的概念:
這個 AI 工廠的進化,就像升級制程一樣,絕不是改改某個單一技術就完事兒了,而是一個系統性、全方位的變革。
它要求整個技術棧 " 脫胎換骨 ":從最底層的芯片架構必須革新、到集群的整體架構得巧妙設計,再到軟件層面——算法怎么調更聰明,資源調度怎么跑更高效,每一個環節都至關重要。
正是這種從根兒上動起來的基礎設施大改造,才能真正釋放 AI 算力,實現大規模 " 生產 " 和 " 迭代 " 前沿 AI 大模型。
它需要五大核心要素的緊密耦合與協同進化,缺一不可;
這個 AI 工廠的產能,用一套公式可概括為:
AI 工廠生產效率 = 加速計算通用性 × 單芯片有效算力 × 單節點效率 × 集群效率 × 集群穩定性
摩爾線程正是圍繞這五大要素,構建了技術護城河。
全功能 GPU:超級工廠的基石
AI 超級工廠的基石,指的是一顆具備強大通用性的 " 全功能 GPU"。因為回顧算力的進化史,其實就是一部全功能 GPU 的發展史。
單一功能的加速器,如早期的 3D 加速卡或今天的某些專用 AI 芯片(ASIC),雖然在特定任務上效率極高,但其靈活性差、編程困難,無法適應 AI 模型日新月異、應用場景層出不窮的發展趨勢。
一個 AI 模型可能既需要處理語言,也需要理解圖像,甚至要進行物理世界的模擬。如果工廠的 " 機床 " 只能處理一種任務,那么它很快就會被淘汰。
因此,摩爾線程從創立之初就堅持打造真正的全功能 GPU,既要 " 功能完備 ",也要 " 精度完整 "。
AI 計算加速引擎:不僅能做推理,更能做訓練,實現訓推一體。
先進的 3D 圖形渲染引擎:支持 DX12 等現代圖形 API,滿足游戲、AIGC、數字孿生等視覺計算需求。
物理仿真與科學計算引擎:這是常被忽視卻至關重要的一環。未來的 Agentic AI、空間智能都需要與物理世界交互,強大的科學計算能力是連接數字世界與物理世界的橋梁。
超高清視頻編解碼引擎:AI 的計算結果最終需要通過視覺和聽覺呈現給人類,高清、低延遲的流媒體處理能力是人機交互體驗的保證。
MUSA 統一系統架構:超級工廠的 " 總設計師 "
如果說全功能 GPU 是工廠的機床,那么 MUSA 就是整個工廠的 " 總設計師 "。一個卓越的頂層架構,能夠決定一家公司未來十年甚至更長時間的技術路線和發展潛力。
MUSA 的核心理念是 " 一個架構,萬千應用 "(One Architecture for Many Applications)。它采用創新的多引擎、可伸縮、可配置的統一系統架構,將 GPU 內部的計算、通信、內存、調度等功能進行頂層設計和統一管理。
先來看可伸縮,顧名思義,MUSA 架構是可以根據不同客戶、不同市場的需求,快速裁剪出優化的芯片配置,大幅降低了新品芯片的開發成本。
其次,資源全局共享,簡單說,就是把所有硬件資源——像計算核心、內存、通信這些——都打通,變成一個大資源池,然后用智能調度靈活分配。
這招兒直接解決了大問題:以前那種單引擎 GPU,多個任務一起跑的時候特別容易卡。現在好了,所有資源大家共享,按需取用!
除此之外,MUSA 架構內部包含了多個摩爾線程自研的核心技術。
MUSA 全棧系統軟件:超級工廠的 " 操作系統 " 與 " 工具箱 "
再好的硬件,若是沒有高效的軟件,同樣也無法發揮其全部潛力。因此,摩爾線程打造了與 MUSA 硬件架構深度耦合的全棧軟件系統,它在 AI 超級工廠中扮演著 " 操作系統 " 和 " 開發者工具箱 " 的角色。
這個軟件棧可以說是覆蓋了從底層驅動到上層應用框架的方方面面:
核心算子庫:對標國際大廠的 cuDNN,摩爾線程的 muDNN 在算子層面進行了大量優化,GEMM 算子算力利用率達 98%,Flash Attention 算子算力利用率突破 95%。
生態兼容與 Triton 支持:通過 MUSIFY 等工具,實現了對 PyTorch、TensorFlow 等主流 AI 框架的無縫支持。尤其值得一提的是,基于 Triton-MUSA 編譯器 + MUSA Graph 實現 DeepSeek R1 推理加速 1.5 倍,全面兼容 Triton 等主流框架。
完善的開發者套件:提供了一整套涵蓋性能分析(Profiler)、調試、調優、一鍵部署等功能的工具鏈,如同一個 " 百寶箱 ",讓開發者能夠洞察硬件運行的每一個細節,榨干硬件的每一分性能。
這套全棧系統軟件,確保了開發者不僅能 " 用起來 ",更能 " 用得好 ",將 MUSA 硬件架構的強大能力順暢地傳遞到上層應用,是連接硬件與算法的關鍵樞紐。并且通過 MUSA 全棧系統軟件的優化,摩爾線程實現了 " 單節點計算效率 " 全面提升。
單卡、單節點的性能再強,也無法完成動輒千億、萬億參數大模型的訓練。AI 超級工廠必須以大規模集群的形式存在。為此,摩爾線程構建了夸娥(KUAE)大規模智能計算集群。
軟硬一體化設計:從服務器節點、交換機到機柜,再到上層的集群管理軟件、任務調度系統,全部進行了協同設計和優化。
創新 5D 并行訓練:摩爾線程整合數據并行(DP)、流水線并行(PP)、張量并行(TP)等所有主流的并行訓練策略,全面支持 Transformer 等主流架構,并能根據模型特點自動搜索和推薦最優的并行方案。
端到端訓練優化:覆蓋了從數據預處理、模型預訓練、強化學習、微調到驗證評估的全流程,提供一站式服務。
性能仿真工具(Simumax):自主研發的 Simumax 工具面向超大規模集群自動搜索最優并行策略,精準模擬 FP8 混合精度訓練與算子融合,為 DeepSeek 等模型縮短訓練周期提供科學依據。
高效 Checkpoint:針對大模型穩定性難題,創新 CheckPoint 加速方案利用 RDMA 技術,將百 GB 級備份恢復時間從數分鐘壓縮至 1 秒,提升 GPU 有效算力利用率。
通過夸娥計算集群,摩爾線程將單點的 GPU 性能優勢,成功擴展到了千卡、萬卡乃至更大規模的集群層面,構建起了一個真正具備強大 " 生產力 " 的 AI 超級工廠。并且通過實測,KUAE 2 大規模智算集群,在不同架構模型的 MFU,已經達到了行業領先水平。
對于一個需要 7x24 小時不間斷運行的 AI 超級工廠來說,穩定性壓倒一切。一次意外的宕機,可能意味著數百萬美元的損失和數周工作的付諸東流。因此,摩爾線程開發了獨有的 " 零中斷容錯技術 ",這是保障工廠穩定運行的 " 安全生產協議 "。
傳統的容錯機制,在硬件(如 GPU 卡)發生故障時,需要暫停整個訓練任務,人工替換硬件,再從最近的 Checkpoint 恢復,整個過程耗時耗力。而摩爾線程的零中斷技術則完全不同:
零中斷容錯技術:當某個節點變慢或出現故障時,僅隔離受影響節點組,其余節點繼續訓練,備機無縫接入,全程無中斷。這一方案使 KUAE 集群有效訓練時間占比超 99%,大幅降低恢復開銷。
多維度訓練洞察:通過多維度的數據監控和 AI 預測模型,系統能夠提前感知到哪些節點可能會成為 " 慢節點 ",并進行預警或隔離,實現動態監測與智能診斷,異常處理效率提升 50%;
集群自檢及調度優化:在訓練任務開始前,系統會自動對整個集群進行 " 體檢 ",確保所有軟硬件都處于最佳狀態,如同飛機起飛前的安全檢查,訓練成功率提高 10%,為大規模 AI 訓練提供穩定保障。
那么接下來的一個問題是:
為什么要造 AI 超級工廠?
這個問題的答案,或許植根于摩爾線程對計算革命過去、現在與未來的深刻洞察。
十年前,以人臉識別、自動駕駛為代表的 " 感知 AI" 大爆發,催生了第一批 AI 巨頭。而從 2022 年 ChatGPT 橫空出世至今,我們正處在 " 生成式 AI" 的指數級爆發期。
大模型的 " 智商 " 迭代速度令人咋舌,從去年還在人類平均水平的四五十分,到如今頂尖模型已經飆升至七八十分,直逼人類頂尖水準。
模型的迭代速度,也從過去的數月一更,壓縮到如今的數周甚至每周一更。這場競賽的背后,驅動力只有一個——算力。
正如馬斯克能夠憑借其 20 萬張 H100,讓 Grok 模型在短時間內登頂排行榜,這殘酷地揭示了一個事實:Scaling Law 是 AI 發展的鐵律。
誰擁有更大、更強的算力基礎設施,誰就能更快地迭代模型,搶占技術和市場的制高點。
而展望未來五年,Agentic AI(智能體 AI)和空間智能將成為新的爆發點。AI 將不再僅僅是聊天的工具,而是成為可以自主完成復雜任務的 " 數字員工 ",并與物理世界深度融合。
這一切,都意味著對算力的需求將再次呈幾何級數增長。在這樣的大背景下,僅僅滿足于當下的計算能力是遠遠不夠的,必須為未來更加龐大的計算需求做好準備。
面對永無止境的算力需求,僅僅追求 " 快 " 是片面的。未來的計算,更需要的是全方位的 " 穩 " ——穩定、可靠、高效、通用。
這正是建設 AI 超級工廠的根本原因。
你不能指望靠 " 人海戰術 ",找十億個兒童去抬起一棟大樓;同樣,你也不能簡單地將一萬張低效的顯卡堆在一起,就期望能訓練出高質量的大模型。
這個過程充滿了挑戰,例如在成本方面,一次大規模訓練動輒耗費數月和數百萬美元,任何中斷或失敗都是巨大的損失。
再如面對復雜的系統,上千個節點、上萬顆芯片如何高效通信、同步?軟件和硬件如何完美適配?又該如何快速定位和解決問題?
還有在實際應用過程中,往往任務又是多樣性的:今天訓練語言模型,明天可能就要處理多模態數據,后天又要進行科學計算……
這些挑戰,都無法通過購買單一的 " 最快芯片 " 來解決。它需要一個從底層硬件到上層軟件,再到集群管理和運維服務的端到端解決方案。
這恰恰是摩爾線程 "AI 超級工廠 " 的核心價值所在——它提供的不是孤立的算力,而是一種確定性的、高效率的、高成功率的 AI 模型生產能力。
總而言之,摩爾線程選擇了一條最艱難,但可能也是最正確的道路。他們沒有滿足于在某個單點上追趕或超越,而是立足于未來,從根本上思考如何為這個時代提供最先進的 " 生產力工具 "。
這,就是摩爾線程給出的答案,一個不止于快,更關乎未來的答案。
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
點亮星標
科技前沿進展每日見