專門適用超大模型、帶來 2.18 倍推理加速,最新投機采樣訓練框架開源!
SGLang 團隊聯合美團搜推平臺、Cloudsway.AI 開源 SpecForge。
SGLang,當前趨勢下最受青睞的推理框架之一,為 DeepSeek 提供了專屬優化,也深受英偉達、AMD、xAI 等廠商喜愛。
這一次開源,主要是針對當下超大模型趨勢。
投機采樣(Speculative Sampling)通過引入輕量級的輔助模型來提升推理效率,同時確保結果的質量和正確性。
目前性能強勁的投機采樣技術分別有MTP和Eagle3,但 MTP 其需要在預訓練階段與基礎模型一起訓練,限制了 MTP 在業界的廣泛應用。而 Eagle3 作為一種訓練后而集成的技術,很適合在已開源的超大尺寸模型上繼續訓練,而進一步提升推理效率。
SpecForge 正是基于 Eagle3,它不僅是首個支持超大模型投機采樣訓練并開箱即用的框架,還與 SGLang 推理引擎深度集成。一鍵打通投機采樣訓練推理全流程。
為何推出新的 Spec 訓練框架?
投機采樣(speculative decoding)已成為大語言模型(LLM)推理加速的共識方案,但其端到端訓練工具的缺失仍是明顯短板。目前開源社區中,尚無能夠支持超大尺寸模型訓練且與 SGLang 深度結合的框架,而這些工具層面的不足,直接導致此類模型的部署面臨巨大挑戰。
SpecForge為此而來,一個專為投機采樣訓練而生、并與 SGLang 原生集成的生態系統,其核心功能包括:
原生支持最新開源架構:SpecForge 支持主流模型,包括復雜的 MoE 層和 Transformer 變體。
可擴展的分布式訓練:SpecForge 集成了 FSDP ( Fully Sharded Data Parallel ) 和 TP ( Tensor Parallelism ) 等并行策略,可在 GPU 集群上實現高效擴展。
內存高效訓練優化:顯著降低了大規模模型訓練時的內存開銷;即使是萬億參數的基礎模型,訓練 Eagle3 也同樣高效。
SpecForge 核心特性 Eagle3 集成
Eagle 是一種最先進的投機采樣方法,旨在加速大型語言模型推理。它通過訓練一個專門的輕量級草稿模型來準確預測較大目標模型的 token 分布,從而實現高接受率和顯著的性能提升。下圖展示了 Eagle3 的端到端訓練流程:
EAGLE3 的高性能提升主要來源于其創新的訓練時測試 ( Training-Time Test ) 架構,該架構通過模擬多步生成來增強草稿模型的健壯性。盡管 TTT 性能強大,但其實現卻極具有挑戰性,因為它依賴于復雜的專用注意力掩碼(specialized attention masks)和遞歸式數據循環(recursive data loops)。
SpecForge 將這一復雜過程完全封裝,提供了內置且經過驗證的 TTT 支持。實現嚴格參照了官方 Eagle3 的核心邏輯,以確保其計算的正確性與性能,從而免除底層實現負擔。
雙重訓練模式:在線與離線
SpecForge 通過提供兩種訓練模式:在線 ( Online ) 和離線 ( Offline ) 來簡化隱藏狀態的收集,隱藏層的收集是 Eagle 類模型的特點。它通過主模型的隱藏層訓練草稿模型,讓草稿模型整體分布和主模型對齊。
該框架的雙模式設計能讓用戶能找到高效的訓練模式,關于在線和離線訓練的優缺點如下文所示。
在線模式:可實現最大速度和靈活性。它非常適合快速實驗和存儲有限的場景,因為它能動態生成數據,無需大量磁盤空間。
離線模式:適用于可復現性和數據復用至關重要的場景。通過預先計算和存儲隱藏狀態,此模式可保證實驗之間的一致性,在存儲空間充足時效率很高。
擴展性優先
SpecForge 在設計時高度重視可擴展性,以滿足工程生產需求。該框架使用模塊化接口實現了新草稿模型和主模型的直接實現和注冊。
為了實現可擴展性,團隊實現了多種訓練時并行策略。包括 FSDP ( Fully Sharded Data Parallel ) 和 TP 并行實現,確保超大型模型的高效訓練。
實驗
為驗證 SpecForge 的有效性,團隊利用它在包含 320K 樣本的 ShareGPT 和 UltraChat 數據集上,為 LLaMA 4 訓練了 Scout 和 Maverick 草稿模型。
這些模型在 MT-Bench 等行業標準基準上表現出色,充分證明了其模型質量以及與 Eagle3 架構的兼容性。特別值得一提的是,團隊為 Llama 4 Maverick 訓練的草稿模型在 MT-Bench 上實現了 2.18 倍的推理加速。
詳細的實驗結果與性能指標總結如下。
在下圖所示的所有測試中,x 軸代表投機采樣步長,對應于 SGLang 中的 speculative-num-steps。同時,將 SGLang 的 speculative-eagle-topk 固定為 8,將 speculative-num-draft-tokens 固定為 10,這樣可以使用 tree attention 達到更高的接受率。為了找到最優的投機采樣參數,可以使用 SGLang 代碼庫中的 bench_speculative 腳本。該腳本會在不同配置下運行吞吐量基準測試,針對硬件調優出最佳性能。
GitHub 倉庫: 訓練框架的完整源代碼,包括 TTT 和數據處理的實現細節。https://github.com/sgl-project/SpecForge
SpecForge 的 Roadmap 如下:
支持更多模型架構,包括 Kimi K2 和 Qwen-3 MoE。
將視覺 - 語言模型 ( VLM ) 集成到 SpecForge 中。
通過更好的并行策略和 kernel 優化來支持更高效的訓練。
Blog 地址:https://lmsys.org/blog/2025-07-25-spec-forge/
團隊成員
SGLang 核心團隊:Shenggui Li、Shuai Shi、Fan Yin、Yikai Zhu、Yi Zhang、Yingyi Huang、Yineng Zhang 及其他成員。
美團搜推平臺:Chao Wang
SafeAILab 團隊:Yuhui Li、Hongyang Zhang 及其成員
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
點亮星標
科技前沿進展每日見