国产一级色_蜜桃αv_伊人www_99久久婷婷国产综合精品电影_大陆毛片_国产精品久久久久久久久久免费看

量子位 12小時前

超大模型推理加速 2.18 倍！SGLang 聯合美團技術團隊開源投機采樣訓練框架

專門適用超大模型、帶來 2.18 倍推理加速，最新投機采樣訓練框架開源！

SGLang 團隊聯合美團搜推平臺、Cloudsway.AI 開源 SpecForge。

SGLang，當前趨勢下最受青睞的推理框架之一，為 DeepSeek 提供了專屬優化，也深受英偉達、AMD、xAI 等廠商喜愛。

這一次開源，主要是針對當下超大模型趨勢。

隨著 Kimi K2、Qwen Coder 的開源，越來越多的超大型模型進入大家的視野。這些模型具有強勁的性能，但受制于模型尺寸導致推理效率較低。對于超大尺寸的模型，除了進一步優化算子之外。還有像投機采樣這樣的技術能加速它們的推理。

投機采樣（Speculative Sampling）通過引入輕量級的輔助模型來提升推理效率，同時確保結果的質量和正確性。

目前性能強勁的投機采樣技術分別有MTP和Eagle3，但 MTP 其需要在預訓練階段與基礎模型一起訓練，限制了 MTP 在業界的廣泛應用。而 Eagle3 作為一種訓練后而集成的技術，很適合在已開源的超大尺寸模型上繼續訓練，而進一步提升推理效率。

SpecForge 正是基于 Eagle3，它不僅是首個支持超大模型投機采樣訓練并開箱即用的框架，還與 SGLang 推理引擎深度集成。一鍵打通投機采樣訓練推理全流程。

為何推出新的 Spec 訓練框架？

投機采樣（speculative decoding）已成為大語言模型（LLM）推理加速的共識方案，但其端到端訓練工具的缺失仍是明顯短板。目前開源社區中，尚無能夠支持超大尺寸模型訓練且與 SGLang 深度結合的框架，而這些工具層面的不足，直接導致此類模型的部署面臨巨大挑戰。

SpecForge為此而來，一個專為投機采樣訓練而生、并與 SGLang 原生集成的生態系統，其核心功能包括：

原生支持最新開源架構：SpecForge 支持主流模型，包括復雜的 MoE 層和 Transformer 變體。

可擴展的分布式訓練：SpecForge 集成了 FSDP ( Fully Sharded Data Parallel ) 和 TP ( Tensor Parallelism ) 等并行策略，可在 GPU 集群上實現高效擴展。

內存高效訓練優化：顯著降低了大規模模型訓練時的內存開銷；即使是萬億參數的基礎模型，訓練 Eagle3 也同樣高效。

SpecForge 核心特性 Eagle3 集成

Eagle 是一種最先進的投機采樣方法，旨在加速大型語言模型推理。它通過訓練一個專門的輕量級草稿模型來準確預測較大目標模型的 token 分布，從而實現高接受率和顯著的性能提升。下圖展示了 Eagle3 的端到端訓練流程：

訓練時測試（TTT）支持

EAGLE3 的高性能提升主要來源于其創新的訓練時測試 ( Training-Time Test ) 架構，該架構通過模擬多步生成來增強草稿模型的健壯性。盡管 TTT 性能強大，但其實現卻極具有挑戰性，因為它依賴于復雜的專用注意力掩碼（specialized attention masks）和遞歸式數據循環（recursive data loops）。

SpecForge 將這一復雜過程完全封裝，提供了內置且經過驗證的 TTT 支持。實現嚴格參照了官方 Eagle3 的核心邏輯，以確保其計算的正確性與性能，從而免除底層實現負擔。

雙重訓練模式：在線與離線

SpecForge 通過提供兩種訓練模式：在線 ( Online ) 和離線 ( Offline ) 來簡化隱藏狀態的收集，隱藏層的收集是 Eagle 類模型的特點。它通過主模型的隱藏層訓練草稿模型，讓草稿模型整體分布和主模型對齊。

該框架的雙模式設計能讓用戶能找到高效的訓練模式，關于在線和離線訓練的優缺點如下文所示。

選擇在線或離線模式，可以根據您的具體需求和資源調整訓練過程。

在線模式：可實現最大速度和靈活性。它非常適合快速實驗和存儲有限的場景，因為它能動態生成數據，無需大量磁盤空間。

離線模式：適用于可復現性和數據復用至關重要的場景。通過預先計算和存儲隱藏狀態，此模式可保證實驗之間的一致性，在存儲空間充足時效率很高。

擴展性優先

SpecForge 在設計時高度重視可擴展性，以滿足工程生產需求。該框架使用模塊化接口實現了新草稿模型和主模型的直接實現和注冊。

為了實現可擴展性，團隊實現了多種訓練時并行策略。包括 FSDP ( Fully Sharded Data Parallel ) 和 TP 并行實現，確保超大型模型的高效訓練。

實驗

為驗證 SpecForge 的有效性，團隊利用它在包含 320K 樣本的 ShareGPT 和 UltraChat 數據集上，為 LLaMA 4 訓練了 Scout 和 Maverick 草稿模型。

這些模型在 MT-Bench 等行業標準基準上表現出色，充分證明了其模型質量以及與 Eagle3 架構的兼容性。特別值得一提的是，團隊為 Llama 4 Maverick 訓練的草稿模型在 MT-Bench 上實現了 2.18 倍的推理加速。

詳細的實驗結果與性能指標總結如下。

在下圖所示的所有測試中，x 軸代表投機采樣步長，對應于 SGLang 中的 speculative-num-steps。同時，將 SGLang 的 speculative-eagle-topk 固定為 8，將 speculative-num-draft-tokens 固定為 10，這樣可以使用 tree attention 達到更高的接受率。為了找到最優的投機采樣參數，可以使用 SGLang 代碼庫中的 bench_speculative 腳本。該腳本會在不同配置下運行吞吐量基準測試，針對硬件調優出最佳性能。

最后，可以在 GitHub 上查看源代碼，并在 Hugging Face 上試用已訓練的模型。

GitHub 倉庫：訓練框架的完整源代碼，包括 TTT 和數據處理的實現細節。https://github.com/sgl-project/SpecForge

SpecForge 的 Roadmap 如下：

支持更多模型架構，包括 Kimi K2 和 Qwen-3 MoE。

將視覺 - 語言模型 ( VLM ) 集成到 SpecForge 中。

通過更好的并行策略和 kernel 優化來支持更高效的訓練。

Blog 地址：https://lmsys.org/blog/2025-07-25-spec-forge/

團隊成員

SGLang 核心團隊：Shenggui Li、Shuai Shi、Fan Yin、Yikai Zhu、Yi Zhang、Yingyi Huang、Yineng Zhang 及其他成員。

美團搜推平臺：Chao Wang

SafeAILab 團隊：Yuhui Li、Hongyang Zhang 及其成員

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

點亮星標

科技前沿進展每日見

宙世代

ZAKER旗下Web3.0元宇宙平臺

一起剪

ZAKER旗下免費視頻剪輯工具

相關標簽

美團 gpu

国产一级色_蜜桃αv_伊人www_99久久婷婷国产综合精品电影_大陆毛片_国产精品久久久久久久久久免费看

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業展廳解決方案

元宇宙藝術展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

超大模型推理加速 2.18 倍！SGLang 聯合美團技術團隊開源投機采樣訓練框架

宙世代

一起剪

相關閱讀

小米16 Ultra已在路上！徠卡考夫曼博士送給盧偉冰最好的禮物

雄安電信迎來首位萬兆寬帶用戶：上傳、下載均逼近10000Mbps

京東宣布大計劃：1000個海外品牌三年增長100億

手機廠商AI賽跑 榮耀多模態大模型MagicGUI登場

套現50億，今年最“爽”的IPO來了

DeepSeek真的“涼”了嗎 業內人士：分明是飛入尋常百姓家

具身智能，京東美團的下一個外部戰場

曝華為全新三折疊屏即將邁入無卡時代：支持eSIM

當科幻照進現實：傲鯊首款消費級外骨骼機器人 VIATRIX 驚艷亮相 WAIC 2025

騰訊廣告數字人亮相WAIC，3000+“主播”搭配AI工具助力商家低成本營銷

4299元！XREAL One Pro上手：AR眼鏡的「大屏旗艦版」來了

“火藥味”對決！宇樹機器人和真人激烈“打架”視頻意外流出

中科院發布磐石·科學基礎大模型：掌握數理化天地生六大學科

3.99萬的R1來了！宇樹化身價格屠夫，人形機器人迎紅米時刻

最新評論

量子位

熱門推薦

手機廠商AI賽跑榮耀多模態大模型MagicGUI登場

DeepSeek真的“涼”了嗎業內人士：分明是飛入尋常百姓家