国产一级色_蜜桃αv_伊人www_99久久婷婷国产综合精品电影_大陆毛片_国产精品久久久久久久久久免费看

關于ZAKER 合作
量子位 12小時前

超大模型推理加速 2.18 倍!SGLang 聯合美團技術團隊開源投機采樣訓練框架

專門適用超大模型、帶來 2.18 倍推理加速,最新投機采樣訓練框架開源!

SGLang 團隊聯合美團搜推平臺、Cloudsway.AI 開源 SpecForge。

SGLang,當前趨勢下最受青睞的推理框架之一,為 DeepSeek 提供了專屬優化,也深受英偉達、AMD、xAI 等廠商喜愛。

這一次開源,主要是針對當下超大模型趨勢。

隨著 Kimi K2、Qwen Coder 的開源,越來越多的超大型模型進入大家的視野。這些模型具有強勁的性能,但受制于模型尺寸導致推理效率較低。對于超大尺寸的模型,除了進一步優化算子之外。還有像投機采樣這樣的技術能加速它們的推理。

投機采樣(Speculative Sampling)通過引入輕量級的輔助模型來提升推理效率,同時確保結果的質量和正確性。

目前性能強勁的投機采樣技術分別有MTPEagle3,但 MTP 其需要在預訓練階段與基礎模型一起訓練,限制了 MTP 在業界的廣泛應用。而 Eagle3 作為一種訓練后而集成的技術,很適合在已開源的超大尺寸模型上繼續訓練,而進一步提升推理效率。

SpecForge 正是基于 Eagle3,它不僅是首個支持超大模型投機采樣訓練并開箱即用的框架,還與 SGLang 推理引擎深度集成。一鍵打通投機采樣訓練推理全流程。

為何推出新的 Spec 訓練框架?

投機采樣(speculative decoding)已成為大語言模型(LLM)推理加速的共識方案,但其端到端訓練工具的缺失仍是明顯短板。目前開源社區中,尚無能夠支持超大尺寸模型訓練且與 SGLang 深度結合的框架,而這些工具層面的不足,直接導致此類模型的部署面臨巨大挑戰。

SpecForge為此而來,一個專為投機采樣訓練而生、并與 SGLang 原生集成的生態系統,其核心功能包括:

原生支持最新開源架構:SpecForge 支持主流模型,包括復雜的 MoE 層和 Transformer 變體。

可擴展的分布式訓練:SpecForge 集成了 FSDP ( Fully Sharded Data Parallel ) 和 TP ( Tensor Parallelism ) 等并行策略,可在 GPU 集群上實現高效擴展。

內存高效訓練優化:顯著降低了大規模模型訓練時的內存開銷;即使是萬億參數的基礎模型,訓練 Eagle3 也同樣高效。

SpecForge 核心特性 Eagle3 集成

Eagle 是一種最先進的投機采樣方法,旨在加速大型語言模型推理。它通過訓練一個專門的輕量級草稿模型來準確預測較大目標模型的 token 分布,從而實現高接受率和顯著的性能提升。下圖展示了 Eagle3 的端到端訓練流程:

訓練時測試(TTT)支持

EAGLE3 的高性能提升主要來源于其創新的訓練時測試 ( Training-Time Test ) 架構,該架構通過模擬多步生成來增強草稿模型的健壯性。盡管 TTT 性能強大,但其實現卻極具有挑戰性,因為它依賴于復雜的專用注意力掩碼(specialized attention masks)和遞歸式數據循環(recursive data loops)。

SpecForge 將這一復雜過程完全封裝,提供了內置且經過驗證的 TTT 支持。實現嚴格參照了官方 Eagle3 的核心邏輯,以確保其計算的正確性與性能,從而免除底層實現負擔。

雙重訓練模式:在線與離線

SpecForge 通過提供兩種訓練模式:在線 ( Online ) 和離線 ( Offline ) 來簡化隱藏狀態的收集,隱藏層的收集是 Eagle 類模型的特點。它通過主模型的隱藏層訓練草稿模型,讓草稿模型整體分布和主模型對齊。

該框架的雙模式設計能讓用戶能找到高效的訓練模式,關于在線和離線訓練的優缺點如下文所示。

選擇在線或離線模式,可以根據您的具體需求和資源調整訓練過程。

在線模式:可實現最大速度和靈活性。它非常適合快速實驗和存儲有限的場景,因為它能動態生成數據,無需大量磁盤空間。

離線模式:適用于可復現性和數據復用至關重要的場景。通過預先計算和存儲隱藏狀態,此模式可保證實驗之間的一致性,在存儲空間充足時效率很高。

擴展性優先

SpecForge 在設計時高度重視可擴展性,以滿足工程生產需求。該框架使用模塊化接口實現了新草稿模型和主模型的直接實現和注冊。

為了實現可擴展性,團隊實現了多種訓練時并行策略。包括 FSDP ( Fully Sharded Data Parallel ) 和 TP 并行實現,確保超大型模型的高效訓練。

實驗

為驗證 SpecForge 的有效性,團隊利用它在包含 320K 樣本的 ShareGPT 和 UltraChat 數據集上,為 LLaMA 4 訓練了 Scout 和 Maverick 草稿模型。

這些模型在 MT-Bench 等行業標準基準上表現出色,充分證明了其模型質量以及與 Eagle3 架構的兼容性。特別值得一提的是,團隊為 Llama 4 Maverick 訓練的草稿模型在 MT-Bench 上實現了 2.18 倍的推理加速。

詳細的實驗結果與性能指標總結如下。

在下圖所示的所有測試中,x 軸代表投機采樣步長,對應于 SGLang 中的 speculative-num-steps。同時,將 SGLang 的 speculative-eagle-topk 固定為 8,將 speculative-num-draft-tokens 固定為 10,這樣可以使用 tree attention 達到更高的接受率。為了找到最優的投機采樣參數,可以使用 SGLang 代碼庫中的 bench_speculative 腳本。該腳本會在不同配置下運行吞吐量基準測試,針對硬件調優出最佳性能。

最后,可以在 GitHub 上查看源代碼,并在 Hugging Face 上試用已訓練的模型。

GitHub 倉庫: 訓練框架的完整源代碼,包括 TTT 和數據處理的實現細節。https://github.com/sgl-project/SpecForge

SpecForge 的 Roadmap 如下:

支持更多模型架構,包括 Kimi K2 和 Qwen-3 MoE。

將視覺 - 語言模型 ( VLM ) 集成到 SpecForge 中。

通過更好的并行策略和 kernel 優化來支持更高效的訓練。

Blog 地址:https://lmsys.org/blog/2025-07-25-spec-forge/

團隊成員

SGLang 核心團隊:Shenggui Li、Shuai Shi、Fan Yin、Yikai Zhu、Yi Zhang、Yingyi Huang、Yineng Zhang 及其他成員。

美團搜推平臺:Chao Wang

SafeAILab 團隊:Yuhui Li、Hongyang Zhang 及其成員

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

點亮星標

科技前沿進展每日見

相關標簽
主站蜘蛛池模板: 国产一级片在线播放 | 一级大片免费看 | 亚洲免费一区二区 | 毛片网站视频 | 日韩欧美一区二区三区久久婷婷 | 国产成人一区二区 | 亚洲国产日韩在线 | 中文字幕亚洲精品 | 神马九九| 亚洲第一区视频 | 免费的黄色网 | 一区二区三区在线看 | 久久机热| 欧美一区二区在线播放 | 五月天开心网 | 韩国精品一区二区 | 91麻豆国产精品 | 亚洲午夜视频在线观看 | 国产精品96 | 国产精品伦一区二区三级视频 | 精品国产一区二区在线观看 | 欧美自拍视频 | 成人毛片在线观看 | 国产成人在线免费观看 | 日本不卡高字幕在线2019 | 天天爽夜夜操 | av福利在线观看 | 黄色在线免费看 | 色爽| 在线播放毛片 | 一区二区不卡 | 欧美日韩国产在线 | 国内精品国产成人国产三级 | 亚洲黄色网址 | 国产日韩欧美在线 | 丁香婷婷色 | 黄色激情视频网站 | 成年人网站在线免费观看 | 久草免费在线观看视频 | 欧美在线小视频 | 色天天综合 |