智東西
作者 | 程茜
編輯 | 漠影
智東西 6 月 6 日報道,今日,智源研究院重磅發布全新悟界系列大模型,是其對 AI 從數字世界邁向物理世界技術趨勢判斷交出的最新答卷。
智源研究院的悟道系列大模型拉開了中國大模型時代,如今 AI 加速從數字世界邁向物理世界,悟界系列大模型已然成為其面向 AI 下一階段發展的代表。
與此同時,智源研究院作為鏈接產業界和學術界的重要平臺,其舉辦的智源大會已經發展成 AI 領域的頂級學術盛會。
今年第七屆智源大會更是頂級大咖云集,包含圖靈獎得主、深度學習代表人物 Yoshua Bengio,圖靈獎得主、強化學習之父 Richard S. Sutton,圖靈獎得主 Joseph Sifakis、姚期智 4 位圖靈獎得主,30 余位企業創始人或 CEO、100 余位青年科學家、200 余位 AI 頂尖學者和產業專家,他們將開展 180 多場 AI 主題分享。
一、悟界系列 4 大模型亮相,橫貫微觀生命、具身智能
大模型正在經歷從數字世界向物理世界的演進,悟界系列大模型應運而生,以拓展 AI 與物理世界交互的邊界。
從微觀生命體到具身智能體,悟界系列大模型共包含 4 款大模型。
1、原生多模態世界模型 Emu3、腦科學多模態通用基礎模型見微 Brainμ
原生多模態世界模型 Emu3,基于下一個 token 預測范式統一多模態學習,使模型更易擴展至更多模態。同時其通過研發新型視覺 tokenizer 將圖像 / 視頻編碼為與文本同構的離散符號序列,構建模態無關的統一表征空間,可實現文本、圖像、視頻的任意組合理解與生成。
腦科學領域的多模態通用基礎模型見微 Brainμ,基于 Emu3 的底層架構,將 fMRI、EEG、雙光子等神經科學與腦醫學相關的腦信號統一 token 化,利用預訓練模型多模態對齊的優勢,可以實現多模態腦信號與文本、圖像等模態的多向映射,這使得單一模型就能完成多種神經科學下游任務,實現跨模態、跨任務、跨個體的統一通用建模。
目前,Brainμ 整合了神經科學領域多個大型公開數據集和多個合作實驗室的高質量神經科學數據,完成了超過 100 萬單位的神經信號預訓練。
智源研究院已經與國內頂尖腦科學團隊、腦疾病研究團隊、腦機接口應用團隊建立了合作,例如與腦機接口公司強腦科技合作實現了首次在便攜式消費級腦電系統上重建感覺信號。
2、跨本體具身大小腦協作框架 RoboOS 2.0 與具身大腦 RoboBrain 2.0
具身智能作為 AI 與宏觀物理世界交互的一個關鍵載體,智源研究院發布的跨本跨本體具身大小腦協作框架 RoboOS 2.0 是全球首個基于具身智能 SaaS 平臺、支持無服務器一站式輕量化機器人本體部署的開源框架。同時,RoboOS 2.0 也是全球首個支持 MCP 的跨本體具身大小腦協作框架,旨在構建具身智能領域的 " 應用商店 " 生態。
RoboOS 2.0 實現了小腦技能的免適配注冊機制,顯著降低開發門檻,典型場景下,相關代碼量僅為傳統手動注冊方式的 1/10。相比于 1.0,RoboOS 2.0 對端到端推理鏈路進行了系統級優化,整體性能提升達 30%,全鏈路平均響應時延低至 3ms 以下,端云通信效率提升 27 倍。
具身大腦 RoboBrain 2.0 是目前全球最強的開源具身大腦大模型,在多項空間推理與任務規劃指標上超越主流大模型。
RoboOS 2.0 與 RoboBrain 2.0 已全面開源,包括框架代碼、模型權重、數據集與評測基準。
3、全原子微觀生命模型 OpenComplex2
除了宏觀世界,物理世界還有一大重要組成部分是微觀世界。悟界系列的第四大模型正是全原子微觀生命模型 OpenComplex2。
OpenComplex2 實現了生物分子研究從靜態結構預測到動態構象分布建模的重大突破。該模型能夠表征生物分子系統的連續演化能量景觀(Energy Landscape),并通過融合擴散生成式建模與生物實驗數據,在原子分辨率層面捕捉分子相互作用及平衡構象分布。
二、從探索模型方法論到突破虛實世界邊界,智源研究院加速 AI 解決實際問題布局
從悟道到悟界系列大模型的發布,是智源研究院探索實現 AGI 的重要一步。
去年智源大會上,王仲遠就談到了對大模型技術路徑演進的看法:AGI 可能的技術演化路徑將會從大語言模型到統一的多模態大模型,然后進入物理世界、微觀世界形成世界模型,最終推動 AGI 時代到來。
時至今日,這一判斷也在實踐中得到了驗證。AI 長遠的目標是被用來解決實際問題,如今大模型研發已經進入解構現實世界的新階段。
可以看出,作為引領 AI 產業發展的頂尖機構,智源研究院成立至今已經多次預見 AI 的發展機遇。
2020 年,智源研究院成立百人技術攻關團隊,至今已先后發布悟道 1.0、2.0、3.0 系列模型,構建了全棧大模型技術開源體系,并孵化出國內數家知名大模型創企;如今站在 AI 產業發展的關鍵轉折點,悟界系列大模型應運而生。
從 " 悟道 " 與 " 悟界 " 命名也可以更為直觀感受到,悟道的 " 道 " 代表智源研究院對大語言模型系統化方法論的探索,悟界的 " 界 " 則代表對虛實世界邊界的不斷突破。
更為重要的是,即使 AI 產業發展的重心不斷變化,開源一直是智源研究院堅持的底色。
智源研究院打造的覆蓋模型、算法、數據、評測、系統的大模型開源技術體系 FlagOpen,截至目前已開源約 200 個模型和 160 個數據集,其中,模型全球總下載量超 6.4 億次,開源數據集下載量近 113 萬次,開源項目代碼下載量超 140 萬次。
其中,在開源模型方面,通用向量模型 BGE 于去年 10 月成為中國首個登頂 Hugging Face 月度下載排行榜榜首的開源模型,同時也是截至去年年底的 2023 年所有發布模型的全球下載量冠軍;開源輕量長視頻理解模型 Video-XL 2,支持在單張顯卡上高效處理長達萬幀的視頻輸入;開源全能視覺生成模型 OmniGen,采用極簡架構,僅由大模型基座和 VAE 模塊構成,可降低了開發和部署成本,并通過廣泛的指令學習,實現了視覺生成能力的高度集成。
此外,智源研究院構建的 AI 系統軟件棧 FlagOS 實現升級,新增了統一編譯器 FlagTree、統一通信庫 FlagCX、自動發版平臺工具 FlagRelease,實現對 11 家國內外廠商的 18 款異構 AI 硬件的統一支持。
將視野放大到整個 AI 產業,我們可以更為清晰的觀察到智源研究院當下布局在產業中的重要性。
目前,諸多企業都在朝著多模態基礎模型、具身智能等方向進行探索,但痛點在于技術路線多元且并不收斂。
因此,智源研究院在此基礎上,更看重對不同技術路線、方法的探索,當其研究達到一定成果就會通過開源的方式讓企業來做。
結語:全球大模型先鋒集結
一直以來,智源研究院都走在 AI 產業技術路線探索的前沿,并通過構建開源開放的生態推動學術界與產業界的發展。如今,AI 產業正經歷從數字世界走向物理世界,智源研究院的角色進一步凸顯。
而北京智源大會作為 "AI 內行學術盛會 ",不僅是智源研究院成果發布與探索的展現平臺,更承載著海內外研究者分享研究成果、探尋前沿知識、交流實踐經驗的重要意義。