不卡视频一区二区,久久91精品国产,精品久久影院

干貨來了！

如何理解大模型推理能力？現在有來自谷歌 DeepMind 推理負責人 Denny Zhou 的分享了。

就是那位和清華姚班馬騰宇等人證明了只要思維鏈足夠長，Transformer 就能解決任何問題的 Google Brain 推理團隊創建者。

Denny Zhou 圍繞大模型推理過程和方法，在斯坦福大學 CS25 上講了一堂 "LLM 推理 " 課。

讓我們也來跟著大神學習一下。

有推理過程的答案會讓模型更自信

首先，什么是大模型推理呢？

其實就是大語言模型在給出最終答案前的中間思考步驟。

比如問

"artificial intelligence" 每個單詞的最后一個字母連起來是什么？

有推理過程的回答會先分別找出 "artificial" 的最后一個字母是 "l"，"intelligence" 的最后一個字母是 "e"，再把它們拼接成 "le"；而沒有推理的就直接給出 "le" 這個結果。

這種推理過程和人類的思維過程無關，而關鍵在于生成了大量的中間內容。

那為什么中間思考步驟很重要呢？

一個原因是它可以讓復雜問題變得可解。

簡單來說，對于能用布爾電路解決的問題，假設電路規模是 T，哪怕是固定大小的 Transformer 模型，生成 O ( T ) 個中間步驟就能搞定。

但如果跳過中間步驟，直接讓模型輸出最終答案，要么需要極深的模型層數（增加計算成本），要么根本無法解決。

Denny Zhou 和馬騰宇等人的著作《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》提到如果給 Transformer 引入思維鏈，就能大大提高模型推理能力。

這篇論文說明了只要引入思維鏈，那么無需擴展模型的規模就能讓 Transformer 變得強大到能解決任何問題。

理論上來說，只要有足夠的 CoT 步驟，Transformer 就可以模擬多項式大小電路可以執行的任何計算，從而縮小了 Transformer 與圖靈機之間的差距。

另一方面是中間步驟可以提升答案的準確性和可靠性。

沒有推理步驟時，模型可能靠 " 瞎猜 " 給出答案。

例如問：

我有 3 個蘋果，爸爸比我多 2 個，一共多少個？"

直接輸出的答案可能是錯誤的 "5 個 "；

但有推理步驟的回答就是 " 爸爸有 3+2=5 個，總共 3+5=8 個 "），答案更可能正確。

這是因為推理步驟迫使模型有理有據地推導，尤其是對需要邏輯鏈條的問題（如數學、因果分析），減少了隨機猜測的概率。

就像做數學題一樣，一步步推導可比瞎蒙準確率高多了。

并且，對于有推理過程的答案會讓模型更有信心。

Denny Zhou 還強調預訓練模型即使沒有經過任何微調，也具備推理能力。

只不過，基于推理的輸出通常不會出現在輸出分布的優先級部分，因此無法通過貪婪解碼（選擇概率最高的輸出）輸出。

那么我們如何讓它輸出推理后的答案呢？

一種方法是提示。

既然模型對于有推理過程的答案更有信心，那么我們可以通過思維鏈提示或者加上提示詞來讓模型進行推理。

比如思維鏈提示，你可以給它一個帶步驟的例子，給它打個樣。或者你可以告訴它：讓我們一步步想。

不過，Denny Zhou 和 Xuezhi Wang 在《Chain-of-Thought Reasoning Without Prompting》一文中提出其實不用這些提示，只要改變模型的解碼方式，就能讓預訓練的語言模型展現出推理能力。

原來模型在生成答案時，通常只用最可能的那個詞（貪心解碼），但如果看看排在后面的幾個可能的詞（top-k 替代詞），會發現里面藏著一步步推理的路徑。

而且當有這種推理路徑時，模型對答案的信心也更高。

于是他們提出了CoT-decoding方法，就是從這些 top-k 的解碼路徑中，選出那些有推理過程且模型信心高的路徑，這樣能讓模型在各種推理任務上表現得更好，甚至能接近經過指令微調的模型效果。

不過，另一種方法就是監督微調（SFT）。

監督微調就是用人類寫的帶步驟的題和答案訓練模型，讓模型學著生成類似的步驟。

但這種方法有個問題是泛化性不太好，換個新場景可能就不靈了，而且模型做大了也沒用。

于是，研究人員對監督微調進行了改進，一種是自我改進，讓模型自己生成步驟和答案，然后用正確的那些訓練自己，有點像學生自己做題糾錯。

另一種是強化學習微調，反復讓模型生成答案，多練正確的，少練錯誤的。這里面，能判斷答案對不對的 " 驗證器 " 很重要。

現在，強化學習微調已成為了引出推理的最強大的方法。

并且，Denny Zhou 認為擴展強化學習應該專注于生成長響應，也就是《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》這篇文章中的觀點。

另外，進一步的重大改進是聚合和檢索的方法。

LLM 是概率模型，其解碼時追求的是在給定問題下推理和最終答案的聯合概率最大，而我們想要的是給定問題下最終答案的概率最大，兩者并不一致。

于是有了以下改進方法：

邊緣化和自一致性：生成多個回答，選擇出現最頻繁的答案。

通用自一致性：讓 LLM 自己選擇最一致的答案，適用于非唯一答案的問題，比如 " 哪些國家的人比墨西哥人喝咖啡少 "。

檢索 + 推理：結合檢索和推理的方法，先回憶相關問題，再解決當前問題。比如計算正方形面積的問題，先回憶兩點間距離公式，再計算邊長，進而得到面積。

最后，Denny Zhou 總結了提升 LLM 推理能力的要點：

推理比不推理好

強化學習微調比監督微調好

聚合多個答案比單個答案好

檢索 + 推理比僅推理好

并指出未來的突破方向是解決非唯一可驗證答案的任務，以及構建實際應用而非僅解決基準測試問題。

Denny Zhou 介紹

Denny Zhou 是中科院博士，2017 年加入 Google 前在微軟擔任了 11 年的高級研究員。

他創立并領導了 Google Brain 中的推理團隊，Google Brain 現已成為 Google DeepMind 的一部分。

他的研究目標是通過構建具備推理能力的大型語言模型解決人工通用智能（AGI）問題，核心方向包括思維鏈、自洽性、任務分解、零樣本學習、組合泛化及大語言模型理論等，追求實現完美泛化。

在 2022 年，他榮獲谷歌研究技術影響力獎、2022 年 WSDM 時間考驗獎等。

近年來，他多次受邀在耶魯大學、哈佛大學、斯坦福大學等多所高校和機構進行主題為語言模型推理的演講。

這次 Denny Zhou 在斯坦福大學 CS25 課程上用的課件已附在文末～

完整版 pdf：https://dennyzhou.github.io/LLM-Reasoning-Stanford-CS-25.pdf

參考鏈接：

[ 1 ] https://x.com/denny_zhou/status/1948499173986201915

[ 2 ] https://dennyzhou.github.io/

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

量子位「AI 100」產品榜單啟動招募！

快來提名你心目里的百強產品～

點亮星標

科技前沿進展每日見

国产一级色_蜜桃αv_伊人www_99久久婷婷国产综合精品电影_大陆毛片_国产精品久久久久久久久久免费看

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業展廳解決方案

元宇宙藝術展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

斯坦福大模型推理課免費了，谷歌推理團隊創始人主講

宙世代

一起剪

相關閱讀

套現50億，今年最“爽”的IPO來了

曝華為全新三折疊屏即將邁入無卡時代：支持eSIM

華為昇騰384超節點正式亮相 強勢碾壓英偉達、AMD一代

網易多款AI應用首次亮相人工智能大會，發布具身智能模型“靈掘”

阿里宋剛：突破用戶體驗瓶頸，將AI眼鏡真正帶入大眾消費市場

國內第一案！律師訴請騰訊《王者榮耀》公開游戲匹配算法：8月12日開庭

阿里巴巴首款！夸克AI眼鏡正式亮相：深度融合支付寶生態、通義千問大模型

榮耀MagicGUI大模型發布并開源！Magic V5首發搭載：跨應用/設備自動化

諾獎得主杰弗里·辛頓：應建立AI安全相關機構和社群，推動AI向善

鴻蒙5首款破千萬應用！小藝輸入法安裝量超1000萬

Robotaxi墻外開花墻內香，打翻Uber與滴滴的舊飯碗？

礪算科技今天發我國首款自主架構6nm GPU：性能搶先看 快媲美RTX 5060

相當于6個蘋果公司 馬斯克：特斯拉估值能達到20萬億美元！

被大疆殺入腹地后，660億相機龍頭大反擊

最新評論

量子位

熱門推薦

華為昇騰384超節點正式亮相強勢碾壓英偉達、AMD一代

礪算科技今天發我國首款自主架構6nm GPU：性能搶先看快媲美RTX 5060

相當于6個蘋果公司馬斯克：特斯拉估值能達到20萬億美元！