干貨來了!
如何理解大模型推理能力?現在有來自谷歌 DeepMind 推理負責人 Denny Zhou 的分享了。
就是那位和清華姚班馬騰宇等人證明了只要思維鏈足夠長,Transformer 就能解決任何問題的 Google Brain 推理團隊創建者。
Denny Zhou 圍繞大模型推理過程和方法,在斯坦福大學 CS25 上講了一堂 "LLM 推理 " 課。
有推理過程的答案會讓模型更自信
首先,什么是大模型推理呢?
其實就是大語言模型在給出最終答案前的中間思考步驟。
"artificial intelligence" 每個單詞的最后一個字母連起來是什么?
有推理過程的回答會先分別找出 "artificial" 的最后一個字母是 "l","intelligence" 的最后一個字母是 "e",再把它們拼接成 "le";而沒有推理的就直接給出 "le" 這個結果。
這種推理過程和人類的思維過程無關,而關鍵在于生成了大量的中間內容。
那為什么中間思考步驟很重要呢?
一個原因是它可以讓復雜問題變得可解。
簡單來說,對于能用布爾電路解決的問題,假設電路規模是 T,哪怕是固定大小的 Transformer 模型,生成 O ( T ) 個中間步驟就能搞定。
但如果跳過中間步驟,直接讓模型輸出最終答案,要么需要極深的模型層數(增加計算成本),要么根本無法解決。
Denny Zhou 和馬騰宇等人的著作《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》提到如果給 Transformer 引入思維鏈,就能大大提高模型推理能力。
這篇論文說明了只要引入思維鏈,那么無需擴展模型的規模就能讓 Transformer 變得強大到能解決任何問題。
理論上來說,只要有足夠的 CoT 步驟,Transformer 就可以模擬多項式大小電路可以執行的任何計算,從而縮小了 Transformer 與圖靈機之間的差距。
沒有推理步驟時,模型可能靠 " 瞎猜 " 給出答案。
例如問:
我有 3 個蘋果,爸爸比我多 2 個,一共多少個?"
直接輸出的答案可能是錯誤的 "5 個 ";
但有推理步驟的回答就是 " 爸爸有 3+2=5 個,總共 3+5=8 個 "),答案更可能正確。
就像做數學題一樣,一步步推導可比瞎蒙準確率高多了。
并且,對于有推理過程的答案會讓模型更有信心。
Denny Zhou 還強調預訓練模型即使沒有經過任何微調,也具備推理能力。
只不過,基于推理的輸出通常不會出現在輸出分布的優先級部分,因此無法通過貪婪解碼(選擇概率最高的輸出)輸出。
一種方法是提示。
既然模型對于有推理過程的答案更有信心,那么我們可以通過思維鏈提示或者加上提示詞來讓模型進行推理。
比如思維鏈提示,你可以給它一個帶步驟的例子,給它打個樣。或者你可以告訴它:讓我們一步步想。
不過,Denny Zhou 和 Xuezhi Wang 在《Chain-of-Thought Reasoning Without Prompting》一文中提出其實不用這些提示,只要改變模型的解碼方式,就能讓預訓練的語言模型展現出推理能力。
而且當有這種推理路徑時,模型對答案的信心也更高。
于是他們提出了CoT-decoding方法,就是從這些 top-k 的解碼路徑中,選出那些有推理過程且模型信心高的路徑,這樣能讓模型在各種推理任務上表現得更好,甚至能接近經過指令微調的模型效果。
不過,另一種方法就是監督微調(SFT)。
監督微調就是用人類寫的帶步驟的題和答案訓練模型,讓模型學著生成類似的步驟。
但這種方法有個問題是泛化性不太好,換個新場景可能就不靈了,而且模型做大了也沒用。
于是,研究人員對監督微調進行了改進,一種是自我改進,讓模型自己生成步驟和答案,然后用正確的那些訓練自己,有點像學生自己做題糾錯。
另一種是強化學習微調,反復讓模型生成答案,多練正確的,少練錯誤的。這里面,能判斷答案對不對的 " 驗證器 " 很重要。
并且,Denny Zhou 認為擴展強化學習應該專注于生成長響應,也就是《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》這篇文章中的觀點。
另外,進一步的重大改進是聚合和檢索的方法。
LLM 是概率模型,其解碼時追求的是在給定問題下推理和最終答案的聯合概率最大,而我們想要的是給定問題下最終答案的概率最大,兩者并不一致。
邊緣化和自一致性:生成多個回答,選擇出現最頻繁的答案。
通用自一致性:讓 LLM 自己選擇最一致的答案,適用于非唯一答案的問題,比如 " 哪些國家的人比墨西哥人喝咖啡少 "。
檢索 + 推理:結合檢索和推理的方法,先回憶相關問題,再解決當前問題。比如計算正方形面積的問題,先回憶兩點間距離公式,再計算邊長,進而得到面積。
最后,Denny Zhou 總結了提升 LLM 推理能力的要點:
推理比不推理好
強化學習微調比監督微調好
聚合多個答案比單個答案好
檢索 + 推理比僅推理好
Denny Zhou 介紹
Denny Zhou 是中科院博士,2017 年加入 Google 前在微軟擔任了 11 年的高級研究員。
他的研究目標是通過構建具備推理能力的大型語言模型解決人工通用智能(AGI)問題,核心方向包括思維鏈、自洽性、任務分解、零樣本學習、組合泛化及大語言模型理論等,追求實現完美泛化。
在 2022 年,他榮獲谷歌研究技術影響力獎、2022 年 WSDM 時間考驗獎等。
近年來,他多次受邀在耶魯大學、哈佛大學、斯坦福大學等多所高校和機構進行主題為語言模型推理的演講。
這次 Denny Zhou 在斯坦福大學 CS25 課程上用的課件已附在文末~
完整版 pdf:https://dennyzhou.github.io/LLM-Reasoning-Stanford-CS-25.pdf
參考鏈接:
[ 1 ] https://x.com/denny_zhou/status/1948499173986201915
[ 2 ] https://dennyzhou.github.io/
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
量子位「AI 100」產品榜單啟動招募!
快來提名你心目里的百強產品~
點亮星標
科技前沿進展每日見