国产一级色_蜜桃αv_伊人www_99久久婷婷国产综合精品电影_大陆毛片_国产精品久久久久久久久久免费看

關于ZAKER 合作
量子位 昨天

斯坦福大模型推理課免費了,谷歌推理團隊創始人主講

干貨來了!

如何理解大模型推理能力?現在有來自谷歌 DeepMind 推理負責人 Denny Zhou 的分享了。

就是那位和清華姚班馬騰宇等人證明了只要思維鏈足夠長,Transformer 就能解決任何問題的 Google Brain 推理團隊創建者。

Denny Zhou 圍繞大模型推理過程和方法,在斯坦福大學 CS25 上講了一堂 "LLM 推理 " 課。

讓我們也來跟著大神學習一下。

有推理過程的答案會讓模型更自信

首先,什么是大模型推理呢?

其實就是大語言模型在給出最終答案前的中間思考步驟

比如問

"artificial intelligence" 每個單詞的最后一個字母連起來是什么?

有推理過程的回答會先分別找出 "artificial" 的最后一個字母是 "l","intelligence" 的最后一個字母是 "e",再把它們拼接成 "le";而沒有推理的就直接給出 "le" 這個結果。

這種推理過程和人類的思維過程無關,而關鍵在于生成了大量的中間內容。

那為什么中間思考步驟很重要呢?

一個原因是它可以讓復雜問題變得可解

簡單來說,對于能用布爾電路解決的問題,假設電路規模是 T,哪怕是固定大小的 Transformer 模型,生成 O ( T ) 個中間步驟就能搞定。

但如果跳過中間步驟,直接讓模型輸出最終答案,要么需要極深的模型層數(增加計算成本),要么根本無法解決。

Denny Zhou 和馬騰宇等人的著作《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》提到如果給 Transformer 引入思維鏈,就能大大提高模型推理能力。

這篇論文說明了只要引入思維鏈,那么無需擴展模型的規模就能讓 Transformer 變得強大到能解決任何問題。

理論上來說,只要有足夠的 CoT 步驟,Transformer 就可以模擬多項式大小電路可以執行的任何計算,從而縮小了 Transformer 與圖靈機之間的差距。

另一方面是中間步驟可以提升答案的準確性和可靠性

沒有推理步驟時,模型可能靠 " 瞎猜 " 給出答案。

例如問:

我有 3 個蘋果,爸爸比我多 2 個,一共多少個?"

直接輸出的答案可能是錯誤的 "5 個 ";

但有推理步驟的回答就是 " 爸爸有 3+2=5 個,總共 3+5=8 個 "),答案更可能正確。

這是因為推理步驟迫使模型有理有據地推導,尤其是對需要邏輯鏈條的問題(如數學、因果分析),減少了隨機猜測的概率。

就像做數學題一樣,一步步推導可比瞎蒙準確率高多了。

并且,對于有推理過程的答案會讓模型更有信心

Denny Zhou 還強調預訓練模型即使沒有經過任何微調,也具備推理能力

只不過,基于推理的輸出通常不會出現在輸出分布的優先級部分,因此無法通過貪婪解碼(選擇概率最高的輸出)輸出。

那么我們如何讓它輸出推理后的答案呢?

一種方法是提示

既然模型對于有推理過程的答案更有信心,那么我們可以通過思維鏈提示或者加上提示詞來讓模型進行推理。

比如思維鏈提示,你可以給它一個帶步驟的例子,給它打個樣。或者你可以告訴它:讓我們一步步想。

不過,Denny Zhou 和 Xuezhi Wang 在《Chain-of-Thought Reasoning Without Prompting》一文中提出其實不用這些提示,只要改變模型的解碼方式,就能讓預訓練的語言模型展現出推理能力。

原來模型在生成答案時,通常只用最可能的那個詞(貪心解碼),但如果看看排在后面的幾個可能的詞(top-k 替代詞),會發現里面藏著一步步推理的路徑。

而且當有這種推理路徑時,模型對答案的信心也更高。

于是他們提出了CoT-decoding方法,就是從這些 top-k 的解碼路徑中,選出那些有推理過程且模型信心高的路徑,這樣能讓模型在各種推理任務上表現得更好,甚至能接近經過指令微調的模型效果

不過,另一種方法就是監督微調(SFT)

監督微調就是用人類寫的帶步驟的題和答案訓練模型,讓模型學著生成類似的步驟。

但這種方法有個問題是泛化性不太好,換個新場景可能就不靈了,而且模型做大了也沒用。

于是,研究人員對監督微調進行了改進,一種是自我改進,讓模型自己生成步驟和答案,然后用正確的那些訓練自己,有點像學生自己做題糾錯。

另一種是強化學習微調,反復讓模型生成答案,多練正確的,少練錯誤的。這里面,能判斷答案對不對的 " 驗證器 " 很重要。

現在,強化學習微調已成為了引出推理的最強大的方法。

并且,Denny Zhou 認為擴展強化學習應該專注于生成長響應,也就是《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》這篇文章中的觀點。

另外,進一步的重大改進是聚合和檢索的方法。

LLM 是概率模型,其解碼時追求的是在給定問題下推理和最終答案的聯合概率最大,而我們想要的是給定問題下最終答案的概率最大,兩者并不一致。

于是有了以下改進方法:

邊緣化和自一致性:生成多個回答,選擇出現最頻繁的答案。

通用自一致性:讓 LLM 自己選擇最一致的答案,適用于非唯一答案的問題,比如 " 哪些國家的人比墨西哥人喝咖啡少 "。

檢索 + 推理:結合檢索和推理的方法,先回憶相關問題,再解決當前問題。比如計算正方形面積的問題,先回憶兩點間距離公式,再計算邊長,進而得到面積。

最后,Denny Zhou 總結了提升 LLM 推理能力的要點

推理比不推理好

強化學習微調比監督微調好

聚合多個答案比單個答案好

檢索 + 推理比僅推理好

并指出未來的突破方向是解決非唯一可驗證答案的任務,以及構建實際應用而非僅解決基準測試問題。

Denny Zhou 介紹

Denny Zhou 是中科院博士,2017 年加入 Google 前在微軟擔任了 11 年的高級研究員。

他創立并領導了 Google Brain 中的推理團隊,Google Brain 現已成為 Google DeepMind 的一部分。

他的研究目標是通過構建具備推理能力的大型語言模型解決人工通用智能(AGI)問題,核心方向包括思維鏈、自洽性、任務分解、零樣本學習、組合泛化及大語言模型理論等,追求實現完美泛化。

在 2022 年,他榮獲谷歌研究技術影響力獎、2022 年 WSDM 時間考驗獎等。

近年來,他多次受邀在耶魯大學、哈佛大學、斯坦福大學等多所高校和機構進行主題為語言模型推理的演講。

這次 Denny Zhou 在斯坦福大學 CS25 課程上用的課件已附在文末~

完整版 pdf:https://dennyzhou.github.io/LLM-Reasoning-Stanford-CS-25.pdf

參考鏈接:

[ 1 ] https://x.com/denny_zhou/status/1948499173986201915

[ 2 ] https://dennyzhou.github.io/

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

量子位「AI 100」產品榜單啟動招募!

快來提名你心目里的百強產品~

點亮星標

科技前沿進展每日見

相關標簽
主站蜘蛛池模板: 国产成人精品一区二区三区四区 | 亚洲天堂第一页 | 九色91popny蝌蚪新疆 | 91福利视频导航 | 久久天堂网 | 99热思思 | 一级片av | 91久久国产综合久久91精品网站 | 国产午夜三级一区二区三 | 日韩精品三级 | www.操| 天天干狠狠干 | 成人福利网站 | 久久视频精品 | 欧美www| 国产欧美日韩综合精品 | 日韩a级片 | 精品日韩一区二区 | 免费成人黄色 | 午夜在线观看视频网站 | 久久综合国产 | 在线观看成年人视频 | www国产| 亚洲精品免费在线 | 在线视频日韩 | 国产区一区二区 | 国产三级做爰高清在线 | 日韩福利视频 | 免费激情网站 | 黄av在线| 黑人精品xxx一区一二区 | 精品欧美一区二区精品久久 | 国产日韩在线视频 | 亚洲午夜视频在线观看 | 深夜福利网站 | 一级a毛片| 夜夜操夜夜爽 | 国产一区二区中文字幕 | 亚洲成人av| 美日韩在线 | 天天爽天天爽 |