首頁 >快訊 >

今日關(guān)注:X上63萬人圍觀的Traning-Free GRPO:把GRPO搬進上下文空間學習

年初的 DeepSeek-R1,帶來了大模型強化學習(RL)的火爆。無論是數(shù)學推理、工具調(diào)用,還是多智能體協(xié)作,GRPO(Group Relative Policy Optimization)都成了最常見的 RL 算法。


(資料圖片僅供參考)

GRPO 的核心思路很簡單卻強大:

  • 對同一個問題,同時生成多條解答路徑(rollout)
  • 給這些路徑打分,比較組內(nèi)優(yōu)劣
  • 再根據(jù)優(yōu)勢信號來更新模型參數(shù),讓模型越來越偏好高質(zhì)量解法

這種「多路徑并行 + 組內(nèi)優(yōu)勢」的機制,雖然比傳統(tǒng) PPO 等方法更加簡潔,但仍然需要優(yōu)化模型參數(shù), 太貴了!

  • 在 32B 量級的模型上訓練一次 RL,就可能要花掉上萬美元
  • 如果是 600B 級別的超大模型,成本和工程難度更是上天

這讓 GRPO 雖然強大,卻幾乎只能由巨頭來玩,中小團隊和個人開發(fā)者根本「玩不起」。

能不能不改模型參數(shù),也來跑一遍 GRPO?

騰訊優(yōu)圖的一篇最新論文就提出了一個非常有意思的答案:既然更新參數(shù)這么貴,那就不更新參數(shù),直接把 GRPO 的「學習過程」搬進上下文空間!

  • 論文標題:Training-Free Group Relative Policy Optimization
  • arXiv 鏈接:
  • https://arxiv.org/abs/2510.08191
  • GitHub 地址:
  • https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO

Training-Free GRPO 是把 GRPO 訓練的整個范式遷移到了上下文學習之中:

  • 訓練集上多輪迭代學習,然后在獨立的測試集上驗證
  • 每輪中,對同一道題目并行生成多條解答(Rollout)
  • 對比組內(nèi)不同解法的差異,提取文本型組內(nèi)優(yōu)勢(Semantic Group Advantage),對齊 GRPO 里的數(shù)值型組內(nèi)優(yōu)勢
  • 根據(jù)這些文本優(yōu)勢優(yōu)化一個文本型 LoRA,對齊 GRPO 里的參數(shù)型 LoRA

舉個例子,對于訓練集里這道數(shù)學幾何題,模型會生成多個不同的解答路徑(Rollout),可能會出現(xiàn)不同的解題路徑,有的做對了有的做錯了。

隨后,模型總結(jié)不同解法的過程與正確性,從而比較同一組內(nèi)的不同解答。這個過程自然提煉出文本型組內(nèi)優(yōu)勢:總結(jié)出有的做法為什么對,有的做法為什么錯。比如例子里:

  • 錯誤的解法不僅設(shè)錯方向,還沒有做條件約束檢查
  • 成功的解法則正確了設(shè)定坐標方向,也系統(tǒng)化驗證了所有條件

在一個迭代里,得到每道題的文本型組內(nèi)優(yōu)勢后,模型就把當前批次的優(yōu)勢都更新文本型 LoRA 里,也就是對經(jīng)驗庫進行增刪改,沉淀學習到的經(jīng)驗。

實驗效果

在數(shù)學推理上,僅用100 個訓練樣本,花費約 8-18 美元,就能在已經(jīng)足夠強大的 671B 模型上繼續(xù)提升性能。

無論是否采用代碼工具(CI,code interpreter)幫助解題,在 AIME 榜單上的 Mean@32 指標都能實現(xiàn)提升。

令人驚喜的是,在三個輪次中,訓練集和測試集的平均工具調(diào)用次數(shù)均有所減少。這表明 Training-Free GRPO 不僅能夠鼓勵正確的推理和行動,還能教會代理找捷徑,更高效明智地使用工具。

而在網(wǎng)頁搜索場景中,Training-Free GRPO 同樣無需更新模型參數(shù),即可在 DeepSeek-V3.1-Terminus 強悍水平之上,實現(xiàn)了 4.6% 的 Pass@1 顯著提升。

為什么需要 Training-Free GRPO?

  • 保留 GRPO 的強化學習優(yōu)勢

多路徑探索、group advantage、多輪迭代、完全獨立的訓練與測試集……這些 GRPO 的精華一項不少,全部在上下文層面重現(xiàn)了出來。

  • 成本暴降

不用訓練模型參數(shù),僅需少量數(shù)據(jù),并且全程只靠 API 隨用隨付!

只需 8~18 美元以及 100 條訓練數(shù)據(jù),就能在 671B LLM 上跑完多輪的強化學習訓練!遠遠低于 32B 模型的訓練成本。

  • 泛化更好

與 Self-Refine 這類就地改寫不同,Training-Free GRPO 是在獨立數(shù)據(jù)集上多輪迭代訓練的,對測試集里的 Out-of-Domain (OOD) 數(shù)據(jù)都有顯著提升。

并且,參數(shù)微調(diào)后的 32B 級別模型往往只能勝任特定窄域任務(wù),可能需要多個專用模型來覆蓋完整業(yè)務(wù)需求,顯著增加了系統(tǒng)復(fù)雜度和維護成本。而 Training-Free GRPO 只需要一個統(tǒng)一的模型和 API 就可以泛化到不同的場景!

小結(jié):RL 不一定非得有梯度

過去我們默認,強化學習就意味著參數(shù)更新。雖然前期有一些上下文空間優(yōu)化的探索如 Self-Refine、Reflexion、TextGrad 等,但 Training-Free GRPO 與他們不同,完全對齊了參數(shù)空間 RL 訓練的流程和細節(jié):

  • 把 GRPO 的「獨立訓練集 + 多輪迭代 + 并行 Rollout + 組內(nèi)優(yōu)勢」這套 RL 訓練范式,整體遷移到上下文空間,在不訓練模型的情況下,也能獲得強化學習效果。
  • 這讓超大模型的 RL 優(yōu)化變得廉價、靈活、可持續(xù),也給每個開發(fā)者的小業(yè)務(wù)提供了用得起的新方案。

本文方法已開源,歡迎 Star 和試用!

預(yù)告:Training-Free GRPO 將作為一個新功能集成到 Youtu-Agent 框架中,幫助開發(fā)者們進一步提升各種自定義場景的效果。

注:成本計算基于 DeepSeek API 官方定價,實際可能因使用情況而有所波動。

關(guān)鍵詞: 調(diào)用 算法 上下文 空間學習 深度思考模

責任編輯:Rex_22

推薦閱讀