研究
brainstorm avatar

brainstorm

執行結構化的 RL 環境、評估及研究規劃腦力激盪。基於 Prime Intellect verifiers、CLI 及訓練器工作流程的迭代式構思。

簡介

腦力激盪 (brainstorm) 技能作為智慧研究夥伴,旨在將模糊的目標轉化為大型語言模型 (LLM) 強化學習的具體技術計畫。無論您是在建構自訂環境 Harness、設計新穎的評估準則,還是透過 GEPA 優化提示詞,此技能都能提供結構化框架,將您的目標對應至 Verifiers 生態系統。它專為研究人員和機器學習工程師設計,協助他們利用本地原始碼錨定、Prime CLI 原語以及既有的 RL 訓練器工作流程,從構想快速邁向實驗階段。

  • 促進迭代式腦力激盪會議,彌補高階研究意圖與底層實作邏輯之間的差距。

  • 提供對 Verifiers 架構(包含 RLMEnv、BrowserEnv 與 taskset 設計)的深入基礎知識,確保規劃與 prime-rl 原生相容。

  • 引導使用者選擇最佳模型系列,例如 instruct-first 與 reasoning-first 端點,並透過 endpoints.toml 建議可重複的實驗配置。

  • 透過識別關鍵槓桿(環境遷移、基準測試設計、提示詞優化與 RL 訓練策略)來自動化初步探索工作流程。

  • 內建專用概念教學模式,解釋複雜的 RL 指標、軌跡追蹤 (rollout tracking) 以及二元獎勵與連續獎勵訓練的影響。

  • 首先說明您的具體研究目標、預算與預期時間表,以獲得客製化的環境或評估藍圖。

  • 使用此技能探索 2025 年中以後的文獻或基準測試策略,確保您的研究方法保持領先。

  • 預期產出包含結構化的問題框架、優先排序的實驗里程碑,以及研究計畫的明確決策點 (go/no-go gates)。

  • 在執行前,請確保已使用 prime lab setup 準備工作區,以維持與必要的 CLI 及 Python 環境配置的相容性。

  • 請注意,此技能可能會建議將 prime-rl 或 prime-cli 等儲存庫複製到 /tmp,以便在起草實作計畫前確保對最新原始碼的準確掌握。

  • 請務必標示平台限制,並盡量使用官方首選工具,以維持專案穩定性,並簡化與 Prime Intellect 平台的整合。

倉庫統計

Star 數
4,055
Fork 數
535
Open Issue 數
174
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年4月29日 上午08:09
在 GitHub 查看