brainstorm
執行結構化的 RL 環境、評估及研究規劃腦力激盪。基於 Prime Intellect verifiers、CLI 及訓練器工作流程的迭代式構思。
簡介
腦力激盪 (brainstorm) 技能作為智慧研究夥伴,旨在將模糊的目標轉化為大型語言模型 (LLM) 強化學習的具體技術計畫。無論您是在建構自訂環境 Harness、設計新穎的評估準則,還是透過 GEPA 優化提示詞,此技能都能提供結構化框架,將您的目標對應至 Verifiers 生態系統。它專為研究人員和機器學習工程師設計,協助他們利用本地原始碼錨定、Prime CLI 原語以及既有的 RL 訓練器工作流程,從構想快速邁向實驗階段。
-
促進迭代式腦力激盪會議,彌補高階研究意圖與底層實作邏輯之間的差距。
-
提供對 Verifiers 架構(包含 RLMEnv、BrowserEnv 與 taskset 設計)的深入基礎知識,確保規劃與 prime-rl 原生相容。
-
引導使用者選擇最佳模型系列,例如 instruct-first 與 reasoning-first 端點,並透過 endpoints.toml 建議可重複的實驗配置。
-
透過識別關鍵槓桿(環境遷移、基準測試設計、提示詞優化與 RL 訓練策略)來自動化初步探索工作流程。
-
內建專用概念教學模式,解釋複雜的 RL 指標、軌跡追蹤 (rollout tracking) 以及二元獎勵與連續獎勵訓練的影響。
-
首先說明您的具體研究目標、預算與預期時間表,以獲得客製化的環境或評估藍圖。
-
使用此技能探索 2025 年中以後的文獻或基準測試策略,確保您的研究方法保持領先。
-
預期產出包含結構化的問題框架、優先排序的實驗里程碑,以及研究計畫的明確決策點 (go/no-go gates)。
-
在執行前,請確保已使用 prime lab setup 準備工作區,以維持與必要的 CLI 及 Python 環境配置的相容性。
-
請注意,此技能可能會建議將 prime-rl 或 prime-cli 等儲存庫複製到 /tmp,以便在起草實作計畫前確保對最新原始碼的準確掌握。
-
請務必標示平台限制,並盡量使用官方首選工具,以維持專案穩定性,並簡化與 Prime Intellect 平台的整合。
倉庫統計
- Star 數
- 4,055
- Fork 數
- 535
- Open Issue 數
- 174
- 主要語言
- Python
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年4月29日 上午08:09