簡介

腦力激盪 (brainstorm) 技能作為智慧研究夥伴，旨在將模糊的目標轉化為大型語言模型 (LLM) 強化學習的具體技術計畫。無論您是在建構自訂環境 Harness、設計新穎的評估準則，還是透過 GEPA 優化提示詞，此技能都能提供結構化框架，將您的目標對應至 Verifiers 生態系統。它專為研究人員和機器學習工程師設計，協助他們利用本地原始碼錨定、Prime CLI 原語以及既有的 RL 訓練器工作流程，從構想快速邁向實驗階段。

促進迭代式腦力激盪會議，彌補高階研究意圖與底層實作邏輯之間的差距。
提供對 Verifiers 架構（包含 RLMEnv、BrowserEnv 與 taskset 設計）的深入基礎知識，確保規劃與 prime-rl 原生相容。
引導使用者選擇最佳模型系列，例如 instruct-first 與 reasoning-first 端點，並透過 endpoints.toml 建議可重複的實驗配置。
透過識別關鍵槓桿（環境遷移、基準測試設計、提示詞優化與 RL 訓練策略）來自動化初步探索工作流程。
內建專用概念教學模式，解釋複雜的 RL 指標、軌跡追蹤 (rollout tracking) 以及二元獎勵與連續獎勵訓練的影響。
首先說明您的具體研究目標、預算與預期時間表，以獲得客製化的環境或評估藍圖。
使用此技能探索 2025 年中以後的文獻或基準測試策略，確保您的研究方法保持領先。
預期產出包含結構化的問題框架、優先排序的實驗里程碑，以及研究計畫的明確決策點 (go/no-go gates)。
在執行前，請確保已使用 prime lab setup 準備工作區，以維持與必要的 CLI 及 Python 環境配置的相容性。
請注意，此技能可能會建議將 prime-rl 或 prime-cli 等儲存庫複製到 /tmp，以便在起草實作計畫前確保對最新原始碼的準確掌握。
請務必標示平台限制，並盡量使用官方首選工具，以維持專案穩定性，並簡化與 Prime Intellect 平台的整合。

創業課程

網上課程

實體課程

brainstorm

簡介

倉庫統計