brainstorm
执行结构化的 RL 环境、评估及研究规划脑力激荡。基于 Prime Intellect verifiers、CLI 及训练器工作流程的迭代式构思。
简介
脑力激荡 (brainstorm) 技能作为智慧研究伙伴,旨在将模糊的目标转化为大型语言模型 (LLM) 强化学习的具体技术计划。无论您是在构建自定义环境 Harness、设计新颖的评估准则,还是透过 GEPA 优化提示词,此技能都能提供结构化框架,将您的目标对应至 Verifiers 生态系统。它专为研究人员和机器学习工程师设计,协助他们利用本地原始码锚定、Prime CLI 原语以及既有的 RL 训练器工作流程,从构想快速迈向实验阶段。
-
促进迭代式脑力激荡会议,弥补高阶研究意图与底层实作逻辑之间的差距。
-
提供对 Verifiers 架构(包含 RLMEnv、BrowserEnv 与 taskset 设计)的深入基础知识,确保规划与 prime-rl 原生相容。
-
引导使用者选择最佳模型系列,例如 instruct-first 与 reasoning-first 端点,并透过 endpoints.toml 建议可重复的实验配置。
-
透过识别关键杠杆(环境迁移、基准测试设计、提示词优化与 RL 训练策略)来自动化初步探索工作流程。
-
内建专用概念教学模式,解释复杂的 RL 指标、轨迹追踪 (rollout tracking) 以及二元奖励与连续奖励训练的影响。
-
首先说明您的具体研究目标、预算与预期时间表,以获得客制化的环境或评估蓝图。
-
使用此技能探索 2025 年中以后的文献或基准测试策略,确保您的研究方法保持领先。
-
预期产出包含结构化的问题框架、优先排序的实验里程碑,以及研究计划的明确决策点 (go/no-go gates)。
-
在执行前,请确保已使用 prime lab setup 准备工作区,以维持与必要的 CLI 及 Python 环境配置的相容性。
-
请注意,此技能可能会建议将 prime-rl 或 prime-cli 等储存库复制到 /tmp,以便在起草实作计划前确保对最新原始码的准确掌握。
-
请务必标示平台限制,并尽量使用官方首选工具,以维持专案稳定性,并简化与 Prime Intellect 平台的整合。
仓库统计
- Star 数
- 4,055
- Fork 数
- 535
- Open Issue 数
- 174
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年4月29日 08:09