研究
brainstorm avatar

brainstorm

执行结构化的 RL 环境、评估及研究规划脑力激荡。基于 Prime Intellect verifiers、CLI 及训练器工作流程的迭代式构思。

简介

脑力激荡 (brainstorm) 技能作为智慧研究伙伴,旨在将模糊的目标转化为大型语言模型 (LLM) 强化学习的具体技术计划。无论您是在构建自定义环境 Harness、设计新颖的评估准则,还是透过 GEPA 优化提示词,此技能都能提供结构化框架,将您的目标对应至 Verifiers 生态系统。它专为研究人员和机器学习工程师设计,协助他们利用本地原始码锚定、Prime CLI 原语以及既有的 RL 训练器工作流程,从构想快速迈向实验阶段。

  • 促进迭代式脑力激荡会议,弥补高阶研究意图与底层实作逻辑之间的差距。

  • 提供对 Verifiers 架构(包含 RLMEnv、BrowserEnv 与 taskset 设计)的深入基础知识,确保规划与 prime-rl 原生相容。

  • 引导使用者选择最佳模型系列,例如 instruct-first 与 reasoning-first 端点,并透过 endpoints.toml 建议可重复的实验配置。

  • 透过识别关键杠杆(环境迁移、基准测试设计、提示词优化与 RL 训练策略)来自动化初步探索工作流程。

  • 内建专用概念教学模式,解释复杂的 RL 指标、轨迹追踪 (rollout tracking) 以及二元奖励与连续奖励训练的影响。

  • 首先说明您的具体研究目标、预算与预期时间表,以获得客制化的环境或评估蓝图。

  • 使用此技能探索 2025 年中以后的文献或基准测试策略,确保您的研究方法保持领先。

  • 预期产出包含结构化的问题框架、优先排序的实验里程碑,以及研究计划的明确决策点 (go/no-go gates)。

  • 在执行前,请确保已使用 prime lab setup 准备工作区,以维持与必要的 CLI 及 Python 环境配置的相容性。

  • 请注意,此技能可能会建议将 prime-rl 或 prime-cli 等储存库复制到 /tmp,以便在起草实作计划前确保对最新原始码的准确掌握。

  • 请务必标示平台限制,并尽量使用官方首选工具,以维持专案稳定性,并简化与 Prime Intellect 平台的整合。

仓库统计

Star 数
4,055
Fork 数
535
Open Issue 数
174
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年4月29日 08:09
在 GitHub 查看