工程开发
book-sft-pipeline avatar

book-sft-pipeline

一个将书籍转换为微调数据集,并训练风格转换模型以进行作者语音重现的端到端管线。

简介

book-sft-pipeline 是一项专业技能,旨在帮助开发人员与研究人员从文学作品中创建高质量的合成数据集,并训练小型语言模型(8B 参数或更小)来模拟特定的作者语调。此技能提供了一个结构化的框架,涵盖从原始 ePub 提取到模型验证的整个微调生命周期。它建立在上下文工程原则之上,专注于语义数据分割和多样化的指令生成,以防止过度拟合并确保高保真的风格转换。

  • 从 ePub 文件中进行智能文本提取,优先处理段落级解析,并删除版权和目录等元数据,以确保训练数据的纯净。

  • 先进的文本分割策略,利用语义边界和基于字数的区块(150-400 字)并保留重叠部分,以维护风格的连贯性和节奏感。

  • 利用可配置的系统提示词和模板生成多样化指令,教导模型学习作者的节奏、词汇和散文模式,而非仅仅记忆情节。

  • 与 Tinker 等训练平台的集成,为旨在实现风格转换与作者语音重现的 LoRA(低秩适应)微调提供了实践路径。

  • 内置验证策略,包括 AI 检测器基准测试和损失轨迹监控,确保模型能够捕捉到预期的风格精髓。

  • 当用户需要处理文学数据集、执行风格转换、构建 SFT(监督微调)数据集或设计长篇内容的分割管线时,应激活此技能。

  • 输入需求为原始 ePub 文档;输出则为与标准训练框架兼容的清洗后 JSONL 数据集,以及针对目标模型(如 Qwen 或类似架构)的 LoRA 适配器。

  • 为了获得最佳效果,在数据生成过程中请至少使用 15 个提示词模板和 5 个不同的系统提示词,以鼓励语言的多样性。

  • 请注意,此技能针对「风格重于内容」进行了优化,这意味着它不适用于知识检索任务,而更适合于创意散文和语音模拟。

仓库统计

Star 数
15,323
Fork 数
1,203
Open Issue 数
25
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年4月28日 11:42
在 GitHub 查看