工程开发
book-sft-pipeline avatar

book-sft-pipeline

专为文学作品模型微调设计的自动化流程,包含 ePub 提取、语义文字分段、合成指令生成与 LoRA 风格迁移训练。

简介

book-sft-pipeline 技能为开发人员和创作者提供了一套完整的架构,用于微调小型语言模型(8B 或以下),使其能模仿特定作家的语气。本技能专注于高保真度的数据处理,确保模型学习文学来源的节奏、词汇和风格细微差别,而非仅仅是记忆情节。此技能非常适合涉及数字人文、创意写作助手或语音复制模型的项目,其中基于文本的风格迁移是主要目标。

  • 使用 BeautifulSoup 进行自动化 ePub 提取,解析段落结构同时移除会污染训练数据集的版权信息与目录。

  • 具备语义一致性的智慧文字分段功能,针对 150-400 字的区块进行分割,并通过重叠序列保持上下文语义。

  • 利用多种系统提示词与样板生成多样化的合成指令,防止过度拟合并增强风格习得的泛化能力。

  • 为 Tinker 和标准 SFT 平台进行优化,输出适合进行 LoRA (Low-Rank Adaptation) 微调的 JSONL 格式结构化数据。

  • 内建验证方法,包含 AI 检测与原创性检查,确保生成的合成数据符合预期的语气要求。

  • 务必优先选择 ePub 原始文件而非 PDF,以避免常见的 OCR 错误导致模型产生幻觉。

  • 采用协调者代理 (Orchestrator Agent) 模式来管理四阶段工作流:提取、分段、指令合成与数据集构建。

  • 应用 15 种以上提示模板与 5 种以上系统提示词策略,确保模型能跨不同语境学习风格模式。

  • 适合小规模部署,本流程专为有限数据样本(约 500-600 个范例)下进行高效 LoRA 训练而校准。

  • 请务必遵守上下文工程原则:着重于高信号数据的策划而非数据总量,并关注注意力机制,优先考虑数据质量以减轻上下文衰减问题。

仓库统计

Star 数
15,338
Fork 数
1,203
Open Issue 数
25
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年4月29日 06:07
在 GitHub 查看