工程開發
book-sft-pipeline avatar

book-sft-pipeline

專為文學作品模型微調設計的自動化流程,包含 ePub 提取、語義文字分段、合成指令生成與 LoRA 風格遷移訓練。

簡介

book-sft-pipeline 技能為開發人員和創作者提供了一套完整的架構,用於微調小型語言模型(8B 或以下),使其能模仿特定作家的語氣。本技能專注於高保真度的數據處理,確保模型學習文學來源的節奏、詞彙和風格細微差別,而非僅僅是記憶情節。此技能非常適合涉及數位人文、創意寫作助手或語音複製模型的專案,其中基於文字的風格遷移是主要目標。

  • 使用 BeautifulSoup 進行自動化 ePub 提取,解析段落結構同時移除會汙染訓練數據集的版權資訊與目錄。

  • 具備語義一致性的智慧文字分段功能,針對 150-400 字的區塊進行分割,並透過重疊序列保持上下文語義。

  • 利用多種系統提示詞與樣板生成多樣化的合成指令,防止過度擬合並增強風格習得的泛化能力。

  • 為 Tinker 和標準 SFT 平台進行優化,輸出適合進行 LoRA (Low-Rank Adaptation) 微調的 JSONL 格式結構化數據。

  • 內建驗證方法,包含 AI 偵測與原創性檢查,確保生成的合成數據符合預期的語氣要求。

  • 務必優先選擇 ePub 原始檔案而非 PDF,以避免常見的 OCR 錯誤導致模型產生幻覺。

  • 採用協調者代理 (Orchestrator Agent) 模式來管理四階段工作流:提取、分段、指令合成與數據集構建。

  • 應用 15 種以上提示模板與 5 種以上系統提示詞策略,確保模型能跨不同語境學習風格模式。

  • 適合小規模部署,本流程專為有限數據樣本(約 500-600 個範例)下進行高效 LoRA 訓練而校準。

  • 請務必遵守上下文工程原則:著重於高訊號數據的策劃而非數據總量,並關注注意力機制,優先考慮數據品質以減輕上下文衰減問題。

倉庫統計

Star 數
15,338
Fork 數
1,203
Open Issue 數
25
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年4月29日 上午06:07
在 GitHub 查看