工程開發
book-sft-pipeline avatar

book-sft-pipeline

一個將書籍轉換為微調資料集,並訓練風格轉換模型以進行作者語音重現的端到端管線。

簡介

book-sft-pipeline 是一項專業技能,旨在幫助開發人員與研究人員從文學作品中創建高質量的合成數據集,並訓練小型語言模型(8B 參數或更小)來模擬特定的作者語氣。此技能提供了一個結構化的框架,涵蓋從原始 ePub 提取到模型驗證的整個微調生命週期。它建立在上下文工程原則之上,專注於語義數據分割和多樣化的指令生成,以防止過度擬合並確保高保真的風格轉換。

  • 從 ePub 文件中進行智能文本提取,優先處理段落級解析,並刪除版權和目錄等元數據,以確保訓練數據的純淨。

  • 先進的文本分割策略,利用語義邊界和基於字數的區塊(150-400 字)並保留重疊部分,以維護風格的連貫性和節奏感。

  • 利用可配置的系統提示詞和模板生成多樣化指令,教導模型學習作者的節奏、詞彙和散文模式,而非僅僅記憶情節。

  • 與 Tinker 等訓練平台的集成,為旨在實現風格轉換與作者語音重現的 LoRA(低秩適應)微調提供了實踐路徑。

  • 內置驗證策略,包括 AI 檢測器基準測試和損失軌跡監控,確保模型能夠捕捉到預期的風格精髓。

  • 當用戶需要處理文學數據集、執行風格轉換、構建 SFT(監督微調)數據集或設計長篇內容的分割管線時,應激活此技能。

  • 輸入需求為原始 ePub 文檔;輸出則為與標準訓練框架兼容的清洗後 JSONL 數據集,以及針對目標模型(如 Qwen 或類似架構)的 LoRA 適配器。

  • 為了獲得最佳效果,在數據生成過程中請至少使用 15 個提示詞模板和 5 個不同的系統提示詞,以鼓勵語言的多樣性。

  • 請注意,此技能針對「風格重於內容」進行了優化,這意味著它不適用於知識檢索任務,而更適合於創意散文和語音模擬。

倉庫統計

Star 數
15,323
Fork 數
1,203
Open Issue 數
25
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年4月28日 上午11:42
在 GitHub 查看