ai-llm-engineering
LLM 系統生命週期、架構與部署的運營中心。包含 PEFT/LoRA 微調、RAG 流程、vLLM 吞吐量優化、自動化偏移檢測及整合 CI/CD 的評估框架。
簡介
此技能作為 LLM 系統架構、評估與生產部署的高性能運營中心,專為負責構建、擴展與維護生產級 LLM 應用的 AI 工程師與 DevOps 從業者設計。該工具為在 RAG、微調與代理工作流之間進行選擇提供了結構化的決策框架,確保系統通過嚴格的驗證與優化達到現代化生產標準。
-
協調完整的 LLM 工程生命週期,包括數據流水線、模型訓練、透過 PEFT/LoRA 進行微調,以及使用 vLLM 實現 24 倍吞吐量的部署策略。
-
實施先進的 LLMOps 實踐,例如具有 18 秒響應窗口的自動化偏移檢測、多層安全防禦以及用於緩解幻覺與偏差的 AI 強力護欄。
-
提供前往專門技能的跨功能導航,涵蓋 RAG 流水線分塊、搜索調優 (BM25, HNSW, 混合搜索)、提示工程 CI/CD 以及代理編排 (LangGraph, AutoGen, CrewAI)。
-
利用整合 LangSmith、Weights & Biases 與 RAGAS 等工具的綜合評估模式,確保基於指標的發佈門禁與質量保證。
-
包含用於技術棧選擇、性能預算規劃以及識別上下文過載、數據洩漏和低效檢索等反模式的決策矩陣。
-
非常適合構建與排查 RAG 系統、部署高吞吐量推理服務以及管理多代理編排。
-
預期輸入包括架構需求、模型性能指標、部署限制與監控日誌;輸出提供可執行的配置模式、架構藍圖與故障排除檢查表。
-
運營限制包括對上下文窗口的細緻管理、在延遲與推理深度之間取得平衡,以及確保符合安全護欄要求。
-
最佳實踐強調結合檢索增強生成 (RAG) 與微調模型的混合架構,以在複雜的生產環境中實現最佳的準確度與成本效益。
倉庫統計
- Star 數
- 197
- Fork 數
- 28
- Open Issue 數
- 4
- 主要語言
- Python
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年4月30日 下午04:47