工程開發
ai-llm-engineering avatar

ai-llm-engineering

LLM 系統生命週期、架構與部署的運營中心。包含 PEFT/LoRA 微調、RAG 流程、vLLM 吞吐量優化、自動化偏移檢測及整合 CI/CD 的評估框架。

簡介

此技能作為 LLM 系統架構、評估與生產部署的高性能運營中心,專為負責構建、擴展與維護生產級 LLM 應用的 AI 工程師與 DevOps 從業者設計。該工具為在 RAG、微調與代理工作流之間進行選擇提供了結構化的決策框架,確保系統通過嚴格的驗證與優化達到現代化生產標準。

  • 協調完整的 LLM 工程生命週期,包括數據流水線、模型訓練、透過 PEFT/LoRA 進行微調,以及使用 vLLM 實現 24 倍吞吐量的部署策略。

  • 實施先進的 LLMOps 實踐,例如具有 18 秒響應窗口的自動化偏移檢測、多層安全防禦以及用於緩解幻覺與偏差的 AI 強力護欄。

  • 提供前往專門技能的跨功能導航,涵蓋 RAG 流水線分塊、搜索調優 (BM25, HNSW, 混合搜索)、提示工程 CI/CD 以及代理編排 (LangGraph, AutoGen, CrewAI)。

  • 利用整合 LangSmith、Weights & Biases 與 RAGAS 等工具的綜合評估模式,確保基於指標的發佈門禁與質量保證。

  • 包含用於技術棧選擇、性能預算規劃以及識別上下文過載、數據洩漏和低效檢索等反模式的決策矩陣。

  • 非常適合構建與排查 RAG 系統、部署高吞吐量推理服務以及管理多代理編排。

  • 預期輸入包括架構需求、模型性能指標、部署限制與監控日誌;輸出提供可執行的配置模式、架構藍圖與故障排除檢查表。

  • 運營限制包括對上下文窗口的細緻管理、在延遲與推理深度之間取得平衡,以及確保符合安全護欄要求。

  • 最佳實踐強調結合檢索增強生成 (RAG) 與微調模型的混合架構,以在複雜的生產環境中實現最佳的準確度與成本效益。

倉庫統計

Star 數
197
Fork 數
28
Open Issue 數
4
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年4月30日 下午04:47
在 GitHub 查看