ai-llm-engineering
LLM 系统生命周期、架构与部署的运营中心。包含 PEFT/LoRA 微调、RAG 流程、vLLM 吞吐量优化、自动化偏移检测及整合 CI/CD 的评估框架。
简介
此技能作为 LLM 系统架构、评估与生产部署的高性能运营中心,专为负责构建、扩展与维护生产级 LLM 应用的 AI 工程师与 DevOps 从业者设计。该工具为在 RAG、微调与代理工作流之间进行选择提供了结构化的决策框架,确保系统通过严格的验证与优化达到现代生产标准。
-
协调完整的 LLM 工程生命周期,包括数据流水线、模型训练、通过 PEFT/LoRA 进行微调,以及使用 vLLM 实现 24 倍吞吐量的部署策略。
-
实施先进的 LLMOps 实践,例如具有 18 秒响应窗口的自动化偏移检测、多层安全防御以及用于缓解幻觉与偏差的 AI 强力护栏。
-
提供前往专门技能的跨功能导航,涵盖 RAG 流水线分块、搜索调优 (BM25, HNSW, 混合搜索)、提示工程 CI/CD 以及代理编排 (LangGraph, AutoGen, CrewAI)。
-
利用整合 LangSmith、Weights & Biases 与 RAGAS 等工具的综合评估模式,确保基于指标的发布门禁与质量保证。
-
包含用于技术栈选择、性能预算规划以及识别上下文过载、数据泄漏和低效检索等反模式的决策矩阵。
-
非常适合构建与排查 RAG 系统、部署高吞吐量推理服务以及管理多代理编排。
-
预期输入包括架构需求、模型性能指标、部署限制与监控日志;输出提供可执行的配置模式、架构蓝图与故障排除检查表。
-
运营限制包括对上下文窗口的细致管理、在延迟与推理深度之间取得平衡,以及确保符合安全护栏要求。
-
最佳实践强调结合检索增强生成 (RAG) 与微调模型的混合架构,以在复杂的生产环境中实现最佳的准确度与成本效益。
仓库统计
- Star 数
- 197
- Fork 数
- 28
- Open Issue 数
- 4
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年4月30日 16:47