工程开发
ai-llm-engineering avatar

ai-llm-engineering

LLM 系统生命周期、架构与部署的运营中心。包含 PEFT/LoRA 微调、RAG 流程、vLLM 吞吐量优化、自动化偏移检测及整合 CI/CD 的评估框架。

简介

此技能作为 LLM 系统架构、评估与生产部署的高性能运营中心,专为负责构建、扩展与维护生产级 LLM 应用的 AI 工程师与 DevOps 从业者设计。该工具为在 RAG、微调与代理工作流之间进行选择提供了结构化的决策框架,确保系统通过严格的验证与优化达到现代生产标准。

  • 协调完整的 LLM 工程生命周期,包括数据流水线、模型训练、通过 PEFT/LoRA 进行微调,以及使用 vLLM 实现 24 倍吞吐量的部署策略。

  • 实施先进的 LLMOps 实践,例如具有 18 秒响应窗口的自动化偏移检测、多层安全防御以及用于缓解幻觉与偏差的 AI 强力护栏。

  • 提供前往专门技能的跨功能导航,涵盖 RAG 流水线分块、搜索调优 (BM25, HNSW, 混合搜索)、提示工程 CI/CD 以及代理编排 (LangGraph, AutoGen, CrewAI)。

  • 利用整合 LangSmith、Weights & Biases 与 RAGAS 等工具的综合评估模式,确保基于指标的发布门禁与质量保证。

  • 包含用于技术栈选择、性能预算规划以及识别上下文过载、数据泄漏和低效检索等反模式的决策矩阵。

  • 非常适合构建与排查 RAG 系统、部署高吞吐量推理服务以及管理多代理编排。

  • 预期输入包括架构需求、模型性能指标、部署限制与监控日志;输出提供可执行的配置模式、架构蓝图与故障排除检查表。

  • 运营限制包括对上下文窗口的细致管理、在延迟与推理深度之间取得平衡,以及确保符合安全护栏要求。

  • 最佳实践强调结合检索增强生成 (RAG) 与微调模型的混合架构,以在复杂的生产环境中实现最佳的准确度与成本效益。

仓库统计

Star 数
197
Fork 数
28
Open Issue 数
4
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年4月30日 16:47
在 GitHub 查看