ai-llm-patterns
Anthropic Claude 集成模式:流式传输、基于 pgvector 的 RAG、工具调用、模型选择(Haiku/Sonnet/Opus)、提示词缓存及 AI 工程成本管理。
简介
此技能为将 Anthropic Claude 集成到复杂软件系统中提供了稳健的框架。专为 AI 工程师和全栈开发者设计,侧重于构建可扩展 RAG 流水线、自主智能体和高性价比 AI 功能的生产级模式。它通过技术架构最佳实践,在性能、用户体验和运营效率之间实现平衡。
-
高级 RAG 架构:实现分块 (chunking) 策略、使用 pgvector 进行余弦相似度搜索,以及利用 text-embedding-3-small 的嵌入流水线。
-
Anthropic SDK 与流式传输:实现服务器发送事件 (SSE) 流式传输的最佳实践,以减少感知延迟并改善实时用户反馈。
-
战略模型选择:提供针对 Haiku、Sonnet 和 Opus 的决策框架,根据特定任务需求、延迟和吞吐量成本进行选择。
-
工具调用与智能体循环:设计安全的函数调用接口,使 LLM 能够编排操作,同时对数据库写入和敏感操作保持严格的边界控制。
-
上下文优化:实施提示词缓存 (Prompt Caching),针对频繁访问的文档、大型系统提示词和 RAG 上下文窗口进行优化,以减少 Token 消耗并提升响应速度。
-
结构化数据提取:利用 Zod 进行模式强制转换,确保 LLM 输出是确定性的且可安全用于程序化消费。
-
适用于构建生产级 AI 功能、文档检索系统或自主智能体工作流。
-
核心约束:绝不要直接信任 LLM 的输出用于数据库变更;必须始终实现确定性的验证机制。
-
输入包含目标文档数据集和函数架构;输出通常为优化的 API 响应、检索到的上下文块或工具执行计划。
-
遵循 Token 预算管理;对于超过 1024 个 Token 的提示词,请务必启用缓存以实现效率最大化。
-
请参阅 references/ 中的文档,以获取关于 SSE、RAG 流水线和 LLM-ops 错误处理的特定实现指南。
仓库统计
- Star 数
- 11
- Fork 数
- 1
- Open Issue 数
- 1
- 主要语言
- Shell
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年5月4日 00:58