工程开发
ai-llm-patterns avatar

ai-llm-patterns

Anthropic Claude 集成模式:流式传输、基于 pgvector 的 RAG、工具调用、模型选择(Haiku/Sonnet/Opus)、提示词缓存及 AI 工程成本管理。

简介

此技能为将 Anthropic Claude 集成到复杂软件系统中提供了稳健的框架。专为 AI 工程师和全栈开发者设计,侧重于构建可扩展 RAG 流水线、自主智能体和高性价比 AI 功能的生产级模式。它通过技术架构最佳实践,在性能、用户体验和运营效率之间实现平衡。

  • 高级 RAG 架构:实现分块 (chunking) 策略、使用 pgvector 进行余弦相似度搜索,以及利用 text-embedding-3-small 的嵌入流水线。

  • Anthropic SDK 与流式传输:实现服务器发送事件 (SSE) 流式传输的最佳实践,以减少感知延迟并改善实时用户反馈。

  • 战略模型选择:提供针对 Haiku、Sonnet 和 Opus 的决策框架,根据特定任务需求、延迟和吞吐量成本进行选择。

  • 工具调用与智能体循环:设计安全的函数调用接口,使 LLM 能够编排操作,同时对数据库写入和敏感操作保持严格的边界控制。

  • 上下文优化:实施提示词缓存 (Prompt Caching),针对频繁访问的文档、大型系统提示词和 RAG 上下文窗口进行优化,以减少 Token 消耗并提升响应速度。

  • 结构化数据提取:利用 Zod 进行模式强制转换,确保 LLM 输出是确定性的且可安全用于程序化消费。

  • 适用于构建生产级 AI 功能、文档检索系统或自主智能体工作流。

  • 核心约束:绝不要直接信任 LLM 的输出用于数据库变更;必须始终实现确定性的验证机制。

  • 输入包含目标文档数据集和函数架构;输出通常为优化的 API 响应、检索到的上下文块或工具执行计划。

  • 遵循 Token 预算管理;对于超过 1024 个 Token 的提示词,请务必启用缓存以实现效率最大化。

  • 请参阅 references/ 中的文档,以获取关于 SSE、RAG 流水线和 LLM-ops 错误处理的特定实现指南。

仓库统计

Star 数
11
Fork 数
1
Open Issue 数
1
主要语言
Shell
默认分支
main
同步状态
空闲
最近同步时间
2026年5月4日 00:58
在 GitHub 查看