工程开发
service-mesh-observability avatar

service-mesh-observability

为 Istio 和 Linkerd 服务网格实现生产级可观测性,包含分布式追踪、指标仪表板及黄金信号监控。

简介

服务网格可观测性技能为微服务架构提供了一套全面的测量、监控与调试框架。此技能专为使用 Istio 和 Linkerd 的平台工程师与 SRE 设计,涵盖了业内标准的可观测性模式。它能协助用户克服分布式系统中的常见挑战,例如不确定性延迟、间歇性网络故障以及复杂的服务间通讯依赖性。通过整合指标、追踪与日志这三大支柱,AI 代理能指导用户建立强大的监控堆栈,以洞察网格内部的运行状态。当您需要基于真实的黄金信号定义服务水平目标 (SLO)、排除连接瓶颈或可视化服务间流量以识别性能衰退时,此技能将是最佳工具。

  • 提供 Istio 与 Prometheus 及 Grafana 的完整实现模板,包含针对请求速率、错误率 (5xx) 及 P99 延迟分布的自定义 PromQL 查询。

  • 提供 Jaeger 分布式追踪的深度整合指南,涵盖采样配置与 Zipkin 收集器部署。

  • 内建 Linkerd Viz 工具集,用于实时流量检测、基于路径的指标分析及依赖关系绘制。

  • 建立标准化的黄金信号仪表板框架,重点监控延迟、流量、错误率与资源饱和度。

  • 支持定义告警阈值及针对网格工作负载的异常检测配置。

  • 需确保 Kubernetes 集群已正确安装并启用服务网格 (Istio 或 Linkerd)。

  • 输入包含环境配置、命名空间与资源名称;输出包含 YAML 清单、PromQL 表达式以及用于可观测性工具的 CLI 指令序列。

  • 适用于 kubectl、helm 以及各网格平台专属的 CLI 工具。

  • 遵循非侵入式监控的最佳实践,确保在维持数据高保真度的同时,将对服务性能的额外负担降至最低。

仓库统计

Star 数
34,493
Fork 数
3,737
Open Issue 数
4
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年4月29日 06:18
在 GitHub 查看