工程开发
service-mesh-observability avatar

service-mesh-observability

为 Istio 和 Linkerd 服务网格实现专业的可观测性模式,包含分布式追踪、Prometheus 指标、Grafana 仪表板及自动化服务水平目标 (SLO) 监控。

简介

service-mesh-observability 技能为负责维护复杂微服务架构可观测性的 SRE 和 DevOps 工程师提供了一套完整的工具。通过对指标、追踪和日志这三大可观测性支柱的标准化,此技能确保 Istio 和 Linkerd 的部署具有弹性、高性能且易于排障。它协助团队从被动式事故管理转向主动式的性能调整与容量规划。

  • 高级指标与警报:针对四大黄金信号(延迟、流量、错误与饱和度)的预先配置查询,可在问题影响用户前检测异常。

  • 分布式追踪集成:实现 Jaeger 以跨越网格边界追踪请求的详细模式,精准定位多跳服务调用中的性能瓶颈。

  • 仪表板与可视化:包含 Grafana 的模板配置,用于监控服务拓扑中的请求率、错误代码及 P99 延迟分布。

  • 服务通信 SLO:定义与追踪服务水平目标的框架,确保符合内部性能与可用性标准。

  • 网格连接排障:利用 Linkerd Viz 等工具检查实时流量、分析路径指标并可视化依赖性边缘的专业指令与技术。

  • 适合管理 Kubernetes 服务网格的 SRE、平台工程师与后端开发人员使用。

  • 需要预先安装 Istio 或 Linkerd 控制平面;与 Prometheus Operator 及标准可观测性技术栈兼容。

  • 输入包括基础设施配置与监控目标;输出为监控模板、警报规则及 PromQL 指标分析。

  • 请根据流量规模调整分布式追踪的采样率,以在细致度、存储成本与性能负担之间取得平衡。

仓库统计

Star 数
34,454
Fork 数
3,734
Open Issue 数
3
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年4月28日 11:53
在 GitHub 查看