grafana-dashboards
设计、配置与管理生产环境等级的 Grafana 仪表板。包含 RED 与 USE 方法论等标准监控模式,适用于系统、应用程序与基础设施指标的可视化。
简介
此技能协助开发人员与 DevOps 工程师通过生产等级的 Grafana 仪表板设计,实现完整的系统可观测性。其核心重点在于将原始指标(通常来自 Prometheus)转换为具备行动价值的洞察,并运用业界标准的仪表板配置模式。利用此工具,您可以建立一致且专业的监控界面,以利于微服务与基础设施的快速事件响应、容量规划及运维透明化。
本技能提供结构化的模式,确保您的可观测性策略与现代可靠性工程原则接轨。无论您正在建置实时 API 监控、基础设施健康概览,或是针对业务关键绩效指标(KPI)的追踪系统,本技能皆提供相关范本与配置指导,涵盖面板设定、查询语法建构与警报逻辑设计。
-
实作 RED 方法(速率、错误、持续时间)用于服务层级监控,以及 USE 方法(利用率、饱和度、错误)用于资源层级可观测性。
-
包含各类面板范本:统计面板(单值)、时间序列图表、用于状态总览的表格,以及用于延迟分布的热图。
-
提供进阶范本支援,运用 Prometheus 查询变量实现动态仪表板,支援多命名空间与多服务筛选。
-
内建警报逻辑配置模式,包含阈值设定、严重性分级与通知渠道整合。
-
通过标准化 YAML 定义简化仪表板配置流程,支援版本控制与基础设施即代码(IaC)的自动化部署。
-
最适合网站可靠性工程师 (SRE)、平台工程师以及监控 Kubernetes 云原生应用程序的开发者使用。
-
请确保您的 Prometheus 数据来源已正确标记(Tag),以便进行高效筛选与变量驱动的仪表板更新。
-
定义警报时,务必明确指定评估频率与「无数据」状态,以确保监控覆盖的可靠性。
-
遵循提供的面板设计层次,将错误率或饱和度等最关键信息置于最显眼处,以确保实时可见性。
仓库统计
- Star 数
- 34,455
- Fork 数
- 3,734
- Open Issue 数
- 3
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年4月28日 11:59