ops-devops-platform
DevOps 与平台工程模式:Kubernetes、Terraform、GitOps、CI/CD、可观测性、事件响应及云原生运营。
简介
此技能为现代 DevOps 与平台工程团队提供了完整的工具集。它包含可执行的模板、决策流程与运营模式,旨在简化基础设施管理、自动化部署流水线并提升系统可靠性。无论是构建自助式内部开发者门户还是管理复杂的生产环境,此技能都是云原生生态系统中最佳实践的高保真参考资料。
-
使用 Terraform、OpenTofu 与 Pulumi 进行声明式基础设施即代码 (IaC) 管理。
-
利用 Argo CD 与 Flux 实现 GitOps 工作流,进行持续协调与自动化部署。
-
提供 Kubernetes 运营支持,包含集群管理、Helm Chart 处理与工作负载扩展。
-
优化 GitHub Actions 的 CI/CD 流水线,整合 DevSecOps,包含安全扫描、漏洞分析及通过 OPA 或 Kyverno 执行的策略即代码。
-
利用 Prometheus、Grafana、OpenTelemetry 与 eBPF 工具(如 Cilium 与 Tetragon)提供完整的可观测性与监控功能。
-
涵盖 SRE 事件管理流程,包含值班轮替、PagerDuty/Opsgenie 整合、无责备事后检讨 (Postmortem) 与服务水平目标 (SLO) 追踪。
-
专为寻求标准化运营程序与“黄金路径”(Golden Paths) 的 SRE、DevOps 工程师与平台架构师设计。
-
提供决策树,协助根据团队需求选择基础设施、CI/CD、可观测性与事件管理的最佳技术堆栈。
-
通过标准化的指令参考与配置模式,促进团队向云原生运营转型。
-
强调安全优先的方法,包括 SBOM 生成、软件签名与内核级运行时安全性。
-
支持使用 Backstage 或 Port 等工具部署内部开发者平台 (IDP),以提升开发者生产力与自助服务能力。
仓库统计
- Star 数
- 60
- Fork 数
- 12
- Open Issue 数
- 1
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年4月30日 12:41