vm-infrastructure-ops

简介

此技能为管理部署于 GCP e2-micro 实例上的 eth-realtime-collector 提供完整的操作工具组。它专为维护以太坊网络数据管道的工程师设计，确保关键基础设施维持高可用性。此技能简化了常见生产环境问题的分类与处理过程，例如服务崩溃、gRPC 元数据验证错误、DNS 解析失败以及 ClickHouse 数据下游缺口。通过提供状态检查、日志分析与恢复的标准化流程，它能最大限度地减少基础设施不稳定期间的停机时间。

实时监控 eth-collector 服务状态与 systemd 生命周期管理。
使用 journalctl 进行进阶日志流分析，以快速调试连接拒绝、gRPC 错误或元数据服务器无法触达等问题。
通过包含部署前检查的托管重启脚本进行自动化服务恢复。
当网络连接完全中断时，执行紧急基础设施介入，包括 VM 硬重置。
数据流验证管道，确认区块已成功送达 ClickHouse 数据库。
目标对象：DevOps 工程师、SRE 及管理区块链数据提取管道的数据工程师。
使用案例：通过识别服务失败模式或底层 GCP 网络问题，解决“未收到区块”的警报。
先决条件：有效的 GCP 项目访问权限 (eonlabs-ethereum-bq)、已配置的 gcloud CLI，以及 us-east1-b 区域的访问权限。
操作最佳实践：在尝试完整的 VM 重置前，请务必先通过状态工作流检查服务健康状况。使用提供的日志流功能，以区分暂时性服务错误与持续性基础设施故障。
限制：专门针对 eth-realtime-collector 的部署；在执行验证脚本前，请确保已加载正确的环境凭证。

创业课程

在线课程

实体课程

vm-infrastructure-ops

简介

仓库统计