返回介绍

最佳实践 100:自动化监控技术

发布于 2025-04-20 17:44:53 字数 1292 浏览 0 评论 0 收藏 0

在端游架构中,我们构建的全方位监控体系如图 20-11 所示。

图 20-11 全方位监控体系

盛大游戏业务运维监控体系的监控范围包括以下几方面。

- 游戏在线人数监控。在线人数监控系统,接入了每款端游按照分区分组的实时同时在线人数数据(每分钟更新一次)。这个是业务监控的最高水平,因为任何其他故障(例如网络问题、客户端更新异常等),必然会反馈到在线人数上来。关注这个数据的变化,可以反馈其他层次的故障情况。

- 游戏客户端质量监控。通过在大量的游戏客户端中植入网络质量监控插件(通过 ping 等获取 rtt),定期上报客户端到游戏服务器端的网络质量情况,进行大数据分析。可以实时获取到玩家网络的访问情况,快速定位区域性或者大规模系统性网络故障。

- 游戏服务器端程序监控。端游 C、C++等游戏服务器端程序,监控从 3 个维度进行:进程监控(本地检查)、TCP 端口检查(远程探测)、机器人检查(模拟用户)。监控的目的是验证游戏程序的可用性。

- 系统日志的收集和分析。系统日志包括安全日志(/var/log/secure)、通用日志(/var/log/messages),通过监控日志中的关键词输出报警。

- 游戏服务器健康检查和性能监控。健康检查,是指对服务器做存活性检查。通过在游戏服务器上部署自主研发的 HIDS 插件定期主动上报心跳信息。在规定时间内无上报信息时判定服务器异常,从而进行报警。性能监控,是指把服务器最重要的硬件使用率(网卡、带宽、磁盘使用率、IOPS、CPU 使用率、Load Average、内存使用率)上报以进行数据收集,作为事中报警和事后分析的重要依据。

- 网络设备和流量监控。在机房网络环境中,一般会部署多种异构的网络设备,如思科交换机、华三交换机、Juniper 防火墙等,通过 SNMP 对这些网络设备进行监控,可以以统一的方式获取性能数据和可用性数据。

- IDC 网络质量监控。IDC 网络质量监控,体现了全国到机房的网络延时的情况。

- IDC 机房连通性监控。IDC 机房连通性监控,通过 IDC 之间进行连通性测试,可以获得主干网络的连通性情况。

盛大游戏业务运维监控体系的系统特点如下。

- 从客户端到服务器端的完整覆盖。

- 支持统一的监控策略配置和完整性检查。

- 丰富的监控曲线展示界面。

- 海量报警信息的有效关联和过滤。

- 与 ITIL 事件管理紧密结合,报警自动转化为应急响应。

- 应急响应工作平台的事件单。

- 7×24 小时处理。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。