- 前言
- 读者对象
- 如何阅读本书
- 勘误和支持
- 致谢
- 第 1 篇 高性能网站构建
- 第 1 章 深入理解 DNS 原理与部署 BIND
- 第 2 章 全面解析 CDN 技术与实战
- 第 3 章 负载均衡和高可用技术
- 第 4 章 配置及调优 LVS
- 第 5 章 使用 HAProxy 实现 4 层和 7 层代理
- 第 6 章 实践 Nginx 的反向代理和负载均衡
- 第 7 章 部署商业负载均衡设备 NetScaler
- 第 8 章 配置高性能网站
- 第 9 章 优化 MySQL 数据库
- 第 2 篇 服务器安全和监控
- 第 10 章 构建企业级虚拟专用网络
- 第 11 章 实施 Linux 系统安全策略与入侵检测
- 第 12 章 实践 Zabbix 自定义模板技术
- 第 13 章 服务器硬件监控
- 第 3 篇 网络分析技术
- 第 14 章 使用 tcpdump 与 Wireshark 解决疑难问题
- 第 15 章 分析与解决运营商劫持问题
- 第 16 章 深度实践 iptables
- 第 4 篇 运维自动化和游戏运维
- 第 17 章 使用 Kickstart 完成批量系统安装
- 第 18 章 利用 Perl 编程实施高效运维
- 第 19 章 精通 Ansible 实现运维自动化
- 第 20 章 掌握端游运维的技术要点
- 第 21 章 精通手游运维的架构体系
最佳实践 100:自动化监控技术
在端游架构中,我们构建的全方位监控体系如图 20-11 所示。
图 20-11 全方位监控体系
盛大游戏业务运维监控体系的监控范围包括以下几方面。
- 游戏在线人数监控。在线人数监控系统,接入了每款端游按照分区分组的实时同时在线人数数据(每分钟更新一次)。这个是业务监控的最高水平,因为任何其他故障(例如网络问题、客户端更新异常等),必然会反馈到在线人数上来。关注这个数据的变化,可以反馈其他层次的故障情况。
- 游戏客户端质量监控。通过在大量的游戏客户端中植入网络质量监控插件(通过 ping 等获取 rtt),定期上报客户端到游戏服务器端的网络质量情况,进行大数据分析。可以实时获取到玩家网络的访问情况,快速定位区域性或者大规模系统性网络故障。
- 游戏服务器端程序监控。端游 C、C++等游戏服务器端程序,监控从 3 个维度进行:进程监控(本地检查)、TCP 端口检查(远程探测)、机器人检查(模拟用户)。监控的目的是验证游戏程序的可用性。
- 系统日志的收集和分析。系统日志包括安全日志(/var/log/secure)、通用日志(/var/log/messages),通过监控日志中的关键词输出报警。
- 游戏服务器健康检查和性能监控。健康检查,是指对服务器做存活性检查。通过在游戏服务器上部署自主研发的 HIDS 插件定期主动上报心跳信息。在规定时间内无上报信息时判定服务器异常,从而进行报警。性能监控,是指把服务器最重要的硬件使用率(网卡、带宽、磁盘使用率、IOPS、CPU 使用率、Load Average、内存使用率)上报以进行数据收集,作为事中报警和事后分析的重要依据。
- 网络设备和流量监控。在机房网络环境中,一般会部署多种异构的网络设备,如思科交换机、华三交换机、Juniper 防火墙等,通过 SNMP 对这些网络设备进行监控,可以以统一的方式获取性能数据和可用性数据。
- IDC 网络质量监控。IDC 网络质量监控,体现了全国到机房的网络延时的情况。
- IDC 机房连通性监控。IDC 机房连通性监控,通过 IDC 之间进行连通性测试,可以获得主干网络的连通性情况。
盛大游戏业务运维监控体系的系统特点如下。
- 从客户端到服务器端的完整覆盖。
- 支持统一的监控策略配置和完整性检查。
- 丰富的监控曲线展示界面。
- 海量报警信息的有效关联和过滤。
- 与 ITIL 事件管理紧密结合,报警自动转化为应急响应。
- 应急响应工作平台的事件单。
- 7×24 小时处理。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论