千眼公司是思科公司的一部分   了解更多→
现场网络研讨会
介绍Thous和Eyes

互联网报告

互联网报道:每周脉搏

By 迈克·希克斯
| 2021年11月22日

Summary

11月22日当周, 2021年——我们探讨了谷歌基于云的负载均衡器在代码更改频率和故障率的背景下发生的一个简短事件.


这周在网上, 总停机数延续了过去几周的上升趋势, 与前一周相比增长了8%, 自11月初以来,这一比例为40%. 本周的增长主要是由ISP中断造成的, 与前一周相比上升了11%. 全球范围内出现的这些增长并未反映在国内,与前一周相比,国内总中断量减少了6%,ISP中断量也同样减少了12%.

图- 1 -网络-故障趋势- 11月- 22 - 2021.png

在我看来,最简单的解释就是感恩节. 作为互联网基础设施和连接性最大的国家,中国正在准备一年一度的长周末假期, 工程师们可能要准备大量的维护和其他网络基础设施工作.

This resulted in a lot of what appear to be maintenance-related outages averaging 10 to 15 minutes; slightly longer in duration than we’d normally see in our weekly numbers, 但下班后会发生更多的事. 这表明大量的工程工作是在网络可能接受休闲和购物目的的锻炼之前进行的.

本周发生了一起“重大”事件,即谷歌的配置更改未能正确传播,并导致其基于云的负载平衡器在全球范围内出现问题.

它短暂地催生了一大批知名的在线服务,比如Spotify, 不和, Snapchat和etsy变得不可访问,并抛出HTTP 400服务器错误, 响应用户请求. 这些可访问性问题是不均衡的, 一些用户报告了问题, 而其他人却没有. 大多数受影响的应用程序似乎在10分钟内恢复.

负载均衡器不工作的下游影响适合我——确实如此, 大多数用户对停机的定义, 因为用户倾向于把宕机看作是他们在数字体验或互动中开始感到痛苦的任何时候. 从一个普通互联网用户的角度来看, 一些网站无法使用, 所以这在他们的脑海中会被记为一次停电.

但这是一个探索数据中心之间连接问题的每周专栏, 沿主要运输及互连路线或在最后一英里的固定基础设施. 但这不是其中之一.

这是负载平衡器干扰可用性的一个问题. 互联网用户仍然可以对内容提出请求, 这些数据从CDN中继到负载均衡器,然后再分发到应用服务器. 问题不在于链上任何一点的连通性, 但是负载平衡器无法处理请求, 是什么原因导致他们返回服务不可用错误.

这似乎是一个语义问题,特别是对于谷歌自己的云工程师来说 公开 将此事件称为停机, 但是对于这个特定的列级数来说,它属于灰色区域, 哪些关注网络中断, 这是一个探索它的好机会.

不是所有的改变都能奏效

谷歌事件可能指向一个更广泛的运营挑战:那就是, 在有一个高频率的改变被推出的环境中, 不可避免的是,并非所有这些改变都能带来好处, 尽管每个版本都进行了大量(通常是自动化的)测试.

部署频率是衡量DevOps团队成功与否的标准指标, 现在,团队将新代码推向产品应用程序更新是相当普遍的, 特性, 补丁之类的,一天多次.

谷歌云实际上 自己做研究 在这一领域中,26%的人是按需部署,每天多次. 令人难以置信的是,“优秀员工的工作频率是低绩效员工的973倍。.”

这项研究还涉及到改变失败率, 定义为“导致服务降级的对生产的更改百分比”.g.,导致服务损坏或服务中断),并随后需要补救(e.g.,需要热修复,回滚,前修复,补丁).“即使是最优秀的开发者也会看到高达15%的变更失败率.

那只是你所能控制的改变. 如果您的产品从第三方api提取数据, API所有者也面临着同样的压力,必须频繁更改以引入新特性或优化性能. 

虽然可能有各种各样的合同条款要求他们通知你即将发生的变化, 他们也可能做出你不知道的改变, 直到您的服务停止工作. 这就是为什么 API的监控 是应用程序所有者用来监视操作和性能的所有方面的更广泛的可见性工具套件的重要组成部分吗.

关键是, 即使是世界上最好的球队, 最好的工具和实践, 不会让每一个改变都正确. 应用程序所有者需要在这个动态环境中独立地维护自己的可见性,以便识别自己服务降级的潜在原因, 并且是升级解决问题的最佳时机.

订阅千眼博客

保持与博客更新和中断报告的联系,当它们仍然是新鲜的.

升级您的浏览器以正确浏览我们的网站.

请下载最新版本的 , 火狐 or 微软的优势.

更详细地