问题排查
-
SRE视角:Kubernetes高级流量控制机制——Istio服务网格
嘿,同为SRE,你提到的这些痛点和需求我深有体会!Nginx Ingress的Annotation在简单场景下确实方便,但一旦涉及到复杂的流量路由、精细的灰度发布、A/B测试,以及你说的根据地理位置分发,就会显得力不从心,而且运维起来确实...
-
线上服务排查如同“盲人摸象”?你需要分布式追踪这块“X光片”!
线上服务排查的“X光片”:用分布式追踪穿透迷雾 很多时候,我们在线上部署的服务,就像是一个个黑箱,尤其在日志级别受限或者缺乏详细链路追踪的情况下,排查业务逻辑错误或性能瓶颈,简直如同“盲人摸象”。面对一个复杂的分布式系统,我们可能只能...
-
Arthas实战:如何非侵入式监控方法实时调用与排查性能瓶颈?
线上环境无法进行传统意义上的断点调试,这无疑是许多Java开发者在排查问题时的一大痛点。当遇到某个方法执行缓慢,或者想了解其调用频率、成功率等实时指标时,如果不能侵入式地修改代码、发布重启,我们该怎么办? Arthas,作为阿里巴巴开...
-
线上服务偶发响应慢?别慌,这些排查思路帮你搞定
线上服务偶发响应慢,除了重启还能怎么办? 相信不少同学都遇到过这样的问题:线上服务偶尔出现响应慢,但是通过简单的 CPU 和内存指标,根本找不到是哪段代码或哪个第三方接口导致的。 只能重启或者等着它自己恢复,效率很低。 遇到这种问...