那是实习第三周,我在例行巡检监控的时候,发现了一条有点奇怪的错误日志。 报错信息很短,没有堆栈,没有上下文。旁边的同学扫了一眼,说:"可能是环境抖动,先观察吧。"导师也只是嗯了一声,没有分配任务。 我在工位上坐了一会儿,把那条日志保存到了本地。 第二天,它又出现了。还是同样的位置,同样的时间窗口,还是没有规律地触发着。我开始往前追:日志是从哪个服务来的,那个服务当时在调用什么,调用链的上游是谁……每往前一步,就要在几十个服务的日志里捞数据,再手动拼接时序。 第三天,我把整理出来的链路图打印出来贴在工位旁边。同事经过,看了一眼,说:"你还在看这个?" 我说...