Linux线上事故处理教程_应急响应流程实战

6次阅读

线上 Linux 服务故障应按“先止血再查因”流程处理：先确认影响范围并紧急止血，再锁定异常进程与资源瓶颈，接着精准采集现场证据，最后针对常见故障模式速查验证。

Linux 线上事故处理教程_应急响应流程实战

线上 Linux 服务出问题，别慌，按流程快速定位、止损、恢复。核心是“先止血再查因”，优先保障业务可用，再深入分析根因。

事故刚发生时，第一反应不是查日志，而是判断“现在谁在受影响”：

服务假死、响应慢、OOM 等问题，往往藏在进程或资源层面：

CPU 过高：用 top → Shift+P 排序，记下 PID，再执行 ps aux –sort=-%cpu | head -10；
内存耗尽：看 free -h 和 dmesg -T | grep -i “killed process” 是否触发 OOM killer；
磁盘打满：运行 df -h 和 du -sh /var/log/* | sort -hr | head -5 找大日志目录；
文件句柄 / 连接数爆满：lsof -n | wc -l 查总数，lsof -p PID | wc -l 查单进程打开数，对比 cat /proc/sys/fs/file-max。

排查中务必保留原始线索，禁止直接清日志、删临时文件：

多数线上问题集中在几类高频场景，可针对性验证：

dns 解析失败：nslookup api.example.com + cat /etc/resolv.conf，检查是否误配了不可达 DNS；
证书过期或不匹配：openssl s_client -connect example.com:443 2>/dev/null | openssl x509 -noout -dates；
SELinux/AppArmor 拦截：临时设为 permissive 模式测试（setenforce 0），确认后再调整策略；
配置热加载失败：Nginx 重载后用 nginx -t 验证语法，再 systemctl reload nginx，避免配置错误导致全站宕机。