我的阿里云 99 元机(OS: Rocky Linux 9.5 )最近也出现了周期性 CPU 和磁盘读取飙升导致服务器卡死甚至无法登录的问题,提交工单之后技术支持发现问题也是由 dnf makecache 导致的。CPU和IO 飙升是突发的,卡死前的 top 日志都是正常的,卡死之后服务器便无法登录了,而且云监控和日志记录也都失效了,卡死是无法记录日志,强制重启之后才能恢复正常。
Using cookie technology to retain your personal information for your next quick comment, continuing to comment indicates that you agree to this clause.
2 comments
我的阿里云 99 元机(OS: Rocky Linux 9.5 )最近也出现了周期性 CPU 和磁盘读取飙升导致服务器卡死甚至无法登录的问题,提交工单之后技术支持发现问题也是由 dnf makecache 导致的。CPU和IO 飙升是突发的,卡死前的 top 日志都是正常的,卡死之后服务器便无法登录了,而且云监控和日志记录也都失效了,卡死是无法记录日志,强制重启之后才能恢复正常。
“发现systemd进程在这些时间段内占用了大量的系统资源” 这个是如何做到的呢?
通过sar确认在 dnf makecache 运行期间是否出现了异常的 CPU 磁盘 I/O 或内存使用峰值,其实系统每次卡死之前的最后一条日志记录是dnf makecache,从这里就可以大概判断出来了,系统都卡死了肯定不会产生其他的日志,除非自动恢复或者重启,最后一条日志的产生与恢复后日志产生的时间跨度可能比较大