1. CPU软锁定问题简介 在Linux操作系统中,watchdog是一种监视系统运行状态的机制,它可以在系统出现不响应时重启设备。"Soft lockup"是指某个CPU核心在一定时间内(通常为几十秒)未能执行其他任务,这通常表明该核心在执行某个过程或任务时进入了无限循环。 2. 原因分析 CPU软锁定可能由多种因素引起,包括但不限于:...
Soft lockup:这个bug没有让系统彻底死机,但是若干个进程(或者kernel thread)被锁死在了某个状态(一般在内核区域),很多情况下这个是由于内核锁的使用的问题。 出现死锁原因 1、CPU高负载时间过长2、服务器电源供电不足,导致CPU电压不稳定3、vcpus超过物理cpu cores4、虚机所在的宿主机的CPU太忙或磁盘IO太高5、虚...
大数据集群中新增三台虚拟机(配置与老一批服务器配置一样),运行相同的服务,老一批虚拟机运行正常,新加的这三台运行异常,报错内容:watchdog: Bug: soft lockup – CPU……” (CPU 软锁)。 故障排查 一开始以为是虚拟机模板的问题,新老服务器不是使用同一个模板部署,询问IT后得知,虚拟机模板一样。谷歌下发现...
7、BIOS开启了超频,导致超频时电压不稳,容易出现CPU死锁 8、Linux kernel或KVM存在bug 9、BIOS Intel C-State开启导致,关闭可解决 10、BIOS spread spectrum开启导致 解决办法 echo 30 > /proc/sys/kernel/watchdog_thresh echo “kernel.watchdog_thresh=30” >> /etc/sysctl.conf sysctl -w kernel.watchdog...
内核软死锁(soft lockup) Soft lockup:这个bug没有让系统彻底死机,但是若干个进程(或者kernel thread)被锁死在了某个状态(一般在内核区域),很多情况下这个是由于内核锁的使用的问题。 出现死锁原因 1、CPU高负载时间过长 2、服务器电源供电不足,导致CPU电压不稳定 ...
Soft lockup:这个bug没有让系统彻底死机,但是若干个进程(或者kernel thread)被锁死在了某个状态(一般在内核区域),很多情况下这个是由于内核锁的使用的问题。 内核参数kernel.watchdog_thresh(/proc/sys/kernel/watchdog_thresh)系统默认值为10。如果超过2*10秒会打印信息,注意:调整值时参数不能大于60 ...
关键词:watchdog、soft lockup、percpu thread、lockdep等。 近日遇到一个soft lockup问题,打印类似“[ 56.032356] NMI watchdog: BUG: soft lockup - CPU#0 stuck for 23s! [cat:153]“。 这是lockup检测机制在起作用,lockup检测机制包括soft lockup detector和hard lockup detector。
Softlockup与hardlockup检测机制(又名:nmi_watchdog) Linux中内核实现了一种用以检测系统发生softlockup和hardlockup的看门狗机制。 Softlockup是一种会引发系统在内核态中一直循环超过20秒(详见下面“实现”小节)导致 其他任务没有机会得到运行的BUG。一旦检测到’softlockup’发生,默认情况下系统会打 印当前堆栈跟...
当你在死机log中发现 "BUG: soft lockup - CPU#0 stuck for 21s! [$comm: $pid]" 时,你就应该意识到你这系统当前cpu在20s内没有发生调度(schedule)了,或者说卡住(stuck)了20s。那什么时候会发生以上情况呢?一个简单的场景就是你关了抢占(preempt_disable)后,来了一个while(1);。 2.流程分析 在系统...
内核软死锁(soft lockup)bug原因分析,Soft lockup名称解释:所谓,soft lockup就是说,这个bug没有...