问题:CPU占用过高时,系统处理请求的速度会变慢,导致延迟增加,可能导致其他任务无法获取足够的处理资源,导致服务宕机,高CPU占用可能与大量线程阻塞和死锁有关,在多线程任务中,如果线程无法获取CPU资源或者被阻塞,可能导致应用阻塞
常见的原因:在代码中出现死循环;高并发,系统创建大量线程,导致CPU负担过重;代码中频繁地创建和销毁对象,JVM堆大小不足,导致GC不断运行;代码中存在耗时过长的密集计算型任务;
排查方案:
第一种方案:使用jstack
1. 使用top指令进行查看各个进程的资源占有情况,观察出CPU占有较高的进程ID
top
2. 根据进程ID查找导致CPU飙升的线程信息
案例中是进程8820导致CPU飙升
ps H -eo pid, tid, %cpu | grep 8820 各参数含义 - `ps`:用于查看当前运行的进程状态。 - `H`:显示进程的线程层级(线程树)。`ps` 默认显示进程,但加上 `H` 后,它会显示每个进程的线程(如果该进程有多个线程的话),并以树状结构展示。 - `-eo pid, tid, %cpu`:- `pid`:显示进程的 PID(进程标识符)。- `tid`:显示线程的 TID(线程标识符),即线程的 ID。- `%cpu`:显示该进程或线程使用的 CPU 百分比。 -`| grep 8820`:通过 `grep` 过滤,查找包含 `8820` 的行,通常用于筛选出与特定进程或线程相关的信息。
以下展示了PID为8820下的所有线程ID以及他们所占的CPU占有率。 通过观察可以看到:线程ID为8848的线程CPU占有率较高,所以我们后续对8848线程进行分析。
3. 查找该线程的堆栈信息
首先将线程ID转换成16进制
printf "%x\n" 8848
输出结果会将8848线程id转换成16进制,并输出结果为2290
接着使用stack指令来获取进程 ID 为 8820
的 Java 程序的所有线程堆栈信息
jstack 8820 | grep -A 10 2290:生成进程ID为8820的所有线程堆栈信息,并且查找2290后面的10行信息并打印 指令参数如下: - `jstack 8820`:打印出Java程序中ID为8820的进程中所有线程的堆栈信息快照 - `|`:管道符,表示将 `jstack` 命令的输出传递给后续的命令 - `grep -A 10 2290`:查找到2290的后10行记录信息- `grep` 进行文本搜索- `-A 10` 显示后10行的信息- `2290` 搜索要求是2290
通过观察最后显示的进程为8820,线程为2290的堆栈信息情况,我们可以定位到导致CPU飙升的代码所在位置。
总结如下:
- 使用
top
指令,找到CPU飙升的进程id - 使用
ps
指令,打印出该进程id下的各线程CPU占有率,找到CPU飙升的线程 - 使用
jstack
指令,打印该进程下,指定线程的堆栈信息快照,定位CPU飙升的代码字段 - 根据定位,优化逻辑出错的代码。
第二种方案:使用阿里的Arthas 快速入门 | arthas
1. 启动: java -jar arthas-boot.jar
2. 输入:1
3. 输入: thread -n 5
用arthas检测应用程序导致占用较高的代码,5代表占用较高的前5个