Arthas神器:在线诊断、性能调优、动态改代码,10 分钟定位线上bug

Arthas神器:在线诊断、性能调优、动态改代码,10 分钟定位线上bug

Arthas 是一款线上监控诊断产品,通过全局视角实时查看应用 load、内存、gc、线程的状态信息,并能在不修改应用代码的情况下,对业务问题进行诊断,包括查看方法调用的出入参、异常,监测方法执行耗时,类加载信息等,大大提升线上问题排查效率。

背景

通常,本地开发环境无法访问生产环境。如果在生产环境中遇到问题,则无法使用 IDE 远程调试。更糟糕的是,在生产环境中调试是不可接受的,因为它会暂停所有线程,导致服务暂停。

开发人员可以尝试在测试环境或者预发环境中复现生产环境中的问题。但是,某些问题无法在不同的环境中轻松复现,甚至在重新启动后就消失了。

如果您正在考虑在代码中添加一些日志以帮助解决问题,您将必须经历以下阶段:测试、预发,然后生产。这种方法效率低下,更糟糕的是,该问题可能无法解决,因为一旦 JVM 重新启动,它可能无法复现,如上文所述。

Arthas 旨在解决这些问题。开发人员可以在线解决生产问题。无需 JVM 重启,无需代码更改。 Arthas 作为观察者永远不会暂停正在运行的线程。

Arthas(阿尔萨斯)能为你做什么?

Arthas 是 Alibaba 开源的 Java 诊断工具,深受开发者喜爱。

当你遇到以下类似问题而束手无策时,Arthas可以帮助你解决:

  1. 这个类从哪个 jar 包加载的?为什么会报各种类相关的 Exception?
  2. 我改的代码为什么没有执行到?难道是我没 commit?分支搞错了?
  3. 遇到问题无法在线上 debug,难道只能通过加日志再重新发布吗?
  4. 线上遇到某个用户的数据处理有问题,但线上同样无法 debug,线下无法重现!
  5. 是否有一个全局视角来查看系统的运行状况?
  6. 有什么办法可以监控到 JVM 的实时运行状态?
  7. 怎么快速定位应用的热点,生成火焰图?
  8. 怎样直接从 JVM 内查找某个类的实例?

Arthas 支持 JDK 6+,支持 Linux/Mac/Windows,采用命令行交互模式,同时提供丰富的 Tab 自动补全功能,进一步方便进行问题的定位和诊断。

1. 目标

Arthas(阿尔萨斯)是阿里开源的Java诊断工具,主打“实时、动态、非侵入式”的线上问题排查。无需修改代码或重启服务,即可实现:

  • 实时监控方法入参/返回值
  • 追踪方法耗时,定位性能瓶颈
  • 反编译线上代码,验证是否生效
  • 动态热更新代码(紧急修复不用发版!)

arthas官网地址

2. 三分钟快速安装

2.1. 一键启动(推荐)

# 下载并启动 Arthas
curl -O https://arthas.aliyun.com/arthas-boot.jar
java -jar arthas-boot.jar
# 选择要诊断的 Java 进程(输入数字回车)
[INFO] Found existing java process, please choose one and hit RETURN.➜ 1: 12345 com.example.MyApp

2.2. Docker 环境安装

# 进入目标容器
docker exec -it <container_id> /bin/sh
# 安装并启动 Arthas
wget https://arthas.aliyun.com/arthas-boot.jar
java -jar arthas-boot.jar

3. 常用的核心命令

3.1. 实时监控面板:dashboard

# 查看实时线程、内存、GC 状态
dashboard

输出示例:

ID   NAME                  GROUP      PRIORITY STATE    %CPU    TIME    INTERRUPT DAEMON1    main                  main       5        RUNNABLE 45      0:5     false     false...Memory             used     total    max      usage    GCheap               32M      256M     4096M    8%       gc.ps_scavenge.count : 2...Runtime            os.name                os.version             java.version                   Linux                  4.15.0-112-generic     1.8.0_265

主要分为三部分:

  • 线程部分:显示线程状态、CPU占用等
  • 内存部分:堆内存、非堆内存使用情况
  • 运行时信息:操作系统、Java版本等

3.2.追踪方法调用链路:trace

# 追踪指定方法的调用耗时(按 Ctrl+C 停止)
trace com.example.service.UserService getUserById

3.3. 反编译线上代码:jad

# 反编译 UserController 的源码(无需下载代码)
jad com.example.controller.UserController

3.4. 监控方法入参和返回值:watch

# 监控 getUserById 方法的入参和返回值
watch com.example.service.UserService getUserById "{params, returnObj}" -x 3

3.5. 定位线程阻塞问题:thread

# 查看所有线程状态
thread
# 排查 CPU 占用最高的线程
thread -n 3
# 分析死锁
thread -b

3.6. 热更新代码:redefine

# 1. 本地修改源码后编译为 .class 文件
# 2. 上传到服务器并热加载
redefine /tmp/UserController.class

3.7. 方法调用耗时统计:monitor

# 每 60 秒统计一次 getUserById 的调用次数和平均耗时
monitor -c 60 com.example.service.UserService getUserById

3.8. 生成火焰图:profiler

# 生成 CPU 火焰图(定位性能瓶颈)
profiler start
profiler stop --format html

4.实战案例:5 分钟解决线上问题

4.1. CPU 突然飙升至 100%

# 1. 查看 CPU 占用最高的线程
thread -n 1
# 2. 发现线程 ID 123 的堆栈
"http-nio-8080-exec-1" Id=123 RUNNABLE    
	at com.example.MyService.calculate(...)
# 3. 反编译查看问题代码
jad com.example.MyService calculate

4.2. 接口响应缓慢

# 1. 追踪方法调用链路
trace com.example.controller.UserController getProfile
# 2. 发现调用数据库查询耗时 2s
trace com.example.dao.UserDAO findById
# 3. 检查 SQL 是否命中索引
watch com.example.dao.UserDAO findById "{params[0]}" -x 1

4.3. NoSuchMethodError

# 1. 检查类加载器是否加载了正确版本
sc -d com.example.MyService
# 2. 重新加载修复后的类
redefine /tmp/MyService.class

5.注意事项

  1. 权限控制:生产环境限制 Arthas 使用权限,避免误操作
  2. 性能影响watch/trace 等命令会增加开销,排查后及时关闭
  3. 安全风险:禁止将 Arthas 暴露在公网环境
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

liuhm~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值