背景
对于后端工程师,一旦线上程序逻辑出错,问题排查如同破案,在分析研判时,问题现场的第一手信息是最珍贵的。开发人员很容易首先想到的就是阅读日志,从海量的日志中寻找蛛丝马迹,这就好比是对犯罪现场周边的视频监控录像逐一回看,非常辛苦。如果问题现场的日志记录缺失,就尝试在本地重现问题并调试解决,本地难以重现的,只能再加日志,再部署,再重现,然后再查日志,效率较低。对于复杂一些的比如程序性能问题,如何定位性能瓶颈,一不小心又要回到加日志、部署、查日志、再加日志的老路,不仅效率不高,也破坏了问题现场。
JDK提供的工具如jps、jmap、jstat、jstack、jconsole等,可以为工程师提供一些帮助。Linux操作系统的命令,如top、free、pidstat、vmstat、iostat等,也是排查问题尤其是性能调优必不可少的工具。但直接使用这些工具,对工程师的个人技术能力和经验要求较高。而且对企业来说,在生产环境直接通过命令行操作,是很敏感的行为。因此,如何在保证安全的基础上,又能像调试本地程序一样更便捷的排查分析,是个棘手的问题。
why Arthas
Arthas
是Alibaba
开源的Java诊断工具,深受开发者喜爱。当你遇到以下类似问题而束手无策时,Arthas可以帮助你解决:
- 这个类从哪个 jar 包加载的?为什么会报各种类相关的 Exception?
- 我改的代码为什么没有执行到?难道是我没 commit?分支搞错了?
- 遇到问题无法在线上 debug,难道只能通过加日志再重新发布吗?
- 线上遇到某个用户的数据处理有问题,但线上同样无法 debug,线下无法重现!
- 是否有一个全局视角来查看系统的运行状况?
- 有什么办法可以监控到JVM的实时运行状态?
- 怎么快速定位应用的热点,生成火焰图?
快速安装
curl -O https://arthas.aliyun.com/arthas-boot.jar
java -jar arthas-boot.jar
启动arthas
当我们看到这个页面的时候,就证明我们的arthas已经启动了,接下来我会演示一下如果使用arthas定位我们生产上可能遇到的问题。
服务器实时监控大盘
命令:dashboard
查看VM相关参数
命令:vmoption
定位线上请求较慢的接口
命令:trace
。trace 命令能主动搜索 class-pattern/method-pattern
对应的方法调用路径,渲染和统计整个调用链路上的所有性能开销和追踪调用链路。
找到耗时超过500ms的请求:trace ***class ***method '#cost>500'
我们通过命令可以看到是com.property.real.estate.dict.service.archive.list.IOwnerArchivesService:getOwnerArchiveListByPage()
这行代码耗时达到1020ms,我们继续看一下这个方法里面的耗时
我们通过命令可以看到是com.property.real.estate.dict.service.archive.list.room.RoomArchivesByManagerService:getRoomOwnerArchivePage()
这行代码耗时达到912ms,我们继续看一下这个方法里面的耗时
我们通过命令可以看到是com.property.real.estate.dict.service.archive.list.room.RoomArchivesByManagerService:getRoomOwnerArchiveExtModelListByManager()
这行代码耗时达到583ms,我们继续看一下这个方法里面的耗时
我们通过命令可以看到是com.property.real.estate.dict.mapper.archive.RoomOwnerArchiveMapper:getRoomOwnerArchiveListByPage()
这行代码耗时达到536ms,我们继续看一下这个方法里面的耗时
当我们看到这里就可以得出结果使我们的SQL写的太慢了,所以我们就需要针对SQL去做优化。
CPU负载过高
我们可能会遇见过这么一个场景:我们线上有个应用服务器有点上头,CPU总能跑到99%,我寻思着它流量也不大啊,为啥能把自己整这么累?于是我登上这台服务器,看看它到底在干啥!
- 模拟CPU飙高
- 使用
thread
命令查看
- 使用
thread id
命令查看线程堆栈
一下就可以看到CPU飙高的代码所在的位置,接下来就需要针对问题来优化代码。这里我只是简单的模拟一下CPU飙高的场景,但是在生产上其实会更加复杂,但是思路都是一样的。
导出线上dump文件
命令:heapdump
。类似jmap命令的heap dump功能。
方法执行监控
命令:monitor
。对匹配 class-pattern/method-pattern/condition-express
的类、方法的调用进行监控。
我们通过monitor -c 5 com.property.real.estate.dict.app.web.controller.archive.BaseOwnerArchiveListController searchPage
命令来看一下监控情况
观察线上方法执行数据
命令:watch
。让你能方便的观察到指定方法的调用情况。能观察到的范围为:返回值、抛出异常、入参
,通过编写 OGNL 表达式进行对应变量的查看,这样子即使除了问题,我们也不需要去加debug log就可以轻松的看到方法出参、入参和异常等信息。
- 观察方法入参:
watch com.property.real.estate.dict.app.web.controller.archive.BaseOwnerArchiveListController searchPage "{params,returnObj}" -x 2 -b
- 观察方法返回值:
watch com.property.real.estate.dict.app.web.controller.archive.BaseOwnerArchiveListController searchPage "{params,returnObj}" -x 2 -s -n 2
观察方法被调用的调用路径
命令:stack
。
好了以上就是平时工作中经常遇到的一些场景以及对应使用方法,当然Arthas还提供了更丰富、更全面的命令,欢迎小伙伴们自己去探索~ 用户文档