背景
使用支持cuda的ib_write_bw的时候报错
现象
[433534.538836] ib_write_bw[828449]: segfault at 1b1 ip 00007f80f540a137 sp 00007ffc26ac1ae0 error 4 in librdmacm.so.1.3.48.0[7f80f5400000+19000]
[433534.538845] Code: ff 4c 89 f2 4c 89 ee b9 80 00 00 00 48 8d bb 98 00 00 00 e8 fb a6 ff ff 48 8b 45 08 ba 18 01 00 00 48 89 de 66 44 89 74 24 12 <8b> 38 44 89 7c 24 0c e8 5d a3 ff ff 3d 18 01 00 00 75 46 48 8d bd
[779099.041607] traps: ib_write_bw[2724906] general protection ip:7fa0a430624a sp:7fffe0611b80 error:0 in libcuda.so.550.54.15[7fa0a4160000+498000]
[779099.041731] traps: ib_write_bw[2724782] general protection ip:7f429610624a sp:7ffeba9b6070 error:0 in libcuda.so.550.54.15[7f4295f60000+498000]
原因
执行了使用cuda的内存,但是指定的gpuid不存在
./ib_write_bw --use_cuda=4&
./ib_write_bw 1.1.1.2 --use_cuda=4
内核部分信息
分析
可能是由于指定gib_write_bw的时候尝试从cuda去分配内存,没拿到造成异常。下一步确认下GPU的信息,以及id等信息。