【问题解决】ib_write_bw报错segfault at 1b1 ip 00007f80f540a137 sp 00007ffc26ac1ae0 error 4 in librdm?

背景

使用支持cuda的ib_write_bw的时候报错

现象

[433534.538836] ib_write_bw[828449]: segfault at 1b1 ip 00007f80f540a137 sp 00007ffc26ac1ae0 error 4 in librdmacm.so.1.3.48.0[7f80f5400000+19000]
[433534.538845] Code: ff 4c 89 f2 4c 89 ee b9 80 00 00 00 48 8d bb 98 00 00 00 e8 fb a6 ff ff 48 8b 45 08 ba 18 01 00 00 48 89 de 66 44 89 74 24 12 <8b> 38 44 89 7c 24 0c e8 5d a3 ff ff 3d 18 01 00 00 75 46 48 8d bd
[779099.041607] traps: ib_write_bw[2724906] general protection ip:7fa0a430624a sp:7fffe0611b80 error:0 in libcuda.so.550.54.15[7fa0a4160000+498000]
[779099.041731] traps: ib_write_bw[2724782] general protection ip:7f429610624a sp:7ffeba9b6070 error:0 in libcuda.so.550.54.15[7f4295f60000+498000]

在这里插入图片描述

原因

执行了使用cuda的内存,但是指定的gpuid不存在

./ib_write_bw  --use_cuda=4&
./ib_write_bw 1.1.1.2  --use_cuda=4

内核部分信息

在这里插入图片描述

分析

可能是由于指定gib_write_bw的时候尝试从cuda去分配内存,没拿到造成异常。下一步确认下GPU的信息,以及id等信息。

引用中的链接提到的错误信息"segfault at 0 ip (null) sp 00007f329e870418 error 14 in main[400000 23c000]"是指发生了一个段错误(segmentation fault)。段错误通常是由于程序访问了不存在的内存地址或者非法的内存访问引起的。具体来说,"segfault at 0"表示在地址0处发生了段错误。这个错误信息中提到的ipsp分别表示指令指针和栈指针的值。而"error 14"则是表示发生了一个无效的页错误。根据这个错误信息,我们可以推断出在程序的main函数中发生了段错误。不过,需要注意的是,这个错误信息中的指令指针(ip)为(null),这可能意味着没有正确的调试符号(debug symbol)来解析函数名。所以,我们需要进一步分析系统日志或者其他相关信息来确定具体的原因和解决方法。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Python出现segfault错误解决方法](https://download.csdn.net/download/weixin_38616330/12875269)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [没有core文件时定位segfault at 0 ip (null) 的问题(三):艰难定位,多种原因](https://blog.csdn.net/lianshaohua/article/details/107933181)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [Coredump-N, segfault at 0 ip 0000000000000000 sp; 被kernel 抓到](https://blog.csdn.net/qq_36428903/article/details/122855636)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值