网卡软中断绑定优化

最新推荐文章于 2025-03-30 21:17:50 发布

wstanght

最新推荐文章于 2025-03-30 21:17:50 发布

阅读量4.4k

点赞数 1

分类专栏： CDN

本文链接：https://blog.csdn.net/pytanght/article/details/38343267

版权

这篇博客总结了处理网卡软中断不均衡问题的经验，包括问题的现象（软中断集中在单个CPU核心，硬件中断队列不足）以及解决办法（中断一对一绑定，启用RFS和RPS）。提供了一个自动化绑定脚本来优化CPU使用平衡。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天测试刚好发现一个关于网卡软中断不均衡的问题，之前处理过类似情况，一直未有总结，今天稍作总结下，并写了个自动化绑定脚本。关于什么是软中断，网卡硬件中断队列，RFS，RPS 这些概，这里不做具体解释。感兴趣可自行google

问题现象：

1. 网卡软中断不平衡，集中在一个CPU核心上（mpstat 查看%soft集中，通常是cpu0)

2. 网卡的硬件中断队列不够, < CPU 核心数，无法一对一绑定，导致部分CPU核心%soft 较少，CPU使用不均衡

解决办法：

情况1：绑定网卡中断，通常是和CPU 一对一绑定

情况2：开启RFS,RPS

最终效果：

mpstat -P ALL 2

cpu 线程利用率

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wstanght

关注关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

kernel网络之软中断

fengcai_ke的博客

07-18

1468

kernek网络 软中断

网卡软中断过高问题优化总结

weixin_30451709的博客

07-03

1707

问题多核CPU游戏战斗服务器高峰期时会出现网络丢包, 发现CPU0软中断%si 过高，导致%id值过低触发告警如下图，在线低峰期软中断%si 处理时间百分比高达20多，id值变低，服务器变卡和丢包，影响业务中断什么是中断? 指接收来自硬件或者软件的信号发送给CPU和系统内核进行处理，发出这样的信号称为进行中断请求(IRQ) 中断又分为：硬中断：外围硬件比如网卡发给...

参与评论您还未登录，请先登录后发表或查看评论

网卡软中断优化

weixin_33700350的博客

12-22

279

服务器网卡大量并发时候，大家肯定遇到过cpu软中断不均衡情况，都压到cpu0上，其他核的cpu闲着没干活。比如：lvs服务器，高并发的网站服务器，最容易遇到这种问题。有2种解决方法：如果网卡不支持多队列,2.6.21后网卡驱动才支持多队列判断是否支持多队列lspci -vvv 如果有MSI-X && Enable+ && TabSize &g...

【操作系统】软中断vs硬中断

司六米希的博客

03-30

541

（如键盘、网卡、磁盘）触发，通知 CPU 有紧急事件需要处理。（如系统调用、异常处理），用于请求内核服务或处理异常。是 CPU 响应外部事件的重要机制，分为。理解二者的区别，有助于优化。

Linux CPU网卡软中断性能调优

m0_37383484的博客

09-22

7597

Linux CPU网卡软中断性能调优。

对网卡中断绑定的脚本

weixin_34320159的博客

11-18

143

1 service irqbalance stop 2 3 #@irqnum:网卡eth2的中断数 4 #@cpunum:CPU数目 5 irqnum=`cat /proc/interrupts | grep eth2.*- | awk -F : '{print $1}' | awk '{print $1}'` 6 cpunum=`cat /proc/cpuinfo |...

网卡中断与软中断

MyObject-C的专栏

09-26

8491

查看命令 1. mpstat -P ALL 1 或 mpstat -I SUM -P ALL 1（有的机器得用这个命令）， 2. sar -n DEV 1 显示网络读写发生在eth1 3. cat /proc/interrupts | grep eth1 通过这个可以查看网卡队列数目，也可以查看哪个cpu占用的软中断 4.top命令查看 Cpu(s): 0...

将网卡软中断绑定指定CPU.pdf

09-29

"将网卡软中断绑定指定CPU" 本文将讲解如何将网卡软中断绑定到指定的CPU上，以提高系统的性能和稳定性。什么是软中断？ 软中断（Softirq）是一种特殊的中断机制，它允许操作系统将中断处理程序绑定到特定的CPU上...

linux多队列网卡中断绑定,网卡多队列及中断均衡

weixin_27322123的博客

05-03

1172

Linux网口中断分配不均,Linux系统针对网卡中断的优化处理

weixin_42467088的博客

05-15

1213

摘要：中断：当网卡接收到数据包后，会触发硬中断，通知CPU来收包。硬中断是一个CPU和网卡交互的过程。这其实会消耗CPU资源。特别是在使用速度极快的万兆网卡之后，大量的网络交互使得CPU很大一部分资源消耗在网卡中断处理上。此时，瓶颈并不在网卡，而是在CPU上。因此，现在的网卡都采用多队列的技术，用于充...中断：当网卡接收到数据包后，会触发硬中断，通知CPU来收包。硬中断是一个CPU和网...

linux tcp重传多会导致软中断在各个核很不均匀么？

weixin_34357436的博客

11-09

284

网络不稳定，会导致某些核的软中断很高么?那么，下面我们来分析下这个论断的准确性。环境描述：网卡软中断进行了绑核。设备具备80个核，960个网卡中断，没开启bbr，全部是tcp呼叫。 # cat /proc/cpuinfo |grep processor|wc -l 80 # cat /proc/interrupts |grep eth |wc -l 960 ...

linux网卡中断绑核

weixin_42637022的博客

09-22

1934

当网卡接收包时，会发送一个中断信号给CPU，CPU会立即放下手中的事来处理这个信号中信息，比如让这个包先放到内存中。这样的话，如果网卡只绑定一个CPU，那么当网络负载上来了之后，这个CPU将性能下降，直至系统崩溃。所以解决这个问题，就要把网卡的中断信号均衡的绑到各个CPU上。

linux 网卡绑定cpu,将网卡软中断绑定指定CPU

weixin_42351606的博客

05-06

1222

使用以下sh命令将中断与cpu1绑定echo "00000002"> /proc/irq/122/smp_affinityecho "00000002"> /proc/irq/130/smp_affinityecho "00000002"> /proc/irq/138/smp_affinityecho "00000002"> /proc/irq/146/smp_affini...

中断与核的绑定

qq_35399548的博客

07-05

1351

背景：硬件中断发生频繁，是件很消耗 CPU 资源的事情，在多核 CPU 条件下如果有办法把大量硬件中断分配给不同的 CPU (core) 处理显然能很好的平衡性能。 cpumask_set_cpu和irq_set_affinity： 1、声明cpumask cpumask_t cpumask = CPU_MASK_NONE;/*no bits set*/ 2、设置cpumask cpumask_set_cpu(cpuid,cpumask); /* 设置对应bit为1 */ 3、设置中断与核绑定 irq

网卡中断不均衡处理

weixin_34233679的博客

04-01

571

在数据量大的时候，硬中断和软中断会形成瓶颈。网卡接收数据包，从网卡产生中断信号，CPU将网络数据包拷贝到内核，然后进行协议栈的处理，最后将数据部分传递给用户空间，但硬件中断处理仅仅做从网卡拷贝数据的工作，而协议栈的处理的工作就交给软中断处理。所以当硬中断和软中断集中在cpu0的时候，会给调度带来负担（集中在其他cpu也会造成性能瓶颈，这里举cpu0的例...

软中断-小结

qq_42693685的博客

07-28

1502

软中断小结

Linux软中断不均的调优

weixin_34402408的博客

11-24

1032

转载 - Linux软中断不均的调优作者 digoal 日期 2016-11-20 标签 Linux , 软中断 , 监控 , 诊断 , 优化背景原文 http://www.aichengxu.com/view/9627015 原文 Rpc程序主要是io bound程序，这里主要针对的是linux的网络的部分性能调优，对于具体的问题具体...

【原创】qlogic网卡软中断不均衡问题分析

weixin_34418883的博客

03-23

620

引子　　使用qlogic QL45000网卡测试业务性能，发现cpu软中断分布不均衡，而且很有规律，导致cpu空闲也不是很均衡，会影响业务稳定性。　　设备使用3张网卡Qlogic网卡，配置为4*25G模式，也就是12个25G网口。三张网卡中其中两张接在物理cpu0上，另一张接在物理cpu1上。笔者以为是由于三张网卡在物理架构上不均衡导致的cpu软中断不均衡，但是屏蔽了物理...

linux 软中断 网卡,Linux服务器网卡负载不均衡系统软中断解决方案

weixin_39524147的博客

05-02

772

1.后台top查看：2.查看irqbalance状态：3.关闭irqbalance:systemctl status irqbalance4.查看网卡中断号：cat /proc/interrupts |grep s1p1得到中断号本来grep s1p6,但是中断这里名字还是eth7查看cpu内函数：lscpu手动绑定中断号：单个绑定：批量绑定：[root@localhost ~]# cat se...

软中断怎么分析

最新发布

04-02

<think>好的，用户现在问的是“软中断怎么分析”，我需要详细回答这个问题。首先，回忆一下之前用户问的是关于内核日志中的中断线程和看门狗任务的信息，现在用户可能是在进一步深入中断处理的问题，特别是软中断部分。 软中断（SoftIRQ）是Linux内核中处理延迟敏感任务的一种机制，通常在硬中断处理之后执行。分析软中断通常涉及性能问题和系统延迟的排查。用户可能是遇到了系统延迟高、网络性能不佳或者某些内核任务占用过高的问题，想要了解如何分析软中断的情况。首先，我需要解释软中断的基本概念，包括它与硬中断的区别，以及常见的软中断类型，比如网络接收（NET_RX）、定时器（TIMER）、块设备（BLOCK）等。然后，介绍分析工具，比如/proc/softirqs、top命令、perf、ftrace等。接着，需要分步骤说明如何查看软中断的统计信息，如何监控软中断的频率和时间，以及如何诊断高负载的软中断。用户可能想知道具体怎么操作，所以需要给出具体的命令示例，比如使用watch命令监控/proc/softirqs的变化，使用perf记录软中断的处理函数，或者使用ftrace跟踪软中断的执行情况。同时，还需要解释这些命令输出的含义，帮助用户理解数据。另外，用户可能遇到性能瓶颈，比如网络软中断处理导致CPU使用率过高，这时候需要指导如何定位问题，比如检查网络驱动、调整中断亲和性（IRQ affinity）或者进行内核参数优化。这部分需要给出实际的排查步骤和优化建议。还要注意用户的技术水平，可能不是内核开发者，但有一定的系统管理经验。因此，解释需要清晰，避免过于深入的代码细节，而是侧重于工具使用和实际案例分析。同时，提醒用户在高负载情况下如何正确诊断，避免误解数据。最后，总结软中断分析的步骤，强调系统性排查，从监控到深入分析，再到优化调整。可能还需要提到常见问题及解决方法，比如软中断不平衡、单个CPU核心过载等，并给出相应的解决策略。</think>### **软中断（SoftIRQ）分析指南** 软中断（SoftIRQ）是 Linux 内核中处理 **延迟敏感任务** 的核心机制，常用于网络数据包处理（如 TCP/IP 协议栈）、块设备 I/O 完成、定时器等场景。其设计目标是在 **硬中断（HardIRQ）** 处理程序之外，以更灵活的调度方式完成耗时操作。以下是软中断的 **分析方法和工具**： --- #### **一、软中断基础概念** 1. **与硬中断的区别** - **硬中断**：由硬件触发（如网卡收到数据包），需要立即响应，执行时间极短（微秒级），且运行在 **中断上下文**（不可休眠）。 - **软中断**：由内核触发（如 `NET_RX` 网络接收），允许稍后处理，运行在 **内核线程上下文**（可休眠），通常由 `ksoftirqd/<CPU>` 线程执行。 2. **常见软中断类型** | 软中断名称 | 用途 | |----------------------|--------------------------------------| | `NET_RX` | 网络数据包接收处理（如 TCP/IP 协议栈）| | `NET_TX` | 网络数据包发送完成 | | `TIMER` | 定时器回调（如 `jiffies` 更新） | | `BLOCK` | 块设备 I/O 完成（如磁盘读写） | | `TASKLET` | 小任务调度（如 USB 驱动） | | `SCHED` | 进程调度相关（如负载均衡） | --- #### **二、软中断分析工具** ##### **1. 查看软中断统计** - **实时统计**： ```bash watch -n1 "cat /proc/softirqs" # 每秒刷新各 CPU 软中断计数 ``` **输出示例**： ``` CPU0 CPU1 CPU2 HI: 0 0 0 TIMER: 12345678 9876543 10456789 NET_TX: 5678 4321 6789 NET_RX: 98765432 87654321 76543210 BLOCK: 0 0 0 IRQ_POLL: 0 0 0 TASKLET: 123 456 789 SCHED: 456789 345678 234567 ``` - **关键字段**：`NET_RX`/`NET_TX` 高数值可能指示网络负载过大。 - **历史统计**： ```bash sar -w -I SUM 1 # 使用 sysstat 监控软中断频率（需安装） ``` ##### **2. 定位软中断 CPU 开销** - **按 CPU 核心排序**： ```bash mpstat -P ALL 1 # 查看各 CPU 使用率，结合软中断分布 ``` - 若某个 CPU 核心的 `%soft`（软中断占比）过高（如 >30%），需进一步分析。 - **跟踪软中断处理函数**： ```bash perf top -e irq:softirq_entry # 动态显示软中断热点函数 perf record -e irq:softirq_entry -ag -- sleep 5 # 记录 5 秒软中断调用栈 ``` ##### **3. 深入分析软中断延迟** - **使用 `trace-cmd` 或 `ftrace`**： ```bash echo 'softirq:*' > /sys/kernel/debug/tracing/set_event echo 1 > /sys/kernel/debug/tracing/tracing_on cat /sys/kernel/debug/tracing/trace_pipe # 实时跟踪软中断事件 ``` **输出关键字段**： - `softirq_raise`：软中断被触发的时间点。 - `softirq_entry`/`softirq_exit`：软中断处理的开始和结束时间。 - **计算延迟**：`exit_time - entry_time` 即为处理耗时。 --- #### **三、典型问题与排查方法** ##### **场景 1：网络性能瓶颈（高 `NET_RX` 计数）** - **现象**： - 网卡吞吐量下降，CPU `%soft` 占比高，`/proc/softirqs` 中 `NET_RX` 计数飙升。 - **排查步骤**： 1. **确认网卡中断亲和性**： ```bash cat /proc/interrupts | grep eth0 # 查看网卡中断绑定的 CPU ``` - 若多队列网卡的中断集中到少数 CPU，会导致软中断负载不均。 - **优化方法**：调整中断亲和性（IRQ Affinity）： ```bash echo 0-3 > /proc/irq/<IRQ_NUM>/smp_affinity_list # 将中断分散到 CPU0~3 ``` 2. **检查网络协议栈处理**： - **跟踪 `NET_RX` 处理函数**： ```bash perf record -e irq:softirq_entry -C <CPU> -g -- sleep 10 # 指定 CPU 抓取调用栈 perf report # 分析热点函数（如 `napi_gro_receive`、`__netif_receive_skb`） ``` - **优化建议**： - 启用 RSS（Receive Side Scaling）分散数据包到多队列。 - 调整内核参数（如 `net.core.netdev_budget` 增加单次软中断处理的数据包数）。 ##### **场景 2：软中断处理延迟过高** - **现象**： - 系统响应延迟增加，`ftrace` 显示软中断处理时间过长（如 >1ms）。 - **排查步骤**： 1. **确认软中断类型**： - 若 `TIMER` 软中断延迟高，检查定时器回调函数是否阻塞。 - 若 `TASKLET` 延迟高，检查任务是否因锁竞争或 I/O 阻塞。 2. **分析内核锁竞争**： ```bash echo 1 > /proc/sys/kernel/lock_stat # 开启锁统计 cat /proc/lock_stat | grep spin_lock # 查看自旋锁争用情况 ``` 3. **优化方向**： - 减少软中断触发频率（如合并网络数据包）。 - 将任务迁移到线程化中断（Threaded IRQ）或工作队列（Workqueue）。 --- #### **四、高级工具与内核调试** 1. **动态追踪（BPF/BCC）**： - **统计软中断耗时分布**： ```bash sudo trace -K 'r::softirq_entry(unsigned int vec) { @[vec] = nsecs; } r::softirq_exit(unsigned int vec) { @[vec] = hist(nsecs - @[vec]); delete(@[vec]); }' ``` - **输出示例**： ``` @[NET_RX]: [0, 1) 12 |@@@@@ [1, 2) 145 |@@@@@@@@@@@@@@@@@@ [2, 4) 89 |@@@@@@@@@@@@ ``` 显示 `NET_RX` 软中断的处理时间分布。 2. **内核源码调试**： - **关键代码路径**： - 软中断触发：`raise_softirq()` → `__raise_softirq_irqoff()` - 软中断处理：`do_softirq()` → `__do_softirq()` - **调试方法**： ```bash echo 'p:softirq_raise __raise_softirq_irqoff vec=%di' > /sys/kernel/debug/tracing/kprobe_events echo 1 > /sys/kernel/debug/tracing/events/kprobes/softirq_raise/enable ``` --- ### **总结与建议** 1. **分析流程总结**： - **Step 1**：通过 `/proc/softirqs` 和 `mpstat` 定位高负载软中断类型和 CPU。 - **Step 2**：使用 `perf` 或 `ftrace` 追踪热点函数和延迟。 - **Step 3**：结合硬件中断分布（`/proc/interrupts`）优化负载均衡。 2. **常见优化手段**： - 调整中断亲和性（IRQ Affinity）。 - 启用多队列网卡（RSS/RPS）。 - 优化内核参数（如 `net.core.netdev_budget`）。 - 避免在软中断上下文中执行耗时操作（改用工作队列）。如需深入分析特定场景，请提供 `/proc/softirqs` 输出和 `perf` 热点函数列表。