- 博客(221)
- 资源 (8)
- 收藏
- 关注

原创 12w字超全C语言数据结构考研笔记基础知识大总结!基于王道、严蔚敏相关丛书及网络相关资料、包含案例分析
QQ1257639681欢迎关注交流。
2022-07-24 17:38:00
976
5
原创 体系结构论文(八十五):RunSAFER: A Novel Runtime Fault Detection Approach for Systolic Array Accelerators
RunSAFER提出了一种轻量级、运行时、非侵入式的故障检测方法,适用于脉动阵列加速器。该方法通过引入数据冗余路径和校验逻辑,对关键路径上的计算结果进行验证,具备低开销运行机制,适用于卷积和全连接层。RunSAFER构建了一个与原始计算模块并行的检测路径,复用部分输入并推导出结果范围或冗余结果,与主输出对比以检测错误。实验评估显示,错误检测率达99%以上,资源开销极低,适用于现有主流脉动阵列架构,无需大幅修改硬件设计。RunSAFER结合了算法级容错和可测试性设计的优点,提出了一种可以在应用执行期间检测故障
2025-05-22 19:08:10
346
原创 体系结构论文(八十四):Toward Functional Safety of Systolic Array-Based Deep Learning Hardware Accelerators
本文探讨了基于脉动阵列的深度学习硬件加速器在功能安全(FuSa)方面的挑战。尽管深度神经网络(DNN)本身具有一定的容错能力,但硬件故障(如0.0003%的故障率)可能导致模型准确率从97.4%骤降至7.75%,在安全关键任务中(如自动驾驶)造成严重后果。因此,文章提出了一种系统性的功能安全评估与测试机制,重点分析了故障对DNN加速器的影响,并设计了两种测试用例选择算法(Model-Agnostic和Model-Aided),用于从原始测试集中提取最易暴露故障的样本。实验表明,仅使用0.1%的测试图像即可实
2025-05-22 15:59:12
689
原创 体系结构论文(八十三):Efficient Error Detection for Matrix Multiplication With Systolic Arrays on FPGAs
阶段成果FPGA级注入6M+次错误,构建结构性错误统计算法级确认“Line Error”为主导传播模式应用级用 LeNet 和 VGG16 验证持久性错误对任务成功率的影响结论错误传播是结构性+累积性的 → 需要低开销但结构感知的检测方法(即第 VI 节提出的 Light ABFT)特性原始 ABFTLight ABFT校验信息量i+k+1 元素(C 右边和下边的整行整列)仅 1 个标量 L错误检测能力检测 + 校正(单错)仅检测(低成本)适用平台CPU/GPU,容错通用型。
2025-05-02 17:35:32
948
原创 体系结构论文(八十二):A Comprehensive Analysis of Transient Errors on Systolic Arrays
(Tensor Processing Unit)广泛应用于DNN推理,其核心是,由大量的乘加单元(MAC)组成。由于使用了,TPU对辐射引发的瞬态错误(SET)高度敏感。现有研究多关注,对关注较少。
2025-05-02 14:30:45
991
原创 体系结构论文(八十一):Improving Fault Tolerance for Reliable DNN Using Boundary-Aware Activation
Improving Fault Tolerance for Reliable DNN Using Boundary-Aware Activation文章的主要贡献如下:容错DNN设计:文章介绍了一种修改过的ReLU激活函数——“边界感知ReLU”(BReLU)。BReLU通过设置一个上边界来限制ReLU激活函数的输出,从而防止由于权重位翻转导致的故障在网络中传播。理论分析:作者提供了一个理论框架,用于建模ReLU激活函数中的权重故障传播。研究表明,通过限制ReLU的输出,可以防止这些故障影响DNN的最终输出
2025-04-25 20:05:44
579
原创 体系结构论文(八十):MOZART+: Masking Outputs With Zeros forImproved Architectural Robustness and TestingDNN A
随着深度神经网络(DNN)在安全关键自主系统中的广泛应用,对加速器的故障检测和容错性要求变得更高。目前常见的加速器架构,如GPU和FPGA,主要优化的是性能和能效,但在安全关键应用中,架构必须具有高容错性。现有的。
2025-04-25 17:33:49
704
原创 体系结构论文(七十九):Open-Set Recognition: an Inexpensive Strategy to Increase DNN Reliability
在接下来的实验中,
2025-04-23 16:06:10
651
原创 体系结构论文(七十八):Making the Fault-Tolerance of Emerging NeuralNetwork Accelerators Scalable
文章讨论了提升基于新兴技术(如忆阻器)构建的DNN加速器的可靠性和容错性。这些加速器面临的主要问题是,由于忆阻器设备固有的物理限制(如电阻漂移和随机编程等),它们的权重存储不稳定,从而导致DNN的测试准确性下降。文章概述了当前的解决方案,如反馈控制和错误校正码(ECC),这些方法成本高且缺乏可扩展性。相对而言,作者提出了一种通过算法和硬件联合设计的可扩展解决方案,充分利用DNN分类器的错误容忍性来解决问题,而不需要昂贵的缺陷映射特定的校准或从头训练。
2025-04-23 15:20:54
759
原创 体系结构论文(七十七):Low-Cost and Effective Fault-Tolerance EnhancementTechniques for Emerging Memories-Base
卡住故障发生在新兴存储器中,当存储单元固定在某一特定的电阻/导电状态时,无法改变。例如,卡住零(SA0)故障是存储单元保持在低电阻状态(LRS),卡住一(SA1)故障则是存储单元保持在高电阻状态(HRS)。研究表明,1.75%(SA0)和9.04%(SA1)芯片内的RRAM存储单元可能受到这些故障的影响。随着时间的推移,这些故障会因为持续的编程操作而变得更加频繁。
2025-04-22 20:30:57
1093
原创 体系结构论文(七十六):FT-ClipAct: Resilience Analysis of Deep NeuralNetworks and Improving their Fault Tolera
DNN容易受到硬件故障的影响,特别是软错误、老化和制造缺陷,这些都会影响网络的参数(如权重)。这些故障会严重影响DNN在关键应用中的表现。
2025-04-22 18:55:43
1275
原创 体系结构论文(七十五):RQ-DNN: Reliable Quantizationfor Fault-tolerant Deep Neural Networks
在神经网络中,某些权重对故障更为敏感,尤其是那些在故障注入后其绝对值增加的权重,这些权重被称为“关键权重”(Critical Weights)。传统的神经网络的权重分布通常呈高斯分布(Gaussian-like),即大多数权重的值集中在某个区域。如果网络中的权重分布更“极端”或者更“集中”,则故障对权重的影响会更大,从而影响网络的准确性。
2025-04-16 20:23:11
549
原创 体系结构论文(七十四):Improving DNN Fault Tolerance using WeightPruning and Differential Crossbar Mapping for
Improving DNN Fault Tolerance using Weight Pruning and Differential Crossbar Mapping for ReRAM-based Edge AI ReRAM技术的潜力:论文开头提到,近年来,研究表明,**电阻随机存取存储器(ReRAM)**作为一种新兴技术,具有很大的潜力。ReRAM的优势在于其能够在模拟域内进行矩阵-向量乘法,这是深度神经网络(DNN)中至关重要且计算密集的操作。ReRAM技术能够高效地实现这种计算,且具有零泄漏功耗
2025-04-16 20:06:16
868
原创 体系结构论文(七十三): Improving DNN Fault Tolerance in Semantic Segmentation Applications
最大激活值。
2025-04-16 18:04:07
838
原创 体系结构论文(七十二):harDNNing: a machine-learning-based framework for fault tolerance assessment and protect
DNN在机器人、航空航天、智能医疗、自动驾驶等关键应用中广泛使用。然而,硬件故障(如由环境应力或硅老化引起的故障)可能影响DNN的推理过程,导致预测失败。传统的容错方法(如三模冗余和错误修正码)由于DNN庞大的规模和内存需求,成本效益较低。:进行基于数据类型和层的故障注入,评估DNN的容错能力。通过在每个DNN层注入控制的故障,减少了所需注入次数,同时保持了高置信度。:使用机器学习(ML)模型(如随机森林)预测DNN参数和比特的关键性。这个步骤使框架能够估算故障对DNN性能的影响。
2025-04-15 20:22:54
753
原创 体系结构论文(七十一):Quantifying the Impact of Data Encoding on DNN Fault Tolerance
深度神经网络(DNN)在硬件运行时可能遇到,特别是在能效和面积敏感的平台上(如边缘设备、移动端)。虽然DNN具有一定的天然容错性,但其。研究者提出可以通过来增强神经网络的容错能力。将权重从传统的二进制补码(two’s complement)符号-幅度编码(sign-magnitude, SM)后,模型能容忍的最大。在某些模型中,SM编码的容错能力几乎等同于“理想情况下保护符号位(oracle sign protection)”。即使是使用进行训练,不同随机种子下的模型,其容错能力也会有多达。
2025-04-15 17:59:18
970
原创 体系结构论文(七十): Evaluating the Impact of Fault-Tolerance Capabilityof Deep Neural Networks Caused by Fau
DNN广泛应用于AI领域,但其高计算密集度与高内存消耗使得对能效的要求提升。因此,硬件加速器(如GPU、FPGA、ASIC)成为关键手段。在安全关键场景(如自动驾驶、医疗等),加速器的可靠性成为重要挑战。示例:若一个权重kernel尺寸为 (R,C,M,N)=(3,3,16,32),你要在位置 (0,1,2,3)注入一个bit3上的SA1故障:先构造一个与kernel同维度的调制器tensor;除 (0,1,2,3)处为 8(即二进制00001000)外,其余位置为0;
2025-04-15 17:22:49
705
原创 体系结构论文(六十九):FT-DeepNets: Fault-Tolerant Convolutional Neural Networks with Kernel-basedDuplication
研究背景自动驾驶系统依赖于DNN的推理结果,任何瞬时错误(transient faults)可能导致严重后果。现有方法如全网络复制(D2NN、ensemble learning)开销太大,或仅在检测后恢复(如checkpoint恢复)不能解决所有问题。作者提出关注DNN内部哪些部分对错误更敏感,只复制这些“关键”部分以提升容错性。训练好模型(不带容错);对每一层使用 ranking 方法评估神经元重要性;选择部分 kernel 进行复制(如复制前20%最脆弱通道);KR:平均核后推理;FMR。
2025-04-14 20:11:12
556
原创 体系结构论文(六十八):A Survey on Fault-Tolerant Methodologies for Deep Neural Networks
由于现代芯片极度复杂,故障类型非常多,因此定义合理的故障模型有助于:精简分析范围(fault space reduction);提高仿真效率;辅助设计故障检测与修复机制;提供可靠性评估的定量依据。在DNN语境中,resiliency 指的是模型在存在错误时仍能维持预测准确性的能力。影响维度描述鲁棒性影响网络结构深度、正则层结构(如BN)深层更鲁棒数据类型FP32容错性更差参数处理剪枝、量化稀疏性提升鲁棒性故障传播路径buffer中错误易传播。
2025-04-14 16:16:27
688
原创 体系结构论文(六十七):A Machine-Learning-Guided Framework for Fault-Tolerant DNNs
真正关键 | 预测正确 (TP) = 1.73% | 被误判为可接受 (FN) = 0.03% | | 真正可接受 | 预测正确 (TN) = 98.16% | 被误判为关键 (FP) = 0.06% |,但也会误把一些“可接受”当作“关键”保护,增加了额外成本(但不影响功能,仅增加硬件资源消耗);容错能力提升的原因是:FxP 的数值范围更窄,因此位翻转不容易产生“异常值”;用户可根据所能容忍的准确率下降(如0.5%~10%)定义“关键”的标准。:预测所有参数(包括未注入的)中哪些是“关键的”;
2025-04-14 15:35:20
1175
原创 体系结构论文(六十六):A Fault-Tolerant Neural Network Architecture
ReRAM加速器无需重新训练、无需为每个硬件缺陷定制校准过程(defect-map-free);在多种**复杂模型(如AlexNet、SqueezeNet)与复杂数据集(如ImageNet)**上验证;权重扰动与现有硬件容错方案高度兼容,可集成使用;相比传统softmax分类器,FTNNA能提升容错能力,显著减少准确率损失。问题挑战本文贡献权重扰动普遍DNN精度下降严重利用分类器层的结构性优化进行恢复Softmax不兼容ECOC。
2025-04-14 15:19:56
1431
原创 体系结构论文(六十五):FlexBlock: A Flexible DNN Training Acceleratorwith Multi-Mode Block Floating Point Sup
可灵活设置不同精度分别用于:激活值(activations)权重(weights)梯度(gradients)支持 4-bit、8-bit、16-bit mantissa 精度(FB12、FB16、FB24);支持激活值(activation)、权重(weight)、梯度(gradient)分别采用不同精度;把两个16位数(W、X)都拆成4个子块(4bit),所以共有16个 4×4小乘法;:通过将输入张量(X)和权重张量(W)以层级方式映射到处理单元(PU、PE);
2025-04-11 19:58:44
775
原创 体系结构论文(六十四):HAp-FT: A Hybrid Approximate Fault ToleranceFramework for DNN Accelerator
HAp-FT 全面优于其他方案,平均恢复精度达95.74%;比 S-FT 提升5.06%;在所有模型上表现稳健,误差始终 < ±1.5%;融合转移与检测机制后,几乎恢复了所有CNN中由故障引发的精度损失。HAp-FT 几乎不影响主干流水线,只对部分filter额外加check;其极低的性能开销来源于两个方面:检测仅增加一个周期延迟;少数不可聚类filter采用复制执行,占用少量资源。HAp-FT 通过offline filter 重排 + 轻量check单元。
2025-04-11 14:24:11
728
原创 体系结构论文(六十三):ReIPE: Recycling Idle PEs in CNN Accelerator for VulnerableFilters Soft-Error Detection
这部分指出当前深度CNN模型计算量极大,所以需要CNN专用的硬件加速器(如TPU、Gemmini)。但这些加速器由于高集成度和小特征尺寸,在面对宇宙射线(如高能中子、α粒子)时,会产生软错误(soft error),导致临时位翻转,从而对任务造成灾难性影响。特别是在**安全关键领域(mission-critical domains)**中,CNN的错误容忍能力显得尤为重要。举例:ISO 26262标准要求SoC的故障率低于10 FIT,而CNN加速器若不够可靠将拉低整个系统的可靠性。错误检测率。
2025-04-10 19:08:27
765
原创 体系结构论文(六十二):Fault-Tolerant Ensemble CNNs Increasing Diversity Based on Knowledge Distillation
基于知识蒸馏(Knowledge Distillation)的低成本容错CNN集成模型(Ensemble CNN)
2025-04-10 14:46:26
618
原创 体系结构论文(六十一):Dependable Deep Learning: Towards Cost-Efficient Resilience of Deep Neural Network
故障类型代表方法是否需要训练集是否依赖硬件改造开销可组合性❌❌ 或低极低✅✅ / ❌中等(bypass逻辑)中✅❌低中✅。
2025-04-09 20:14:49
837
原创 体系结构论文(六十):Approximated Triple Modular Redundancy of Convolutional Neural Networks Based on Residua
提出ATMR结构构造形式为,即:1个8-bit原始卷积层(主模块)2个m-bit量化卷积层(容错模块)是对之前ADMR(Approximated Dual Modular Redundancy)的扩展,ATMR不仅可检测错误,还可进行推理输出恢复。实验设计使用CIFAR-10数据集和 **ResNet-20(8-bit版本)**进行训练与验证。将CNN中卷积层替换为 ATMR 单元,测试 m = {3, 4, 5, 6, 7} 时的恢复能力。实验结果。
2025-04-09 18:12:01
841
原创 体系结构论文(五十九):An Approximate Fault-Tolerance Design for a Convolutional Neural Network Accelerator
在 CNN 的某一卷积层中,会有多个 filter(滤波器)同时对同一个输入特征图做卷积操作。例如:这一层的输入是大小为 32x32 的图像(ifmap);这层有 64 个 filter;那么这 64 个 filter都拿这张 32x32 的图像做卷积,只是每个 filter 的权重不同。它们的输入是相同的,只是“提取特征的方式”不同。
2025-04-09 15:50:56
871
原创 体系结构论文(五十八):AdAM: Adaptive Approximate Multiplierfor Fault Tolerance in DNN Accelerators
这篇文章后边不再记录了,用的是一种自定义式加法器和一个近似乘法器。,但在 DNN 任务中。
2025-03-12 19:10:18
828
原创 体系结构论文(五十七):A Review of Approximate Computing Techniquestowards Fault Mitigation in HW/SW Systems
硬件级 AC 主要包括。
2025-03-12 18:53:41
517
原创 体系结构论文(五十六):Hybrid Modular Redundancy: Exploring Modular Redundancy Approaches in RISC-V Multi-Core
太空中的辐射环境会导致电子设备出现单粒子瞬态(SETs)和单粒子翻转(SEUs)等错误。这些错误比地面环境中更为频繁,严重影响系统的可靠性。因此,设计能够容忍这些故障的系统对于保障太空任务的成功至关重要。当前普遍采用的辐射加固设计(RHBD)方法代价高昂,且在性能、功耗和面积(PPA)方面存在较大开销。为了弥补PPA上的差距,研究人员开始探索新的低开销解决方案。文中介绍的HMR方法通过灵活的模块冗余技术,在性能和可靠性之间提供了一个可调节的平衡点。
2024-10-06 18:02:14
1670
1
原创 体系结构论文(五十五):Full Stack Optimization of Transformer Inference
Transformer模型被广泛应用于各种任务,如计算机视觉自然语言处理语音识别等,原因是它们的准确度很高。然而,这些模型的复杂性和规模不断增加,导致它们在推理阶段需要大量的计算资源和带宽,特别是在那些对延迟敏感的应用场景中,部署这些模型变得非常困难。
2024-10-06 16:43:29
1328
原创 体系结构论文(五十四):Reliability-Aware Runahead 【22‘ HPCA】
随着半导体技术的进步,处理器的核心微架构(比如重新排序缓冲区、指令队列、寄存器文件等)变得越来越复杂,这些结构的规模越来越大,这也意味着在处理器等待内存返回数据的过程中,更多的状态信息会长期暴露,导致更高的软错误风险。这些错误是由于辐射或能量粒子撞击引起的,可能导致位翻转,进而破坏处理器的架构状态,降低系统的可靠性。
2024-10-05 13:34:04
1244
原创 体系结构论文(五十三):Featherweight Soft Error Resilience for GPUs 【22‘ MIRCO】
背景:软错误通常由高能粒子(如宇宙射线和α粒子)打击电路造成的位翻转,可能导致程序崩溃或产生错误输出。随着电子技术的进步,电路对这种辐射引发的软错误变得更加敏感。由于GPU广泛应用于从嵌入式系统(如无人机和自动驾驶汽车)到高性能计算系统(如数据中心和超级计算机),保护GPU免受软错误变得至关重要。问题:传统的错误检测方法(如指令复制)虽然可以检测软错误,但性能开销巨大。例如,在GPU上运行每条指令两次以进行比较,可能会导致性能下降50%左右。研究人员试图找到更高效的方法来减少这种开销。Flame方案的目标。
2024-10-02 18:17:02
1661
原创 体系结构论文(五十二):HTAG-eNN: Hardening Technique with AND Gates for Embedded Neural Networks【DAC‘24】
不同的数据格式包括:float4 (1, 2, 1)、float6 (1, 3, 2)、float8 (1, 4, 3)、float12 (1, 4, 7) 和 float16 (1, 5, 10)。这些格式分别指代符号位、指数部分和尾数部分的位数。
2024-10-02 15:23:21
1306
原创 体系结构论文(五十一):Drift: Leveraging Distribution-based Dynamic Precision Quantization for Efficien【DAC‘24】
动态精度量化是一种在运行时根据数据的动态特性选择不同精度的量化方式,以降低计算成本。例如,对重要的区域(如模型中的关键部分或激活值)使用高精度(如8位),而对次要区域(如稀疏区域或不重要的数据)使用低精度(如4位)。这种方法可以大大减少计算资源的使用。
2024-09-29 17:07:36
860
3
原创 体系结构论文(五十):Maintaining Sanity: Algorithm-based Comprehensive Fault Tolerance for CNNs 【DAC‘24】
背景由于CNN越来越多地被用于安全关键的应用(如自动驾驶、气候分析、疾病诊断等),因此保证它们在硬件故障时依然能稳定运行变得尤为重要。硬件中的软错误(例如由宇宙射线或热中子引起的意外比特翻转)可能导致神经网络误分类,比如可能把卡车识别为鸟。这类错误在安全关键应用中可能引发灾难性后果。
2024-09-29 14:11:42
1295
原创 体系结构论文(四十九):Partitioned Scheduling and Parallelism Assignment for Real-Time DNN Inference Ta【DAC‘24】
首先,算法接受一个任务集𝜏和可用的处理器数量M。初始时,所有处理器被分为。
2024-09-28 20:44:05
1205
原创 体系结构论文(四十八):Garrison: A High-Performance GPU-Accelerated Inference System for Adversarial 【DAC‘24】
MIG是Nvidia GPU的一项新功能,它允许用户将一个GPU分割成多个GPU实例(GIs),每个实例拥有独立的计算和存储资源,如流多处理器(SMs)、L1/L2缓存和DRAM内存。这使得不同的DNN模型可以同时运行而互不干扰,如图1所示,GPU可以被划分为不同大小的实例,最大可以划分为1/7、2/7、3/7、4/7、7/7等不同大小的资源块。
2024-09-28 15:25:02
884
原创 体系结构论文(四十七):MERSIT: A Hardware-Efficient 8-bit Data Format with Enhanced Post-Training 【DAC‘24】
在Posit和MERSIT格式中,
2024-09-27 19:25:51
966
python tkinter写的记事本(代码行数400+,各种tkinter均使用了)
2022-07-03
python学生管理系统+报告(含文件操作,400+行,封装10余个函数)
2022-07-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人