神经网络输出Nan

最新推荐文章于 2024-12-10 21:12:01 发布

求求让我毕业吧

最新推荐文章于 2024-12-10 21:12:01 发布

阅读量639

点赞数

文章标签：神经网络

本文链接：https://blog.csdn.net/lumos111/article/details/129693341

版权

在训练ResNet模型时，设置epoch=100，batchsize=128，发现在第一个epoch的后期输出变为nan。尝试降低学习率无效。发现nan的位置随机，但关闭DataLoader的shuffle后，nan出现位置固定。检测到input中存在nan，删除含nan的数据片段后训练恢复正常。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题描述：设置的epoch=100，batchsize=128

网络是resnet，输入输出一维信号

在第一个epoch，前几个输出都正常值，后面开始全是nan

解决办法（顺序不是步骤，是挨个尝试的）：

降低学习率，我降了，没用

我发现出现nan的地方尽管都在第一个epoch里，但是每次训练出具体地方不一样。猜测是label或者input有问题，但是如果是这样的话应该是在某一个点处出现nan。发现是DataLoader里shuffle=true，我把它改成了false

此时，总是固定的地方出现nan。我用了一个判断

res=torch.isnan(inputs).any()

print(res)

True就是有nan，反之没有

找到了发现input存在nan, 我也不知道为啥存在，我直接把这一小块input删了，反正几万个数据不差这一个

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

求求让我毕业吧

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

训练神经网络出现nan

m0_61175448的博客

10-08

1493

在这里对这个问题做一个总结：1.如果在迭代的100轮以内，出现NaN，一般情况下的原因是因为你的学习率过高，需要降低学习率。2.如果当前的网络是类似于RNN的循环神经网络的话，出现NaN可能是因为梯度爆炸的原因，一个有效的方式是增加“gradient clipping”（梯度截断来解决）_pytorch nan。其实不然，在训练的时候我们依然可以通过大量的技巧去最大化我们的训练效果，从而帮助我们的任务取得不错的精度，这些技巧是训练神经网络不可缺少的一环。fastai首席设计师。

【解决方案】pytorch中loss变成了nan | 神经网络输出nan | MSE 梯度爆炸/梯度消失

记录学习痕迹的公众号：Piper蛋窝

06-29

1万+

最近在跑一个项目，计算loss时用了很普通的MSE，在训练了10到300个batch时，会出现loss tensor([[nan nan nan nan]]类似的情况。对这个异常的loss进行梯度下降，会导致net的输出变为nan。在网上查了解决方案，都不好用。

参与评论您还未登录，请先登录后发表或查看评论

神经网络，输出数据中含有nan，输出数据都相同，两种情况的处理日志。

qq_42390121的博客

06-05

1600

1、使用深度学习训练网络时出现了大量的nan数据，各种调试无果后，最后将learning rate 从0.1缩小了十倍变为0.01，重新训练，之后输出正常。2、之后又出现了不管input是什么，输出output都相同的问题，猜测是因为正则化权重过大，导致层内参数weight过小，再经过relu层后全变成零。尝试降低正则化权重，将weight_decay=0.09变为·weight_decay=0.009...

使用caffe训练时Loss变为nan的原因

xunan003的博客

05-03

1047

梯度爆炸原因：梯度变得非常大，使得学习过程难以继续现象：观察log，注意每一轮迭代后的loss。loss随着每轮迭代越来越大，最终超过了浮点型表示的范围，就变成了NaN。措施： 1. 减小solver.prototxt中的base_lr，至少减小一个数量级。如果有多个loss layer，需要找出哪个损失层导致了梯度爆炸，并在train_val.prototxt中减

Tensorflow中训练得到Nan错误的分析

yinxingtianxia的博客

09-28

6576

之前在TensorFlow中实现不同的神经网络，作为新手，发现经常会出现计算的loss中，出现Nan值的情况，总的来说，TensorFlow中出现Nan值的情况有两种，一种是在loss中计算后得到了Nan值，另一种是在更新网络权重等等数据的时候出现了Nan值，本文接下来，首先解决计算loss中得到Nan值的问题，随后介绍更新网络时，出现Nan值的情况。 Loss计算中出现Nan值在搜

深度学习网络output出现nan

qq_41670507的博客

10-08

1478

经验贴里最后的sigmoid容易出问题，而Mymoel未用到sigmoid。debug将batchsize调为1，检查output为nan的id号，通过3Dslicer发现该病例有问题（大部分为0），将其去掉后网络正常。本文链接：https://blog.csdn.net/t20134297/article/details/109543539。版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。心得：若网络输出为nan，先检查数据。

神经网络出现NAN的个人见解

热门推荐

沉香屑_的博客

05-31

2万+

出现原因学习率较大，若此时反向传回来的梯度也很大的时候，参数可能会更新的非常大，倘若不幸，飞成Inf，前向传播求loss的时候，会报NAN。解决方法调小学习率。某些batch的数据产生过大的梯度，解决方法采用梯度裁剪、数据归一化。数据出错，网络中出现log0、除以0等不正常的操作。【个人认为1、2是互相依赖的，若梯度很大但学习率比较小的话，参数更新值会因为学习率较小而变小，减少NAN...

python神经网络训练损失率nan_神经网络训练时出现nan错误

weixin_39946500的博客

12-11

1686

现在一直在用TensorFlow训练CNN和LSTM神经网络，但是训练期间遇到了好多坑，现就遇到的各种坑做一下总结1.问题一;训练CNN的时候出现nanCNN是我最开始接触的网络，我的研究课题就是利用CNN，LSTM等网络对人体动作做识别。动作数据来源于手机的加速度计，做动作的人在固定位置携带手机并做特定动作，实验人员接收手机的加速度计数值并打上特定的动作标签。在训练CNN网络时一共遇到两处坑，一...

matlab神经网络输出函数,选择神经网络输入输出处理函数

weixin_42354944的博客

03-22

1370

选择神经网络输入输出处理函数本主题介绍典型多层网络工作流的一部分。有关详细信息和其他步骤，请参阅多层浅层神经网络与反向传播训练。如果对网络输入和目标执行某些预处理步骤，神经网络训练会更高效。本节介绍几个您可以使用的预处理例程。(其中最常见的预处理例程是在您创建网络时自动提供的，它们成为网络对象的一部分，因此无论何时使用网络，进入网络的数据都会以相同的方式进行预处理。)例如，在多层网络中，sigmo...

为什么神经网络的结果是nan?

weixin_51794727的博客

11-01

778

今天在用之前的模型跑了一个新的数据集，超参数无论怎样调loss都是nan,最后我认认真真检查了一遍数据，发现其中好多元素都是空的，于是我把这些空的数据处理之后，nan这样的结果就消失了。希望对需要的朋友们有用，末学祝大家吉祥喜乐！

Tensorflow神经网络训练（Nan）问题实践分析

肖永威的专栏

04-24

3442

我们在设计、训练Tensorflow神经网络时，无论是简易的BP神经网络，还是复杂的卷积神经网络、循环神经网络，都要面临梯度爆炸、梯度消失，以及数据越界等一系列问题，这也是计算机资源和数学原理所决定。通常，我们在模型训练过程中，特别是非图像识别模型，经常会出现Loss（损失）与gradients（梯度）的Nan情况，接下来我们一起讨论此实践所遇到的情况，以及解决方案

神经网络训练遇到神经网络参数全部为nan的情况

weixin_41998045的博客

02-06

1774

重新训练，打印训练过程，下划线部分是输出，圈起来的是loss，发现是由于某个sample的输出超级大，导致了loss超级大，最终网络崩掉。接下来打算采用梯度裁剪的方法来防止这种情况。

神经网络得到 NaN 的排查流程

Roger_LZX的博客

02-04

1380

神经网络训练出现 NaN，如何一步步排查？

神经网络在训练时出现NAN值的问题定位方法

最新发布

weixin_44809603的博客

12-10

559

神经网络在训练时出现NAN问题的解决方案

利用TF2.5 Keras训练ResNet50出现loss为NaN

qq_41723029的博客

07-13

383

利用TF2.5 Keras训练ResNet50，在第一个epoch就出现loss为NaN，把数据量变为80分之一后没有这样的情况。

tensorflow训练神经网络时loss出现nan的问题

Moelimoe的博客

07-26

1911

tensorflow训练神经网络时loss出现nan的问题一般情况下原因是由于优化器上的学习比率learning_rate定义值太大，如： train_step = tf.compat.v1.train.GradientDescentOptimizer(0.1).minimize(loss) 运行打印loss： for i in range(100): sess.run(train_...

PPO连续控制中策略网络输出NaN的问题

jy913872016的博客

07-11

1159

而在输出标准差时往往使用了exp或者softmax进行激活以保证其恒为正值，这两个激活函数的梯度相对于relu都是相当大的，导致共享层关于标准差过拟合，输出的均值正确性就会受到影响，累计下来就会输出NaN。二是将不通过神经网络输出标准差对数，而是直接将其注册为神经网络的参数，这样在反向传播更新时，神经网络参数更新只受均值影响，而标准差对数则根据损失函数进行直接更新，但是暂时测试发现该方法训练效果并不理想。一是隐藏层和均值也使用大梯度激活函数，如sigmoid，这样两者梯度差距不会太大；

神经网络参数初始化及训练过程loss出现NAN的解决方法

snowsnowsnow1991的博客

10-14

1861

一、最近在修改代码后，训练过程loss出现NAN，而且概率很大，于是查找原因，在此记录。在给信号按照相应信噪比加噪声的过程中，增加了部分代码，且增加了batch norm，但是训练过程中大概率loss会出现NAN。增加噪声的代码如下： 1 def wgn(x, snr): 2 P_signal = np.sum(abs(x)**2)/len(x) 3 　 P_noise = P_signal/10**(snr/10.0) 4 　 return np....

在第一个 epoch 的训练中 loss 正常，但是在之后的 epoch 中 loss 变为 NaN

zhu_ba的博客

11-26

1837

在深度神经网络训练中，如果在第一个 epoch 的训练中 loss 正常，但是在之后的 epoch 中 loss 变为 NaN，通常说明模型在训练过程中发生了某种问题。在诊断问题时，逐步排除可能的原因，同时监控训练过程中的中间状态，例如梯度大小、权重分布等，可以帮助更准确地定位问题。2.如果学习率过大，权重更新可能会导致参数值爆炸，使 loss 变为 NaN。11.网络结构可能存在问题，如层之间的连接错误或某些层参数的异常初始化。14.在计算中使用了不稳定的数值计算方法，可能导致数值溢出或下溢。

bp神经网络训练结果nan

05-19

BP神经网络在训练过程中出现NaN（Not a Number）的结果通常是由于以下原因： 1. 学习率过大：如果学习率设置过大，每次更新权重时会产生非常大的值，导致神经网络的输出结果出现NaN。 2. 权重初始化不当：如果权重初始化不当，可能会导致某些神经元的输入值过大或过小，从而导致输出结果出现NaN。 3. 数据处理问题：数据中存在缺失值、异常值或者数据不统一等问题，也可能导致神经网络训练过程中出现NaN。 4. 激活函数问题：如果使用了不稳定的激活函数，如sigmoid函数的导数在某些位置上非常小，可能会导致神经网络训练过程中出现NaN。为了解决这个问题，可以尝试以下方法： 1. 调整学习率：将学习率逐渐降低，直到训练过程中不再出现NaN。 2. 重新初始化权重：可以尝试使用不同的权重初始化方法，比如Xavier或He等方法。 3. 清洗数据：检查数据中是否存在缺失值、异常值等问题，并对数据进行预处理。 4. 更换激活函数：可以尝试使用其他的激活函数，如ReLU或LeakyReLU等。