WaibiJiangzhi-CSDN博客

原创吴恩达DeepLearning学习笔记第五门课第三周

10个单词的组合从字典里挑可能性很多近似搜索来尽量保证概率最大化。图片描述去掉最后的softmax 4096维向量代表编码。对比语言模型和机器翻译（叫它条件语言模型）不希望随机取样找到条件概率最大化束搜索。评估第二个词的概率三万种可能选出前三个。其实最好的是一次找到整个句子最大概率。挑选第一个单词 B=3表示考虑3种选择。为什么不能贪心搜索一直找最可能的词。同样的步骤选出最有可能的三个。而不是贪心一个一个单词挑选。第三周序列模型和注意力机制（课程视频和黄海广老师的。

2025-04-10 23:34:15 294

原创吴恩达DeepLearning学习笔记第五门课第二周

300维嵌入到2维空间 300维特征表示叫做嵌入（embeddings）被嵌入到向量空间的一个点。最小化处理防止xij=0，前面加了一项这个f很多细节防止高频词权重过大、低频词权重过小。求和或求平均 300维特征向量给到softmax 可以用在不同长度的评论。一个注意点独立组成部分不一定是那么能直观理解的可能是个斜着的向量。榴莲培育家大数据集（无标签文本）学到词的相近迁移到小数据集。1-hot把词孤立了这是因为1-hot之间做内积为0。给定上下文做预测通过这个学好的词嵌入模型。

2025-04-10 22:47:36 820

原创吴恩达DeepLearning学习笔记第五门课第一周

用softmax做输出，字典10000个单词那softmax也那么大（加上EOS和UNK 其实是10002个）并不共享学到的特征比如Harry出现在两个位置，第一个位置学到是人名，到了第二个位置能不能反应过来。如果遇到不在字典里的单词，可以用unknown word（<UNK>）来表示不在字典里的单词。多一个额外的标记（Token） <EOS>来表示句子的结尾句号可以选择做不做标记。有些人喜欢这样画，画成循环的样子，但其实这样挺难理解的。W_ax，a代表要求出的量是a，x代表后面乘的量是x。

2025-04-09 22:12:40 760

原创吴恩达DeepLearning学习笔记第四门课第四周

包含两个部分，第一部分内容代价，衡量c和g的内容差异值；第二个是风格代价，衡量s和g的风格差异值再加上两个超参数。人脸验证 1:1 人脸识别 1：k 如果99%的准确率，那么对于上百人的数据那不太行，需要更高的正确率。如果全是0的话上面的式子也是成立的，所以我们得干点变化改成小于一个-α，或者这样写。如果有新的人加入了，那要重新训练网络吗？A和P其实是来自一个人的，所以一个人对应有多张照片。两个图片喂给同样的网络得到不同的编码。如果不在数据库，希望输出的差异值很大。另一个隐藏单元可能找到了另一种线。

2025-04-07 21:09:50 623

原创吴恩达DeepLearning学习笔记第四门课第三周

使用400个过滤器，得到如图1*1*400输出层，这其实和全连接层长得很像，然后做1*1的卷积，最后用1*1得出最后的输出结果，类似softmax的四个输出值。看每个检测结果的pc（pc实际上是c1*c2*c3），我们这里就说是检测的概率看谁最大，然后其他的格子和这个边界框交并比大的将会被抑制。如果希望算法给出眼角的具体位置，那就需要多输出两个值（眼角的坐标），如果需要两只眼睛四个眼角，那就是8个输出。然后接着审视剩下的矩形，找到pc最高的，找到了0.8 然后IoU高的其他矩形被抑制掉。

2025-04-07 17:34:06 980

原创吴恩达DeepLearning学习笔记第四门课第二周

对于普通网络，网络深度的加深按理来说训练应该越来越好，但实际上如果没有残差网络，越深意味着用优化算法越难训练，所以实际上会长成左下图。比LeNet大很多使用了Relu 写这篇论文时作者用了多个GPU；由于计算机当时还不算太行，对于卷积的计算也和现在不一样。非常深的网络很难训练因为存在梯度消失和梯度爆炸的问题。在残差网络中我们这样干，拷贝做加法，一条捷径。16是指这个网络包含16个卷积层和全连接层。加上远跳连接构成残差块这里有五个残差块。但有了ResNet，深度越深，错误会越少。若干卷积层然后池化。

2025-04-06 21:01:30 287

原创吴恩达DeepLearning学习笔记第四门课第一周

另外，python用conv-forward来表示卷积其他的也用特定的函数表示卷积。还可以其他的filter 比如sobel filter，Scharr filter。“*”是卷积不过python中这个也表示乘法要注意区分。输入可能非常大 64*64*3 1000*1000*3。这有个垂直边缘，我们这样干了后会得到这样的结果。这种通过学习的还可以得到45°的70°的。举例，6*6灰度图像，所以是6*6*1。检验边缘检验垂直边缘检验水平边缘。垂直边缘检测可以做绝对值。第四门课卷积神经网络（

2025-04-03 18:00:49 330

原创吴恩达DeepLearning学习笔记第三门课第二周

对误差进行分析，如果分错的标签中只有5%是狗分成猫，那么专门针对狗图来优化模型性价比不高；而如果有50%是狗图分成猫图，那么专门针对狗图来优化模型就是划算的。dev和test 来自真正的后视镜语音可能会有更多的地址语句这个是我们care的。方差的问题会不会是因为训练集没见过，或者是训练和开发分布不一样导致的。如图这种就是方差问题，因为同一分布测出来的，因为无法泛化到同一分布。对于开发集的评估更好，可能是你的dev/test确实数据更简单些。但不幸的是，这种合成可能也只是个小子集，还是可能过拟合。

2025-04-02 23:25:14 780

原创吴恩达DeepLearning学习笔记第三门课第一周

，如果我们单看这两个数，其实是拿不准的，我们可以用F1 Score来看，图中也给出了F1的具体公式，总之就是结合了查准率和查全率。我们做深度学习，开发集设置+单一数字评估指标就像靶心一样，我们如果一开始没设置好就去训练，训练三个月后又想着换一换开发集设置或单一数字评估指标，就像移动靶心一样，这是个很沮丧的事情，三个月的工作可能就没啥用了。这是另一个例子，如果dev/test用的猫图是高清猫图，然而用户的猫图是模糊的、滑稽的猫图，那可能效果就不好，所以我们要改变衡量标准和/或改变dev/test集。

2025-03-31 11:36:44 810

原创吴恩达DeepLearning学习笔记第二门课第三周

如图，0.0001到1之间进行选择，我们想一想就明白，比如0.0001、0.001、0.01、0.1、1这样选择更科学，如果按照常规的随机选择的话，我们有90%的概率选择0.1-1里面的数，这样是不太好的。对于β也类似，由于1/(1-β)可以近似估计考虑的天数，我们让1-β取值0.1、0.01、0.001更合理，所以就有 β=1-10的r次方，让r在-3到-1中选取这种策略。对于超参数的优先级，吴恩达老师如此排列，α最高，其次是黄色的，最后是紫色的。当然，这里是以二维做例子，实际上可能会更高维。

2025-03-25 14:52:06 868

原创吴恩达DeepLearning学习笔记第二门课第二周作业

2.AC × 正确答案：C 注意：向量化不适用于同时计算多个mini-batch。课程视频和黄海广老师的。

2025-03-25 10:14:18 153

原创吴恩达DeepLearning学习笔记第二门课第二周

1 epoch是遍历完整个训练集，在上面的例子中，我们遍历完整个训练集，也就是1 epoch，可以做5000次梯度下降。以上也回答了为什么我要小批量做笔记方法，更清晰，更通畅！（当然其实没太多的关系，但也是因为都是小批量，我就想着我也小批量记笔记了）其实学习，他有时候就像深度学习，我现在学习方法也要开始迭代优化，这周的笔记我打算小批量记笔记，至于为什么，请往下看吧！要去悟，为什么是这种噪声嘈杂的，而整体却是下降的，因为每个小批量特性各有千秋。小批量尺寸可以调整，这是两个极端情况。小批量梯度下降的示意。

2025-03-18 15:28:13 283

原创吴恩达DeepLearning学习笔记第二门课第一周作业

√（这道题可以看看其他人的解释，大概就是说，测试集就不要dropout了，那样会造成测试结果随机，dropout只用在训练集上）课程视频和黄海广老师的。

2025-03-08 20:57:03 133

原创吴恩达DeepLearning学习笔记第二门课第一周

如果数据集比较大，比如一百万，那么验证集和测试集所占比例就会减少，这是因为我们拿一万张图片做验证集就能验证各个模型之间的性能差别，拿一万张图片就能测试这个模型到底好不好，其他的图片拿去训练就行了，所以比例是98/1/1，甚至训练集和测试集占比还可能更小。有一条经验法则是：建议大家要确保验证集和测试集的数据来自同一分布，因为你们要用验证集来评估不同的模型，尽可能地优化性能。另外，就算没有测试集也不要紧，测试集的目的是对最终所选定的神经网络系统做出无偏估计，如果不需要无偏估计，也可以不设置测试集。

2025-03-04 17:47:56 249

原创吴恩达DeepLearning学习笔记第一门课第四周作业

1.AB × B，并非缓存成本函数的中间值。课程视频和黄海广老师的。

2025-03-04 13:40:37 115

原创吴恩达DeepLearning学习笔记第一门课第四周

这一节和上周对应部分基本一模一样，只是对于深层神经网络来说，前向传播要重复做几遍求Z，求A的步骤，这里的for循环是没有啥办法能去掉的，我们只有求完前一层才能求后一层，不然的话，这个世界就乱套了！这就是我们总的前向传播和反向传播程序，前向通过一层层得到yhat，然后计算损失函数，然后反向传播计算导数（计算导数时我们需要用到Z[1]，Z[2]等数据，他们被放在缓存Cache中）下图就是上周的这部分对应的内容！3、n[l]代表第l层神经网络的单元数量，“[l]”表示第l层，这就是“[]”干的事。

2025-02-17 21:47:49 242

原创吴恩达DeepLearning学习笔记第一门课第三周作业

2.B（要看情况） × A，so it centers the data better for the next layer注意表述，是没问题的，就算是逻辑回归的情况，tanh也是更集中。7.A × B，逻辑回归可以将权重初始化为0，而且逻辑回归没有隐藏层，不需要考虑破坏对称性。课程视频和黄海广老师的深度学习课程笔记及资源。

2025-02-16 15:47:45 163

原创吴恩达DeepLearning学习笔记第一门课第三周

多个线性激活函数的嵌套还是线性激活函数，中间层用线性激活函数其实是没啥用的（现阶段没啥用，可能与什么压缩有关（老师说的）），一般要用也是最后用，比如预测房价（当然可能Relu来预测更好，因为房价不可能是负数）我们先观察下上节课的a[0]，b[1]，z[1]，a[1]这些量，这些都是只有一列的，那其实我们扩展到m个样本也就是从一列变成m列，最大程度利用我们的矩阵！我们把四个节点纵向堆起来，w[1]的四个堆起来变成w[1]，就是（4（代表节点），3（代表上一层的特征数量））大小的矩阵。

2025-02-12 16:45:03 454

原创吴恩达DeepLearning学习笔记第一门课第二周作业

5.c.shape = (12, 6) × 这将报错，无法计算。老师的深度学习课程视频和黄海广老师的深度学习课程笔记及资源。

2025-02-09 15:49:38 164

原创吴恩达DeepLearning学习笔记第一门课第二周

这个图里的w只有一维，但我们知道，一张图片对应的像素如果是64*64*3，对应的w也是那么个数字维，这里数学家们已经证明这个函数是凸函数了，也就是只有一个最优解，我们就可以运用梯度下降了。我们现在要做的就是输入样本训练后，能够使得代价函数（成本函数）越小越好，找到好的w和b来能够描述我们的二分类问题，那么我们就要尝试最小化代价函数。z很小，也就是wx+b很小的时候，y的预测值接近0，这样就可以做二分类了！这样，z很大，也就是wx+b很大的时候，y的预测值接近1。对于w和b我们都这样干来找最合适的w和b。

2025-02-07 22:55:38 419

WaibiJiangzhi的博客