- 博客(8)
- 收藏
- 关注
原创 DataWhale大语言模型学习第三课:GPT和DeepSeek
GPT-4o系列模型增强了模型的逻辑推理能力(长思维连推理),提升了模型的输出质量,但牺牲了模型的相应时间。V3使用了MTP(多token预测)训练,并提出了高效的FP8训练方法。通过提示词的调整进行无监督下游任务求解,同时初步尝试了模型规模的扩展。V2,V3都针对MoE架构提出了相关稳定性训练策略。推理能力显著上升,但OpenAI并未披露其参数量。V2:提出MLA搞笑注意力机制,提升推理性能。训练范式:预训练后针对特定任务微调。参数量:1.1亿(0.11B)参数量:15亿(1.5B)
2025-03-17 22:15:04
135
原创 DataWhale大语言模型学习第二课:大模型技术基础
大模型的定义:通常指具有超大参数规模的预训练语言模型架构:主要为训练:预训练(base model)、后训练(instruct model)通过扩展模型的参数规模、数据规模、计算算力,大语言模型的能力会出现显著提升。提出背景:由OpenAI的研究团队在《Scaling Laws for Neural Language Models》中提出,基于对模型规模、数据量和计算量关系的实证研究。核心结论:性能与规模的幂律关系:模型测试损失(性能)随模型参数(N)、数据量(D)和计算量(C)的增加按幂律下降。资源分配比
2025-03-14 23:12:18
307
原创 大语言模型学习第一课:初识大模型
对自然语言文本生成概率建模的模型语言模型发展的几个关键节点:1990:统计语言模型,如N-Gram模型2013:神经语言模型,如RNN、WordsVec2018:预训练语言模型,如ELMo、BERT、GPT-1/22022:大语言模型,如GPT-3/4、Claude。
2025-03-12 22:47:42
232
原创 第六章:支持向量机
第六章:支持向量机1. 间隔与支持向量当给定一个线性可分的二分类数据集,往往在数据集样本的特征空间中存在不止一个超平面,可以将数据集中的两类样本分割。此时分割超平面的方程如下:wTx+b=0\boldsymbol{w}^T\boldsymbol{x}+b=0wTx+b=0支持向量机模型需要学习的参数就是决定该超平面角度与位置的 w,b\boldsymbol{w}, bw,b。那么什么样的超平面才是合适的超平面呢?支持向量机采用了两个原则:超平面距离两类样本最近的距离应当相同,即超平面在两
2022-03-31 21:23:16
346
原创 第五章:神经网络
第五章:神经网络神经网络本事自己比较熟悉,所以只记录自己之前印象不深的知识点:局部最优解与全局最优解局部最优解与全局最优解多层神经网络的叠加往往会导致待优化的损失函数非凸,所以基于梯度反向传播的梯度下降法无法保证优化结果收敛到全局最优解。实践中有三种方法帮助神经网络的优化结果尽量跳出局部最优解:使用不同的参数初始值开始优化,多次试验后选择优化结果最好的一组参数。**模拟退化(simulated annealing)**技术,每一步都以一定概率接受比当前解更差的结果,从而有助于跳出局部最小。在迭代
2022-03-19 22:41:46
1649
原创 第四章:决策树
第四章:决策树1. 背景决策树模型其实是在给定数据集的情况下,生成一个用于判断样本类别的树形逻辑图,不同的节点要依据不同的变量的取值来对样本的类别进行进一步的划分。总体来说,决策树的目的是将样本越分越纯,下面给出一个判断高富帅的决策树模型作为例子(例子来源为南瓜书作者谢老师)。#mermaid-svg-FiB0NwxiW9SAQ7ZT {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#merm
2022-03-18 15:07:34
2787
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人