
算法科普
文章平均质量分 88
董董灿是个攻城狮
阿里云社区专家博主,AI算法工程师
展开
-
AI 大模型的训练过程是什么样的
因此,每给定一个单词(Token),模型都要预测下一个词,然后将预测出来的词加上原来已有的词作为新的输入,继续预测下一个词,如此反复迭代。在 GPT 等模型的训练时,如果给定上述句子作为模型的输入,是希望模型可以预测出下一个词是什么,这是模型的任务。当然上面的过程说的很粗糙,仅仅是想让大家先搞清楚自监督学习这个概念,以及实际模型训练时,模型是如何自我监督的。在这种训练模式下,模型被训练来预测给定前文的下一个词,这样,模型就能学习到文本的顺序结构和语言的生成过程。原创 2024-09-22 23:13:12 · 901 阅读 · 0 评论 -
快手面试,什么是矩阵乘法?
你可以这么理解,矩阵乘法的本质,是资源的整合和再创。我非常喜欢用下面的例子来说明这个问题。你是一个鸡尾酒调酒师,家里储存了很多鸡尾酒的原料,有金酒、利口酒、柠檬汁和可乐等等。今天家里来了 3 位客人,他们分别喜欢喝“自由古巴”、“长岛冰茶”以及“龙舌兰日出”这 3 款鸡尾酒,并向你下了单。希望你给他们调配出来各自喜欢的鸡尾酒。巧的是,这 3 款鸡尾酒的原料都是金酒、利口酒、柠檬汁和可乐。你作为一个调酒师,分分钟就把客人的爱好的鸡尾酒给调出来了。怎么做的呢?原创 2024-06-19 10:20:13 · 202 阅读 · 0 评论 -
美团的 AI 实习,什么是数据增强?
数据增强是一种通过对原始数据集进行变换,生成新的训练样本的技术。这些变换包括图像翻转、旋转、缩放、裁剪以及其他各种手法,通过引入这些变化,可以有效地扩充数据集的规模,提高模型的泛化能力。是不是很简单?将原始数据集做一些变换然后送给模型做训练,此时裁剪出来的图片,可能就是猫咪尖尖的耳朵和大大的眼睛,训练过程中模型依然会判断这是猫。此时,如果在送给模型一只戴着头盔的猫,即使模型不认识头盔,它也认识猫耳朵,从而识别出来这是一只猫。原创 2024-06-19 10:16:33 · 1136 阅读 · 0 评论 -
美团的 AI 面试有点简单
数据增强是一种通过对原始数据集进行变换,生成新的训练样本的技术。这些变换包括图像翻转、旋转、缩放、裁剪以及其他各种手法,通过引入这些变化,可以有效地扩充数据集的规模,提高模型的泛化能力。是不是很简单?将原始数据集做一些变换然后送给模型做训练,此时裁剪出来的图片,可能就是猫咪尖尖的耳朵和大大的眼睛,训练过程中模型依然会判断这是猫。此时,如果在送给模型一只戴着头盔的猫,即使模型不认识头盔,它也认识猫耳朵,从而识别出来这是一只猫。原创 2024-06-13 09:37:45 · 2383 阅读 · 0 评论 -
5分钟搞懂词向量生成技术:Word2Vec
举个例子,如果在训练时,模型看到了句子“猫喜欢吃鱼”,在Skip-gram模型中,如果选择“喜欢”作为输入单词,模型便会试图预测它周围的“猫”和“吃鱼”。简单来说,Word2Vec 并不是一个具体的神经网络模型,而是一个由很多生成词向量的模型(算法)组成的词向量生成框架,或者词向量生成工具。我们通过观察可以很轻松的看出来,“猫”和“狗”的两个向量很相近,“鱼”和“跑”代表的两个向量则相差很远。相同的是,这两种方法都是让模型来学习大量的文本,以及文本中单词的使用环境来生成高质量的词向量。原创 2024-04-24 22:30:52 · 2164 阅读 · 0 评论 -
大模型的自我监督
因此,每给定一个单词(Token),模型都要预测下一个词,然后将预测出来的词加上原来已有的词作为新的输入,继续预测下一个词,如此反复迭代。事实上,很多自然语言处理(NLP)的模型,尤其是上文提到的大语言模型(如GPT系列),都是通过无监督学习或自监督学习的方式进行训练的。在 GPT 等模型的训练时,如果给定上述句子作为模型的输入,是希望模型可以预测出下一个词是什么,这是模型的任务。在这种训练模式下,模型被训练来预测给定前文的下一个词,这样,模型就能学习到文本的顺序结构和语言的生成过程。原创 2024-04-15 21:49:07 · 1609 阅读 · 0 评论 -
5分钟彻底搞懂什么是token
而一旦将词分成子词,模型只需要记住"bug"、"value" 和 "de" 这三个 token 即可,而且还可以扩展识别出 "decrease "的意思。还可能把 “debug” 这个单词看作两个 token,分别为"de" 和 "bug",这样模型可能知道 “de” 前缀代表“减少”的意思。因为当时接触视觉模型多一些,在视觉模型的性能评估中,有一个关键指标叫做 fps,通俗理解就是一秒钟可以处理的图片数。否则,模型可能需要记住"bug"、"debug","value","devalue"四个token.原创 2024-01-09 22:36:02 · 25505 阅读 · 3 评论 -
为什么卷积核需要反转180度
因此,如果你用 scypi 库中的 signal 模块来计算卷积,是有 180 度反转过程的,因为 scypi 中的计算是严格遵循数学定义的。正因如此,深度学习中的卷积,就直接简化成了卷积核在输入图像上滑窗做乘累加运算,而不再需要像传统卷积那样进行 180 度旋转。在信号处理中,卷积是一种数学运算,用于接受两个信号(如输入信号和系统响应),从而产生第三个信号,也就是输出。看了这篇文章后,其实不用再疑惑,这个很好理解,首先在深度学习中,卷积算法依然需要旋转。从数学的角度看,卷积运算的定义包括了这个反转步骤。原创 2024-01-07 10:19:43 · 1785 阅读 · 0 评论 -
一文搞懂全连接算法和它的作用
全连接层(Fully Connected Layer),有时也被叫作密集层(Dense Layer)。之所以这么叫,是因为这一层的每个神经元都与前一层的每个神经元连接在一起,形成了一个全连接的网络结构,如下所示,每个笑脸都与前一层的所有笑脸相连。这种全连接的方式与卷积和池化不同,卷积和池化是通过固定大小的卷积核或池化窗口在输入上移动,以便有效地捕捉局部特征。因此,"全连接"强调了这一层中的神经元与前一层中的所有神经元之间的连接,与卷积和池化层的局部连接方式形成对比。原创 2023-12-08 22:45:13 · 1834 阅读 · 0 评论