自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(693)
  • 资源 (16)
  • 收藏
  • 关注

原创 7.机器学习——支持向量机(SVM)

支持向量机(SVM)是一种经典的监督学习算法,主要用于二分类问题。其核心思想是找到一个最优的超平面,使得两类数据点之间的间隔最大化。SVM通过优化几何间隔来确定分类超平面,确保分类的置信度最高。对于线性不可分的情况,SVM通过核映射将数据映射到高维空间,使其在高维空间中线性可分。SVM的优化问题可以转化为凸二次规划问题,并通过拉格朗日乘子法求解。常用的损失函数是Hinge Loss,用于最大化分类间隔。SVM在处理高维数据和复杂分类问题时表现出色,广泛应用于机器学习和数据挖掘领域。

2025-05-09 17:56:21 901

原创 7.机器学习——LightGBM

首先,最明显就是内存消耗的降低,直方图算法不仅不需要额外存储预排序的结果,而且可以只保存特征离散化后的值,而这个值一般用8位整型存储就足够了,内存消耗可以降低为原来的1/8。但实际上Level-wise是一种低效的算法,因为它不加区分的对待同一层的叶子,带来了很多没必要的开销,因为实际上很多叶子的分裂增益较低,没必要进行搜索和分裂。在遍历数据的时候,根据离散化后的值作为索引在直方图中累积统计量,当遍历一次数据后,直方图累积了需要的统计量,然后根据直方图的离散值,遍历寻找最优的分割点。

2025-05-06 17:16:58 669

原创 6.机器学习——XGBoost

XGBoost是陈天奇等人开发的一个开源机器学习项目,高效地实现了GBDT算法并进行了算法和工程上的许多改进,被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。说到XGBoost,不得不提GBDT(Gradient Boosting Decision Tree)。因为XGBoost本质上还是一个GBDT,但是力争把速度和效率发挥到极致,所以叫X (Extreme) GBoosted。包括前面说过,两者都是boosting方法。关于GBDT,这里不再提,可以查看我前一篇的介绍,

2025-04-30 18:56:39 1120

原创 5.机器学习——梯度提升决策树(GBDT)

然后拿它们的残差-1、1、-1、1代替A B C D的原值,到第二棵树去学习,第二棵树只有两个值1和-1,直接分成两个节点,即A和C分在左边,B和D分在右边,经过计算(比如A,实际值-1 - 预测值-1 = 残差0,比如C,实际值-1 - 预测值-1 = 0),此时所有人的残差都是0。可以发现,两者都是在每 一轮迭代中,利用损失函数相对于模型的负梯度方向的信息来对当前模型进行更 新,只不过在梯度下降中,模型是以参数化形式表示,从而模型的更新等价于参 数的更新。,即“当前预测模型的值”,也就是对它求负梯度。

2025-04-29 17:12:06 587

原创 4.随机森林(Random Forest)

Bagging是bootstrap aggregating。思想就是从总体样本当中随机取一部分样本进行训练,通过多次这样的结果,进行投票获取平均值作为结果输出,这就极大可能的避免了不好的样本数据,从而提高准确度。因为有些是不好的样本,相当于噪声,模型学入噪声后会使准确度不高。举个例子假设有1000个样本,如果按照以前的思维,是直接把这1000个样本拿来训练,但现在不一样,先抽取800个样本来进行训练,假如噪声点是这800个样本以外的样本点,就很有效的避开了。重复以上操作,提高模型输出的平均值。OOB。

2025-04-26 11:05:33 598

原创 3.决策树(Desition Tree)

其实用一下图片能更好的理解LR模型和决策树模型算法的根本区别,我们可以思考一下一个决策问题:是否去相亲,一个女孩的母亲要给这个女海介绍对象。大家都看得很明白了吧!LR模型是一股脑儿的把所有特征塞入学习,而决策树更像是编程语言中的if-else一样,去做条件判断,这就是根本性的区别。

2025-04-24 18:40:33 953

原创 2.逻辑回归(Logistics Regression)

逻辑回归是用来做分类算法的,大家都熟悉线性回归,一般形式是Y=aX+b,y的取值范围是[-∞, +∞],有这么多取值,怎么进行分类呢?不用担心,伟大的数学家已经为我们找到了一个方法。也就是把Y的结果带入一个非线性变换的Sigmoid函数中,即可得到[0,1]之间取值范围的数S,S可以把它看成是一个概率值,如果我们设置概率阈值为0.5,那么S大于0.5可以看成是正样本,小于0.5看成是负样本,就可以进行分类了。

2025-04-21 11:01:14 1102

原创 2.逻辑回归(Liner Regression)----- 代码实现

信用评分算法对违约概率进行猜测,是银行用来确定是否应该发放贷款的方法。这项比赛要求参赛者通过预测某人在未来两年内遭遇财务困境的概率,提高信用评分的最新水平。银行在市场经济中发挥着至关重要的作用。他们决定谁可以获得资金,以什么条件获得资金,可以做出或破坏投资决策。为了使市场和社会发挥作用,个人和公司都需要获得信贷。

2025-04-21 11:00:12 250

原创 1.线性回归(Liner Regression)

线性:两个变量之间的关系是一次函数关系的——图象是直线,叫做线性。非线性:两个变量之间的关系不是一次函数关系的——图象不是直线,叫做非线性。回归:人们在测量事物的时候因为客观条件所限,求得的都是测量值,而不是事物真实的值,为了能够得到真实值,无限次的进行测量,最后通过这些测量数据计算回归到真实值,这就是回归的由来。

2025-04-14 20:22:39 1145

原创 1.线性回归(Liner Regression)----- 代码实现

这篇介绍的是我在做房价预测模型时的python代码,房价预测在机器学习入门中已经是个经典的题目了,但我发现目前网上还没有能够很好地做一个demo出来,使得入门者不能很快的找到“入口”在哪,所以在此介绍我是如何做的预测房价模型的题目,仅供参考。,能够看到第二列是销售价格,而我们要预测的就是销售价格,所以在训练过程中是不需要销售价格的,把第二列删除掉,新建一个csv文件存放销售价格这一列,作为后面的结果对比。y表示我们要求的销售价格,x表示特征值。下载的是两个数据文件,一个是真实数据,一个是测试数据,打开。

2025-04-14 19:54:39 800

原创 论文解析八: GAN:Generative Adversarial Nets(生成对抗网络)

文章提出了一个新的framework(framework通常是一个比较大的模型)用来估计生成模型,通过对抗的过程,同时会训练两个模型**生成模型G:**用来抓取整个数据的分布(生成模型就是要对整个数据的分布进行建模,使得能够生成各种分布,这里的分布就是指的生成图片、文字或者电影等,在统计学中,整个世界是通过采样不同的分布来得到的,所以如果想要生成东西,就应该抓取整个数据的分布)**辨别模型D:**用来估计样本到底是从真正的数据生成出来的还是来自生成模型生成出来的。

2024-10-23 12:13:53 1540

原创 论文解析七: GNN与GCN(图神经网络)一站式详细讲解

图是用来表示entity(实体)之间的关系实体就是一个点(node,顶点)关系就是一个边(edge)顶点(node)边:顶点之间的关系全局信息:每个顶点、每条边和整个图表示的信息使用向量来标示顶点,边,全局属性顶点(黄色)可以用一个embeding(向量)来表示它里面的属性,一共有六个值,高矮表示值的大小边(蓝色)也可以使用向量来表示,长度可以和顶点不一样,这里使用的是一个长度为8的向量,即边中所有的属性用一个长度为8的向量来表示全局信息(粉色)可以用一个长为5的向量来表示。

2024-10-23 11:14:03 2266

原创 论文解析六:Transformer----Attention Is All You Need---注意力是你所需要的

在主流的序列转录模型里面,主要是依赖于比较复杂的循环或者是卷积神经网络一般是使用encoder和decoder的架构序列转录模型:给定一个序列,然后生成另外一个序列,比如机器翻译在性能最好的模型之中,通常也会在编码器和解码器之间使用注意力机制这篇文章提出了一个新的简单的架构(simple,之前都倾向于写成novel),这个模型就是Transformer仅仅依赖于注意力机制,而没有用之前的循环或者卷积。做了两个机器翻译的实验,显示这个模型在性能上特别好,可以并行度更好然后使用更少的时间来训练。

2024-10-14 10:52:09 1026

原创 论文解析五:VGGNet 用于大规模图像识别的深度卷积网络

​ VGG网络研究了卷积网络深度在大规模的图像识别环境下对准确性的影响。我们的主要贡献是使用非常小的(3×3)卷积滤波器架构对网络深度的增加进行了全面评估,这表明通过将深度推到16-19 加权层可以实现对现有技术配置的显著改进。VGG网络对于其他数据集泛化的很好,在其它数据集上取得了最好的结果。​ 随着 ConvNets 在计算机视觉领域越来越商品化,为了达到更好的准确性, 已经进行了许多尝试来改进​ 1.使用了更小的感受野窗口尺寸和第一卷积层更小的步长。

2024-10-14 10:22:11 805

原创 论文解析四:AlexNet 使用深度卷积神经网络进行 ImageNet 分类

表示了我们用了一个深度卷积神经网络来进行图片分类,取得了一个非常好的效果。深度卷积网络由60million个参数,65w个神经元,以及五个卷积层和三个全连接层组成。为了加快训练,用到了GPU加速实现。用了dropout这个正则化方法来减少过拟合。引出ImageNet这个数据集很大很好。对于ImageNet这个很大的模型,我们采用CNN来作为我们的模型。对于CNN计算成本高(容易overfitting+训练不动),我们利用GPU以及高度优化的2D卷积来实现CNN的训练。

2024-10-08 16:34:23 1229

原创 论文解析三: D2-Net 用于联合描述和检测局部特征的可训练CNN

​解决在困难的成像条件下寻找可靠的像素级对应的问题。​提出一种由单一卷积神经网络发挥双重作用的方法:它同时是一个密集的特征描述符和一个特征检测器。通过将检测推迟到后期阶段,所获得的关键点比基于低层结构早期检测的传统关键点更稳定。我们证明了该模型可以使用从现成的大规模SfM重建中提取的像素对应来训练,而不需要任何进一步的注释。该方法在困难的亚琛昼夜定位数据集和InLoc室内定位基准上都获得了最先进的性能,以及在其他图像匹配和三维重建基准上具有竞争力的性能。

2024-10-08 15:26:44 1563

原创 论文解析二: SuperGlue 同时进行特征匹配以及滤除外点的网络

​ 本文提出了一种能够同时进行特征匹配以及滤除外点的网络。其中特征匹配是通过求解可微分最优化转移问题( optimal transport problem)来解决;本文基于注意力机制提出了一种将2D特征点以及聚合机制,这使得SuperGlue能够同时感知潜在的3D场景以及进行特征匹配。该网络能够在GPU上达到实时,预期能够集成到slam算法中位置如下图​ 在经典的SLAM框架中,前端进行特征提取,后端进行非线性优化,而。

2024-09-10 12:26:34 1687

原创 论文解析一: SuperPoint 一种自监督网络框架,能够同时提取特征点的位置以及描述子

​ 对于特征点提取部分,网络先将维度( W / 8 , H / 8 , 128 )的特征处理为( W / 8 , H / 8 , 65 )大小,这里的65的含义是特征图的每一个像素表示原图8 × 8 的局部区域加上一个当局部区域不存在特征点时用于输出的Dustbin通道,通过。​ 对于特征描述子提取部分,同理,我们还是使用encoder层的输出(H,W,128)。,这一层是为了8×8的局部区域内没有特征点时,经过Softmax后64维的特征势必还是会有一个相对较大的值输出,但加入。后就可以避免这个问题。

2024-09-10 11:49:01 2058

原创 24 优化算法

深度学习模型大多是非凸的所以关于凸优化的很多理论无法使用小批量随机梯度下降是最常用的优化算法冲量对梯度做平滑冲量法是一个简单的稳定优化的算法Adam 对梯度做平滑,且对梯度各个维度值做重新调整通过实践发现,Adam 不一定比冲量法准确率高或者是收敛快,但是整体来讲 Adam 是比较稳定的,Adam 对学习率不那么敏感,使得调参相对来讲会更加容易一点范围之中(进行维度上的调整)分母中的 ε 的作用是保证分母不等于零。

2024-08-19 18:33:44 694

原创 23 注意力机制—BERT

在计算机视觉中比较流行,将 ImageNet 或者更大的数据集上预训练好的模型应用到其他任务中,比如小数据的预测、图片分类或者是目标检测。使用预训练好的模型(例如 word2vec 或语言模型)来抽取词、句子的特征。在更换任务之后,还是需要构建新的网络来抓取新任务需要的信息。做迁移学习的时候,一般不更新预训练好的模型。

2024-08-19 18:18:09 317

原创 22 注意力机制—Transformer

和 seq2seq 有点类似,不同之处在于 Transformer 是一个纯使用注意力的编码-解码器编码器和解码器都有 n 个 Transformer 块每个块里使用多头(自)注意力(multi-head attention),基于位置的前馈网络(Positionwise FFN),残差连接和层归一化编码器和解码器中各有一个自注意力,但是在编码器和解码器中传递信息的是一个正常的注意力。

2024-08-13 09:23:06 460

原创 21 注意力机制—自注意力

自注意力池化层将 xi 当作 key ,value query 来对序列抽取特征完全并行、最长序列为 1 、但对长序列计算复杂度高可以完全并行,和 CNN 是一样的,所以计算效率比较高最长序列为 1 ,对于任何一个输出都能够看到整个序列信息,所以这也是为什么当处理的文本比较大、序列比较长的时候,通常会用注意力和自注意力但是问题是对长序列的计算复杂度比较高,这也是一大痛点位置编码在输入中加入位置信息,使得自注意力能够记忆位置信息。

2024-08-13 09:14:22 212

原创 20 注意力机制—注意力机制在seq2seq

Seq2Seq 中通过编码器最后时刻的隐藏状态在编码器和解码器中传递信息注意力机制可以根据解码器 RNN 的输出来匹配到合适的编码器 RNN 的输出来更有效地传递信息在预测词元时,如果不是所有输入词元都是相关的,加入注意力机制能够使 RNN 编码器-解码器有选择地统计输入序列的不同部分(通过将上下文变量视为加性注意力池化的输出来实现)

2024-08-05 09:35:49 122

原创 19 注意力机制

心理学认为人通过随意线索(故意)和不随意线索(无意)选择注意点注意力机制中,通过query(随意线索)和 key(不随意线索)来有偏向性地选择输入,一般可以写作f(x)的 key 和所有的不随意线索的 key 做距离上的计算(α(x,xi),通常称为注意力权重),分别作为所有的 value 的权重这并不是一个新兴的概念,早在 60 年代就已经有非参数的注意力机制了接下来会介绍不同的权重设计。

2024-08-05 09:20:48 214

原创 18现代循环神经网络—seq2seq与束搜索

Seq2Seq 从一个句子生成另一个句子,机器翻译算是其中的一个应用场景Seq2Seq 使用的是编码器-解码器的架构,编码器和解码器都是 RNN将编码器最后时间隐藏状态来初始解码器隐状态来完成信息传递在“编码器-解码器”训练中,强制教学方法将**原始输出序列(而非预测结果)**输入到解码器中BLEU 是一种常用的评估方法,它通过测量预测序列和标签序列之间的 n 元语法的匹配度来衡量生成预测序列的好坏序列搜索策略包括贪心搜索、穷举搜索和束搜索。

2024-07-29 12:00:41 266

原创 17现代循环神经网络—机器翻译,编码器-解码器

机器翻译指的是将文本序列从一种语言自动翻译成另外一种语言使用单词级词元化时的词表大小,将明显大于使用字符级词元化时的词表大小。为了缓解这一问题,可以通过将低频次元视为相同的未知词元来解决通过截断和填充文本序列,可以保证所有的文本序列都具有相同的长度,便于以小批量的方式进行加载使用编码器-解码器架构的模型,编码器负责表示输入,解码器负责输出“编码器-解码器”架构可以将长度可变的序列作为输入和输出,因此适用于机器翻译等序列转换问题。

2024-07-29 11:56:19 153

原创 16现代循环神经网络—深度循环与双向循环

深度循环神经网络使用多个隐藏层来获得更多的非线性性GRU、RNN、LSTM 在结构上都是相同的,只是隐状态 H 的计算方式有区别,所以它们加深神经网络的原理都是相同的在深度循环神经网络中,隐状态的信息被传递到当前层的下一时间步和下一层的当前时间步存在许多不同风格的深度循环神经网络,如长短期记忆网络、门控循环单元或经典循环神经网络深度循环神经网络需要大量的调参(如学习率和修剪)来确保合适的收敛,模型的初始化也需要谨慎双向循环神经网络通过反向更新的隐藏层来利用方向时间信息。

2024-07-22 16:21:02 670

原创 15现代循环神经网络—GRU与LSTM

GRU 中引入了两个额外的门,每个门可以学习的参数和 RNN 一样多,整个可学习的权重数量是 RNN 的三倍Rt 和 Zt 都是控制单元,用来输出取值为 0~1 的数值Rt 用来衡量在更新新的隐藏状态的时候,要用到多少过去隐藏状态的信息Zt 用来衡量在更新新的隐藏状态的时候,需要用到多少当前Xt相关的信息当 Zt 全为 0 , Rt 全为 1 时,等价于 RNN当 Zt 全为 1 时,直接忽略掉当前 XtGRU 通过引入 Rt 和 Zt ,从而能够在各种极端情况之间进行调整。

2024-07-22 16:13:21 495 1

原创 14循环神经网络—RNN

对隐藏状态使用循环计算的神经网络称为循环神经网络(RNN),循环神经网络的输出取决于当下输入和前一时间的隐变量循环神经网络的隐藏状态可以捕获当前时间步序列的历史信息隐变量是用来存储历史信息和下一个历史信息的转换规则,所以在拿到过去的输入和当前的隐藏状态就能够预测当前的输出Whh 拥有一定的时序预测目的应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词根据当前的输入更新当前时刻的隐藏状态就能够预测下一个时刻的输出RNN 是一个隐变量模型,隐变量是一个向量。

2024-07-16 10:37:45 291

原创 13 循环神经网络—序列模型,语言模型

时序模型中,当前数据跟之前观察到的数据相关自回归模型使用自身过去数据来预测未来马尔科夫模型假设当前只跟当前少数数据相关,每次都使用固定长度的过去信息来预测现在,从而简化模型潜变量模型使用潜变量来概括历史信息,使得模型拆分成两块:一块是根据现在观测到的数据来更新潜变量;另一块是根据更新后的潜变量和过去的数据来更新将来要观测到的数据内插法(在现有观测值之间进行估计)和外推法(对超出已知观测范围进行预测)在实践的难度上差别很大。

2024-07-16 10:12:59 1558

原创 12计算机视觉—全连接卷积与迁移学习(风格迁移)

全卷积网络首先使用卷积神经网络抽取图像特征,然后通过 1 * 1 卷积层将通道数变换为类别个数,最后通过转置卷积层将特征图的高和宽变换为输入图像的尺寸在全卷积网络中,可以将转置卷积层初始化为双线性插值的上采样样式迁移常用的损失函数由 3 部分组成:内容损失、样式损失和全变分损失内容损失使合成图片与内容图片在内容特征上接近样式损失使合成图片与样式图片在样式特征上接近全变分损失有助于减少合成图片中的噪点。

2024-07-10 10:56:56 284

原创 11计算机视觉—语义分割与转置卷积

与目标检测不同,语义分割可以识别并理解图像中每一个像素的内容:其语义区域的标注和预测是像素级的。与目标检测相比,语义分割标注的像素级的边框显然更加精细。然而如果输入和输出图像的空间维度相同,在以像素级分类的语义分割中将会很方便。​ 为了实现这一点,尤其是在空间维度被卷积神经网络层缩小后,我们可以使用另一种类型的卷积神经网络层,它可以增加上采样中间层特征图的空间维度。在标签图像中,白色和黑色分别表示边框和背景,而其他颜色则对应不同的类别。​ 通过上面定义的两个常量,我们可以方便地查找标签中每个像素的类索引。

2024-07-10 10:42:00 228

原创 10计算机视觉—物体检测算法

R-CNN是最早,也是最有名的一类基于锚框和CNN的目标检测算法Fast/Faster R-CNN持续提升性能Faster R-CNN和Mask R-CNN是在最高精度场景下的常用算法SSD通过单神经网络来检测以每个像素为中心的产生多个锚框在多段的输出上进行多尺度的检测。

2024-07-03 09:57:32 291

原创 9.计算机视觉—目标检测

物体检测识别图片里的多个物体的类别和位置位置通常用边缘框表示一类目标检测算法基于锚框来检测首先生成大量锚框,并赋予标号,每个锚框作为一个样本进行训练在预测时,使用NMS来去除冗余的预测。

2024-07-03 09:42:46 345

原创 8.计算机视觉—增广和迁移

微调通过使用在大数据上得到的预训练好的模型来初始化模型权重来完成提升精度预训练模型质量很重要微调通常速度更快,经度更高。

2024-06-27 09:58:31 353

原创 7.计算机视觉—硬件和训练

一台机器可以安装多个GPU在训练和预测时,我们将一个小批量计算切分到多个GPU上来达到加速目的常用切分方案有数据并行模型并行通道并行(数据+模型并行)当一个模型能用单卡计算时,通常使用数据并行拓展到多卡上模型并行则用在超大模型上。

2024-06-27 09:32:01 196

原创 6.深度卷积神经网络

AlexNet是更大更深的LeNet,10倍参数个数,260倍计算复杂度新进入了Dropout,ReLu,最大池化层和数据增强AlexNet赢下2012ImageNet竞赛后,标志这新的一轮神经网络热潮的开始VGG使用可重复使用的卷积块来构建深度卷积神经网络不同的卷积块个数和超参数可以得到不同复杂的变种NiN块在卷积层后 加两个1 * 1卷积层后者对每个像素增加了非线性NiN使用全集平均池化层来代替VGG和AlexNet中的全连接层不容易过拟合,更少的参数个数。

2024-06-18 09:42:13 396

原创 5.卷积神经网络

对全连接层使用平移不变性和局部性得到卷积层卷积层将输入和核矩阵进行交叉相关计算,加上偏移后得到输出核矩阵和偏移是可学习的参数核矩阵的大小是超参数填充和步幅是卷积层的超参数填充在周围添加额外的行/列,来控制输出形状的减少量步幅是每次滑动核窗口时的行/列的步长,可以成倍的减少输出形状核大小最为关键,填充一般是默认核减1,步幅看需求输出通道数是卷积层的超参数每个输入通道有独立的二维卷积核,所有通道结果相加得到一个输出通道结果每个输出通道有独立的三维卷积核。

2024-06-18 09:10:11 484

原创 4.深度学习计算

构造一个没有任何参数的自定义层#向该层提供一些数据#将层作为组件合并到构建更复杂的模型中#定义带参数的图层def __init__(self, in_units, units):#in_units输入参数 units输出参数linear = torch.matmul(X, self.weight.data) + self.bias.data#matmul函数执行矩阵乘法#使用带参数的图层构建模型。

2024-06-15 09:44:05 90

原创 3.多层感知机

感知机是一个二分类模型,是最早的AI模型之一它的求解算法等价于使用批量大小为1的梯度下降 批量大小为1:指在训练神经网络时,每次更新参数时只使用单个样本的数据它不能拟合XOR函数,导致第一次AI寒冬多层感知机使用隐藏层和激活函数来得到非线性模型常用激活函数是Sigmoid,Tanh,ReLu使用Softmax来处理多类分类超参数为隐藏层数和各个隐藏层大小训练数据集:训练模型参数验证数据集:选择模型超参数非大数据集上通常使用K-则交叉验证。

2024-06-15 09:29:01 352

GBDT代码文章实现:5.机器学习-梯度提升决策树(GBDT)

GBDT代码文章实现:5.机器学习——梯度提升决策树(GBDT)

2025-04-29

文章:随机森林实例代码

随机森林实例代码

2025-04-26

决策树代码文章实现-3.决策树(Desition Tree)

决策树代码文章实现------3.决策树(Desition Tree)

2025-04-24

图像生成软件,注重提示和生成

一个图像生成软件,基于Gradio开发。 它不仅包含了内部优化和质量改进,还允许用户通过人机交互来探索和创造新的图像。 Fooocus让用户不必担心复杂的技术参数,只需享受创造性的过程,拓展人类的想象力。 这个项目适用于那些对图像生成和艺术创作感兴趣的人。

2025-04-23

行业领先的面部操作平台

一个下一代换脸器和图像增强器。它使用先进的图像处理技术,允许用户将不同的面部特征融合在一起,创造有趣和令人印象深刻的效果。 这个项目的潜在应用包括娱乐、虚拟化妆和艺术创作,为用户提供了创造性的工具。

2025-04-23

[CVPR 2024]:使用扩散模型的时间一致的人体图像动画(将静态图片驱动为动态图片,适合短视频场景)

[CVPR 2024]:使用扩散模型的时间一致的人体图像动画(将静态图片驱动为动态图片,适合短视频场景)

2025-04-23

是时候跟Mac系统自带的播放器说拜拜了!这个项目提供了简洁、高效的媒体播放体验,支持多种格式和平台,是你娱乐生活的绝佳伴侣

特征 基于mpv,在macOS上提供最佳解码能力 设计时考虑了macOS(10.15+)的现代版本 视频和音乐所需的所有功能:字幕、播放列表、章节……以及更多! Force Touch、画中画和高级Touch Bar支持 可定制的用户界面,包括多种配色方案和屏幕控制器(OSC)布局定位 专为音频文件设计的独立音乐模式 视频缩略图 在线字幕搜索与智能本地字幕匹配 无限播放历史记录 方便的交互式视频/音频过滤器设置 完全可定制的键盘、鼠标、触控板和手势控制 面向高级用户的mpv配置文件和脚本系统 提供命令行工具和浏览器扩展

2025-04-14

数据解析速度慢?让simdjson告诉你什么是真正的飞快,每秒解析十亿字节的JSON!这个开源项目基于SIMD指令,提供了极速的JSON解析能力,让你的数据处理更加高效

JSON在互联网上无处不在。服务器花费大量时间解析它。我们需要一种新的方法。simdjson库使用常用的SIMD指令和微并行算法来解析JSON,比RapidJSON快4倍,比JSON快25倍。 速度:比常用的生产级JSON解析器快4倍以上。 破纪录的功能:将JSON压缩到6 GB/s,验证UTF-8为13 GB/s,NDJSON为3.5 GB/s。 简单:一流、易于使用且精心记录的API。 严格:完整的JSON和UTF-8验证,无损解析。性能毫不妥协。 自动:在运行时选择CPU定制的解析器。无需配置。 可靠:从内存分配到错误处理,simdjson的设计避免了意外。 同行评审:我们的研究发表在《VLDB杂志》、《软件:实践与经验》等网站上。 这个库是Awesome Modern C++列表的一部分。

2025-04-14

烦恼于各种博客、新闻等订阅源?这个开源项目可以让你的阅读更加高效、个性化!RSSHub是一个聚合器,它支持自定义RSS订阅源,让你的订阅世界更加丰富多彩

SSHub是世界上最大的RSS网络,由5000多个全球实例组成。 RSSHub提供来自各种来源的数百万内容,我们充满活力的社区正在确保RSSHub的新路线、新功能和错误修复的交付。

2025-04-14

一个本地DNS服务器,获取最快的网站IP,获得最佳上网体验,支持DoH,DoT

SmartDNS 是一个运行在本地的 DNS 服务器,它接受来自本地客户端的 DNS 查询请求,然后从多个上游 DNS 服务器获取 DNS 查询结果,并将访问速度最快的结果返回给客户端,以此提高网络访问速度。 SmartDNS 同时支持指定特定域名 IP 地址,并高性匹配,可达到过滤广告的效果; 支持DOT,DOH,DOQ,DOH3,更好的保护隐私。 与 DNSmasq 的 all-servers 不同,SmartDNS 返回的是访问速度最快的解析结果。 支持树莓派、OpenWrt、华硕路由器原生固件和 Windows 系统等。

2025-04-14

调试分布式应用的难度太高?用arthas就像在本地调试一样轻松!这个阿里巴巴项目提供了可靠的Java诊断和调试工具,让你快速定位分布式系统的问题

Arthas 是Alibaba的Java诊断工具,深受开发者喜爱。 当你遇到以下类似问题而束手无策时,Arthas可以帮助你解决: 这个类从哪个 jar 包加载的?为什么会报各种类相关的 Exception? 我改的代码为什么没有执行到?难道是我没 commit?分支搞错了? 遇到问题无法在线上 debug,难道只能通过加日志再重新发布吗? 线上遇到某个用户的数据处理有问题,但线上同样无法 debug,线下无法重现! 是否有一个全局视角来查看系统的运行状况? 有什么办法可以监控到JVM的实时运行状态? 怎么快速定位应用的热点,生成火焰图? 怎样直接从JVM内查找某个类的实例? Arthas支持JDK 6+(4.x 版本不再支持 JDK 6 和 JDK 7),支持Linux/Mac/Windows,采用命令行交互模式,同时提供丰富的 Tab 自动补全功能,进一步方便进行问题的定位和诊断。

2025-04-14

如果你想探索人工智能的奥秘,就来Google Research吧!这个Google项目提供了各种先进的研究成果和工具,让你可以更好地理解人工智能技术的最新进展

Google Research此存储库包含Google Research发布的代码。 此存储库中的所有数据集都是根据CC BY 4.0国际许可证发布的

2025-04-14

NodeJS的WhatsApp客户端库,通过WhatsApp Web浏览器应用程序连接

通过WhatsApp Web浏览器应用程序连接的WhatsApp API客户端该库通过启动WhatsApp网络浏览器应用程序并使用Puppeter管理它来创建WhatsApp网页的实例,从而降低被阻止的风险。 WhatsApp API客户端通过WhatsApp网络浏览器应用程序连接,访问其内部功能。这使您可以访问WhatsApp Web上几乎所有可用的功能,实现类似于任何其他Node.js应用程序的动态处理。

2025-04-14

Windows系统实用程序,以最大限度地提高生产力

一个由微软官方维护的 Windows 工具箱,其中包含了许多实用的工具,如快速启动、窗口管理、文件预览等,可以提高你的生产力。

2025-04-12

5秒内克隆语音,实时生成任意语音

如果你也想变成自己的假音乐团队,就让Real-Time Voice Cloning来实现你的梦想吧!这个开源项目提供了强大的音频合成工具,让你可以快速生成自己的声音。

2025-04-12

一款基于 Node.js 的便捷美观的 API 调试工具 它是调试接口的利器,能够尽快的发现问题提高开发效率

特点: 轻量级:采用简约的UI设计。 快速:实时发送请求并获得响应。 HTTP方法:请求方法定义了您请求执行的操作类型。 GET-请求检索资源信息 POST-服务器在数据库中创建一个新条目 PUT-更新现有资源 PATCH-与PUT非常相似,但对资源进行了部分更新 DELETE-删除资源或相关组件 HEAD-检索与GET请求相同的响应头,但没有响应正文。 CONNECT-建立到目标资源标识的服务器的隧道 选项-描述目标资源的通信选项 TRACE-沿目标资源的路径执行消息环回测试 <custom>-一些API使用自定义请求方法,如LIST。键入自定义方法。 主题:背景、前景和强调色的可定制组合——立即定制。 选择一个主题:系统偏好、浅色、深色和黑色 选择强调色:绿色、青色、蓝色、靛蓝色、紫色、黄色、橙色、红色和粉色 无分心禅模式 自定义主题与您的云/本地会话同步。 PWA:在您的设备上作为渐进式Web应用程序安装。 使用服务人员即时加载 离线支持 RAM/内存和CPU使用率低 添加到主屏幕 桌面PWA

2025-04-12

Linux、Jenkins、AWS、SRE、Prometheus、Docker、Python、Ansible、Git、Kubernetes、Terraform、OpenStack、SQL、NoSQL

这是一个集成了各种DevOps实践和练习的仓库,包括CI/CD、自动化测试、监控、容器化等。它提供了丰富的练习场景和代码示例,让你可以快速学习和掌握DevOps技能。

2025-04-12

一种古代汉语的编程语言

你见过用文言文编写程序吗?文言文语法,可以编译成 JavaScript、Python 或者 Ruby。

2025-04-12

关于文本和图像到视频生成

一个强大的视频生成项目。CogVideo 利用人工智能技术,可以根据用户输入的文本或图像生成高质量的视频内容。对于视频创作者和广告从业者来说,是一个具有创新性的工具。

2025-04-12

一款专为Chrome用户开发的ChatGPT插件 让你的浏览器聊天起来,体验不一样的智能交互

一个Chrome扩展程序,将ChatGPT添加到互联网上的每个文本框中!使用它来写推文、修改电子邮件、修复编码错误或其他任何你需要的东西,而无需离开你所在的网站。包括一个插件系统,可以更好地控制ChatGPT行为,并能够与第三方API交互。

2025-04-12

一款的问答社区 采用 Go 语言编写的问答社区,支持积分、提问、回答、标签等功能,部署简单

一款的问答社区。采用 Go 语言编写的问答社区,支持积分、提问、回答、标签等功能,部署简单。

2025-04-11

JavaScript系列参考资料

关于JavaScript的系列书籍,深入探讨 JavaScript 的核心概念和语言特性,为开发者提供深入理解 JavaScript 的机会。通过这系列书籍,读者可以更好地掌握 JavaScript 的复杂性和灵活性。

2025-04-11

用Java实现的设计模式

提供了一系列 Java 设计模式的最佳实践示例,帮助程序员在设计应用程序或系统时解决常见问题,同时通过经过验证的开发示例来加速开发过程。这是一个有助于设计和编写高质量代码的宝贵资源。 设计模式是程序员在设计应用程序或系统时可以用来解决常见问题的最佳形式化实践。设计模式可以通过提供经过测试和验证的开发范式来加快开发过程。重用设计模式有助于防止导致重大问题的微妙问题,也提高了熟悉这些模式的程序员和架构师的代码可读性。

2025-04-11

这是一个汇总了各大互联网公司Python面试题的仓库,让你可以了解Python面试的常见问题和答案,提高你的面试技巧和水平

Python语言特性 1 Python的函数参数传递 2 Python中的元类(metaclass) 3 @staticmethod和@classmethod 4 类变量和实例变量 5 Python自省 6 字典推导式 7 Python中单下划线和双下划线 8 字符串格式化:\x和.format 9 迭代器和生成器 10 *args and **kwargs 11 面向切面编程AOP和装饰器 12 鸭子类型 13 Python中重载 14 新式类和旧式类 15 __new__和init的区别 16 单例模式 1 使用__new__方法 2 共享属性 3 装饰器版本 4 import方法 17 Python中的作用域 18 GIL线程全局锁 19 协程 20 闭包 21 lambda函数 22 Python函数式编程 23 Python里的拷贝 24 Python垃圾回收机制 1 引用计数 2 标记-清除机制 3 分代技术 25 Python的List 26 Python的is 27 read,readline和readlines 28 Python2和3的区别 29 super init 30 range and xrange 操作系统 1 select,poll和epoll 2 调度算法 3 死锁 4 程序编译与链接 1 预处理 2 编译 3 汇编 4 链接 5 静态链接和动态链接 6 虚拟内存技术 7 分页和分段 分页与分段的主要区别 8 页面置换算法 9 边沿触发和水平触发 数据库 1 事务 2 数据库索引 3 Redis原理 Redis是什么? Redis数据库 Redis缺点 4 乐观锁和悲观锁 5 MVCC MySQL的innodb引擎是如何实现MVCC的 6 MyISAM和InnoDB 网络 1 三次握手 2 四次挥手 3 ARP协议 4 urllib和url

2025-04-11

从代码中可视化算法的交互式在线平台

看!数据结构和算法在这里不再枯燥无味,而是跃然纸上,活灵活现!这个项目提供了可视化演示的方式,让你轻松理解各种经典算法及其实现。 欢迎来到算法可视化器,这是一个交互式在线平台,旨在通过可视化将算法变为现实。无论您是学生、教师还是专业人士,我们的平台都提供了一种引人入胜的方式来探索和理解各种算法。

2025-04-11

一份完整的计算机科学学习计划,成为一名软件工程师

原先我为了成为一个软件工程师而建立这份简单的学习主题清单, 但这份清单随着时间的推移而膨胀成今天这样。在做完这份清单上的每个目标后,我成为了 Amazon 的软件开发工程师! 你或许不需要像我一样学习这么多。但是,让你成为一位称职工程师所需要的知识都在这里了。 我每天自学8~12小时,这样持续了好几个月。这是我的故事:为什么我为了 Google 面试而自学了8个月。 请注意: 你不需要像我一样那么努力学习。我在一些不必要的事情上浪费了很多时间。关于这个问题下面有更多信息。我会帮助你节省宝贵的时间,让你达到目标。 在这份清单内的主题会让你拥有足够的知识去面对几乎每家软件公司的技术面试,包括科技巨头:Amazon、Facebook、Google,以及 Microsoft。 学习的主题 算法复杂度 / Big-O / 渐进分析法 数据结构 数组(Arrays) 链表(Linked Lists) 堆栈(Stack) 队列(Queue) 哈希表(Hash table) 更多的知识 二分查找(Binary search) 按位运算(Bitwise operations) 树(Trees) 树-介绍 二叉查找树(Binary search trees):BSTs 堆(Heap) / 优先级队列(Priority Queue) / 二叉堆(Binary Heap) 平衡搜索树 (总体概念,不涉及细节) 遍历:前序、中序、后序、BFS、DFS 排序 选择排序(selection) 插入排序(insertion) 堆排序(heapsort) 快速排序(quicksort) 归并排序(merge sort) 图(Graphs) 有向图(directed) 无向图(undirected) 邻接矩阵(adjacency matrix) 邻接表(adjacency list) ......

2025-04-11

为忙碌的软件工程师精心准备编码面试准备材料-面试手册

这本手册包含了我在上次求职中收集到的技术面试的精髓,它让我从11家湾区顶级公司中获得了9份工作——谷歌、Airbnb、Palantir、Dropbox、Lyft和一些初创公司!

2025-04-11

交互式路线图、指南和其他教育内容,帮助开发人员在职业生涯中成长

一个为所有开发者提供的成长之路指南,旨在为菜鸟和老鸟提供一条充满乐趣和挑战的发展路径。这个项目将帮助你轻松了解各种技能树和技术路线,使你的职业之旅不再迷茫。无论你是新手还是经验丰富的开发者,这个项目都提供了有价值的学习资源和指导,帮助你不断提升技能。

2025-04-11

繁忙工程师的前端面试准备材料

与典型的软件工程师面试不同,前端面试不太强调算法,更多的问题是关于该领域的复杂知识和专业知识——HTML、CSS、JavaScript,仅举几例。此存储库涵盖了前端面试所需的所有信息: 各种形式的前端面试,包括不同公司的面试形式 前端系统设计访谈 前端琐事问题-h5bp前端开发人员面试问题的答案 前端问题-JavaScript、DOM、算法等 公司的前端面试问题

2025-04-11

前端面试每日 3+1,以面试题来驱动学习,提倡每日学习与思考,每天进步一点!

6000+道前端面试题全面覆盖 HTML/CSS/JavaScript/Vue/React/Nodejs/TypeScript/ECMAScritpt/Webpack/Jquery/小程序/软技能

2025-04-11

超过1000本的计算机经典书籍、个人笔记资料以及本人在各平台发表文章中所涉及的资源等

书籍资源包括C/C++、Java、Python、Go语言、数据结构与算法、操作系统、后端架构、计算机系统知识、数据库、计算机网络、设计模式、前端、汇编以及校招社招各种面经

2025-04-11

「算法通关手册」:超详细的「算法与数据结构」基础讲解教程,从零基础开始学习算法知识,850+ 道「LeetCode 题目」详细解析,200 道「大厂面试热门题目」

「算法与数据结构」 基础知识的讲解教程,「LeetCode」800+ 道题目的详细解析。本项目易于理解,没有大跨度的思维跳跃,项目中使用部分图示、例子来帮助理解。 本教程先从基础的数据结构和算法开始讲解,再针对不同分类的数据结构和算法,进行具体题目的讲解分析。让读者可以通过「算法基础理论学习」和「编程实战学习」相结合的方式,彻底的掌握算法知识。 本教程采用 Python 作为编程语言,要求学习者已有基本 Python 程序设计的知识与经验。

2025-04-09

简明TypeScript书:TypeScript有效开发的简明指南

简明TypeScript书 简明TypeScript书提供了TypeScript功能的全面而简洁的概述。它提供了清晰的解释,涵盖了该语言最新版本中的所有方面,从强大的类型系统到高级功能。无论你是初学者还是经验丰富的开发人员,这本书都是提高你对TypeScript理解和熟练程度的宝贵资源。

2025-04-09

这是谷歌Android团队使用的Rust课程 它为您提供快速学习Rust的材料

这个有Comprehensive Rust的源代码, 由Android团队开发的为期多日的Rust课程。本课程涵盖了Rust的各个方面,从基本语法到泛型和错误处理。它还包括对Android、Chromium、裸机和并发性的深入研究。 课程形式和目标受众 该课程在谷歌内部用于向经验丰富的软件工程师教授Rust。他们通常有C++或Java的背景。 本课程在课堂环境中教授,我们希望它对那些想向团队教授Rust的人有用。由于你错过了课堂上的讨论,这门课程对自学来说用处不大。你看不到问题和答案,也看不到我们在浏览代码示例时触发的编译器错误。我们希望通过演讲者笔记和发布视频来改进这一点。

2025-04-09

高级Python掌握(@dabeaz教授的课程)

一门以练习为导向的高级Python编程课程,在十多年的企业培训电路中进行了数百次实战测试。由David Beazley撰写,他是Python Cookbook第三版(O'Reilly)和Python Distilled(Addison Wesley)的作者。根据知识共享许可证发布。无广告、跟踪、弹出窗口、通讯和人工智能。 本课程中的所有内容都应适用于最新版本的Python,但请注意,本课程主要针对Python 3.6的功能集。因此,某些现代功能无法覆盖。老实说,除非你试图编写异常聪明的代码,否则这不会对你产生太大影响。 目标受众 本课程面向希望超越简短脚本,编写更复杂程序的Python程序员。为此,它有助于更好地理解流行库和框架中使用的编程技术。因此,本课程主要面向希望构建Python语言本身及其工作原理的更完整心智模型的程序员。最终,目标是能够将这些知识应用于自己的项目。 先决条件 你已经知道一些Python了。这不是初学者的课程。有关更多介绍性材料,您可以考虑实用Python编程课程。

2025-04-09

一个更平静的互联网,没有任何噱头

与Zen一起浏览互联网,体验宁静!我们的使命是让您在速度、隐私和生产力之间取得平衡!

2025-04-08

关于一个基于模块图的检索增强生成(RAG)系统

概述 GraphRAG项目是一个数据管道和转换套件,旨在利用LLM的强大功能从非结构化文本中提取有意义的结构化数据。 要了解有关GraphRAG的更多信息,以及如何使用它来增强LLM对您的私人数据进行推理的能力,请访问Microsoft Research博客文章。 快速启动 要开始使用GraphRAG系统,我们建议尝试解决方案加速器包。这为Azure资源提供了用户友好的端到端体验。 存储库指南 该存储库提供了一种使用知识图存储结构来增强LLM输出的方法。请注意,提供的代码仅作为演示,不是微软官方支持的产品。 警告:GraphRAG索引可能是一项昂贵的操作,请阅读所有文档以了解所涉及的过程和成本,并从小处着手。

2025-04-08

在一个地方跟踪所有内容

Folo将内容组织到一个时间线中,让您无噪音地了解最重要的内容。分享列表,探索收藏,享受无干扰的浏览。 定制信息中心 订阅各种提要和精选列表。整理你最喜欢的,并跟踪对你来说最重要的事情。 AI触手可及 通过翻译、摘要等人工智能功能,实现更智能、更高效的浏览。 动态内容支持 因为我们知道内容不仅仅是文本。从文章到视频,从图像到音频,Folo无所不包。 POWER所有权经济 使用$POWER,提示创作者可以立即创建,支持您喜欢的内容,并在您自己的工作中释放价值。您的内容,您的力量。 不仅仅是一个应用程序 这不仅仅是另一个应用程序。Folo是一个社区——引入了一个开放和社区驱动体验的新时代。

2025-04-08

一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式

MinerU是一种将PDF转换为机器可读格式(例如markdown、JSON)的工具,可以轻松提取为任何格式。MinerU诞生于InternLM的预培训过程中。我们专注于解决科学文献中的符号转换问题,希望为大型模型时代的技术发展做出贡献。与知名的商业产品相比,MinerU还很年轻。如果您遇到任何问题或结果不符合预期,请提交一个问题并附上相关PDF。

2025-04-08

Open Sora:为所有人实现高效视频制作的民主化

我们设计并实施了Open Sora,这是一项致力于高效制作高质量视频的倡议。我们希望所有人都能访问模型、工具和所有细节。通过open Sora不仅使高级视频生成技术的访问民主化,还提供了一个简化视频生成复杂性的精简和用户友好的平台。通过Open Sora,我们的目标是在内容创作领域培养创新、创造力和包容性。 对于一款专业的AI视频生成产品,可以尝试video Ocean——它由一款卓越的型号提供支持。

2025-04-08

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除