自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(105)
  • 资源 (2)
  • 收藏
  • 关注

原创 深度模型训练,加速数据读取遇到显卡跑不满的问题

在PyTorch的DataLoader中使用prefetch_factor参数时,硬盘类型对GPU利用率有显著影响。实测发现,当数据存储在机械硬盘上时,数据预加载速度成为瓶颈,导致GPU无法跑满;而当数据存储在固态硬盘上时,GPU利用率得以最大化。此前,通过增加内存并将数据一次性加载到内存中解决了这一问题,但每次训练前需要较长的数据加载时间。后续尝试使用prefetch_factor参数后,发现固态硬盘下的数据加载效率足以支持GPU满负荷运行,而机械硬盘则无法达到相同的效果。因此,硬盘性能是影响GPU利用率

2025-05-11 00:43:21 169

原创 [论文阅读]Deeply-Supervised Nets

深度监督网络(DSN)通过为每个隐藏层引入“伴随目标”,在最小化分类误差的同时,增强了隐藏层学习过程的透明性和直接性。该方法在卷积神经网络(CNN)中关注中间层的透明性、早期层特征的区分性和鲁棒性,以及梯度爆炸和梯度消失问题。DSN通过为每个隐藏层引入独立目标,显著提升了分类性能,实验结果表明在MNIST、CIFAR-10、CIFAR-100和SVHN等基准数据集上优于现有方法。DSN不仅提高了训练效率,还增强了模型的泛化能力,展示了在深度学习中的潜力。

2025-05-09 22:23:52 992 1

原创 [论文阅读]Deep & Cross Network for Ad Click Predictions

点击率(CTR)预测是一个大规模的问题,对数十亿美元的在线广告行业至关重要。在广告行业,广告商付钱给出版商,让他们在出版商的网站上展示自己的广告。一种流行的付费模式是按点击付费(CPC)模式,即只有当点击发生时才向广告商收费。因此,发行商的收益很大程度上依赖于准确预测点击率的能力。识别频繁预测的特征,同时探索未见或罕见的交叉特征是做出良好预测的关键。然而,web尺度的推荐系统的数据大多是离散的和分类的,这导致了一个大而稀疏的特征空间,这对特征探索是一个挑战。

2025-05-06 18:02:33 1140 1

原创 [Datawheel大模型应用开发]速通百炼RAG应用,上手AI Agent应用开发

流程和上面是一致的,下面是修改后的prompt# 角色 你是一位专业的兽医,专注于猪和牛领域的疫病。凭借深厚的专业知识和丰富经验,依据用户提供的上下文信息精准分析用户提出的畜禽疫病相关问题,并给出全面、详细且专业的解答。## 技能 ###技能 1:精准把握用户需求 1 .当用户输入完整问题时,迅速准确理解需求点,运用专业知识分析解答。2 .若用户仅输入一个短语,礼貌追问用户,引导其提供该问题相关的详细背景信息,如养殖规模,养殖方式,具体什么品种等。3 .先归纳结论。

2025-04-13 10:56:23 334

原创 [论文阅读]Transformers without Normalization

在过去的十年里,归一化层已经巩固了它们作为现代神经网络最基本组成部分之一的地位。所有这些都可以追溯到2015年批归一化的发明(Ioffe和Szegedy,2015),这使得视觉识别模型的收敛速度更快、更好,并在随后几年迅速取得发展。从那以后,针对不同的网络架构或领域提出了许多归一化层的变体。今天,几乎所有的现代网络都使用规范化层,层归一化(layer Norm,或LN) (Ba et al., 2016)是最流行的一种,特别是在占主导地位的Transformer架构中。

2025-04-12 00:38:33 1008 1

原创 [论文阅读]PMC-LLaMA: Towards Building Open-source Language Models for Medicine

最近,大语言模型在自然语言理解方面展现了非凡的能力。尽管在日常交流和问答场景下表现很好,但是由于缺乏特定领域的知识,这些模型在需要精确度的领域经常表现不佳,例如医学应用。本文中,我们描述了构建一个专门为医学应用设计的强大的开源语言模型的流程,我们称其为PMC-LLaMA。我们的贡献有以下三方面:(i)我们系统性地调研了通用基础语言模型到医学领域的适应过程,这包括以数据为中心的知识注入,通过整合480万篇生物医学学术论文和3万本医学教科书,以及针对特定领域指令的全面微调;

2025-04-05 23:37:32 1204 2

原创 [论文阅读]FROM BEGINNER TO EXPERT: MODELING MEDICAL KNOWLEDGE INTO GENERAL LLMS

一篇医疗大模型的技术报告,了解医疗大模型的训练流程

2025-03-20 23:02:06 96

原创 修复ubuntu下找不到音频设备的问题

用上面的代码输出始终为空,但是系统中又可以通过命令行录制音频,就怀疑是sounddevice的依赖有问题,重新编译安装依赖库,最终问题得以解决。默认情况下,sounddevice 可能尝试通过 PulseAudio 访问设备,导致冲突。步骤 2:重新编译 sounddevice 的 PortAudio 后端(最终修复步骤)tips:但是我的sounddevice显示设备始终为空,指定也没用。步骤 1:安装 PortAudio 的 ALSA 开发库。方法二:在代码中指定设备名称。方法一:通过环境变量设置。

2025-03-10 13:00:05 472

原创 [Datawhale]Task03——Transformer的Decoder详解

Decoderde的任务是生成文本序列,需要注意的是解码器是自回归的,Decoder部分主要包括:Masked Multi-Head Attention 具有掩码的多头注意力机制 / Multi-Head Attention 多头注意力机制 / Feed Forward 前馈网络 / 分类器。

2025-02-22 00:48:31 169

原创 [Datawhale]Task03——Transformer的Encoder详解

Encoder的整体结构,由如下图左侧所示的多个Encoder子模块堆叠而成,其中,第一个 Encoder 子模块接收来自嵌入(Input Embedding)和位置编码(Position Embedding)组合后的输入(inputs)。除了第一个 Encoder 之外的其他 Encoder 子模块,它们从前一个 Encoder 接收相应的输入(inputs),这样就形成了一个顺序传递信息的链路。

2025-02-18 22:39:10 1096

原创 [Datawhale]Task02——Transformer相关理论详述

构成整体采用编码器-解码器架构添加了位置编码,使得模型能够区分序列中元素的相对位置多头注意力,可以同时关注输入序列的不同部分前馈网络,捕捉序列中元素之间的复杂关系的多功能组件。

2025-02-15 17:47:55 997

原创 ubuntu下ollama/vllm两种方式在本地部署Deepseek-R1

今年过年,deepseek一下子爆火,导致我前段时间好好用的官网直接挤爆了,一直转圈圈到没心思过了,天天挂热搜,直接导致我的科研工作受阻(dog),好吧,话不多说,看看怎么在本地部署deepseek丝滑享受以及白嫖一下api体验>_<!部署环境:系统:ubuntu22.04显卡:一张4090,24G显存。

2025-02-12 16:15:08 1976 1

原创 [Datawhale]Task01——Transformer学习入门

Seq2Seq模型是Encoder-Decoder架构的一种具体应用Seq2Seq 更强调目的,Encoder-Decoder 更强调方法。

2025-02-12 15:05:20 670

原创 ollama模型一键满速下载

最近用ollama部署deepseek,发现模型下载很慢,一开始还能跑满,之后就开始掉速,实在受不了了,上网一搜,一大堆说怎么下载ollama的,零星有几个下载模型加速的,试了一圈,没有特方便的,github上找找吧,终于找到一个超好用的!github地址。

2025-02-12 14:00:53 1053 2

原创 [Datawheel]利用metaGPT多智能体框架实现智能体-2

在 MetaGPT 中,类 Action 是动作的逻辑抽象。用户可以通过简单地调用 self._aask 函数令 LLM 赋予这个动作能力,即这个函数将在底层调用 LLM api。

2025-01-25 17:20:01 1304 1

原创 [Datawheel]利用metaGPT多智能体框架实现智能体-1

MetaGPT 是一个基于大语言模型(如 GPT-4)的多智能体协作框架,旨在通过模拟人类团队的工作模式,让多个 AI 智能体分工合作,共同完成复杂的任务。它通过赋予不同智能体特定的角色(如产品经理、工程师、测试员等),并定义标准化的工作流程,显著提升了任务执行的效率和可靠性。将任务分解为需求分析、设计、开发、测试等标准化步骤,减少大模型常见的逻辑错误或“幻觉”。例如,开发软件时,产品经理先输出需求文档,工程师再编写代码,测试员验证功能。

2025-01-25 16:52:42 1644

原创 [Datawheel]利用Zigent框架编写智能体-2

定义 WriteDirectoryAction 类,继承自 BaseAction。该类的主要功能是生成一个教程的目录结构。具体来说,它通过调用大语言模型(LLM)来根据给定的主题和语言生成一个符合特定格式的目录。

2025-01-24 23:35:02 638

原创 How to learn html?基于chatGLM-b生成示例(仅供参考)

HTML文件通常由纯文本内容组成,内容被特定的标记符号包围。这些标记符号定义了文档的结构和格式。HTML不涉及布局、样式和颜色,这些问题可以通过CSS(Cascading Style Sheets,级联样式表)来解决。但是,HTML是网页制作的基础。HTML文档是一种文本文件,其内容以特定格式的标记来组织信息。文档类型声明(DOCTYPE)它位于HTML文档的第一行,用于告知浏览器文档所使用的HTML版本。HTML根元素(html)html元素包含整个HTML文档的内容,它定义了文档的类型为HTML。

2025-01-24 22:45:20 1033

原创 [Datawheel]利用Zigent框架编写智能体-1

Zigent 是一个多智能体框架,旨在简化和优化智能体的开发与部署。Zigent 是由 自塾(Zishu.co) 团队开发的一个开源项目。自塾在 2024 年推出了多个开源项目,其中包括 wow-agent,而 Zigent 是 wow-agent 项目的一部分,用于搭建 AI Agent 系统。Zigent 是一个基于 Agentlite 框架改进的智能代理开发框架。Agentlite 最初由 Salesforce AI Research 团队开发,是一个强大的 Agent 开发框架。

2025-01-24 20:06:19 948

原创 [Datawheel]用Llama-index创建Agent、数据库对话Agent和RAG接入Agent

frompydanticimportField#导入Field,用于Pydantic模型中定义字段的元数据CustomLLM,#定义OurLLM类,继承自CustomLLM基类client:OpenAI=Field(default=None,exclude=True)#显式声明client字段。

2025-01-17 22:39:16 1437 2

原创 [Datawheel]wow-agent以及利用openai库搭建AI Agent

print("意图识别:",ai_response)print("意图识别:",ai_response)print("意图识别:",ai_response)print("意图识别:",ai_response)else:break。

2025-01-14 15:11:18 934

原创 nn.CosineSimilarity如何理解?

总体来说还是比较好理解的,两个向量的相似度,就是看两个向量的夹角,如果夹角为0,则余弦值为1,说明两个向量相关,夹角为180,则说明两个向量负相关,而如果为90度,则表示向量正交无相关性。余弦相似度(Cosine Similarity)是一种用于衡量两个向量在空间中夹角的相似度的度量方法。它通过计算两个向量的余弦值来判断它们的相似性,值的范围通常在-1到1之间。dim (int, optional) – 计算余弦相似度的维度,默认为1。0 表示两个向量正交(没有相似性,方向完全不同)。

2024-12-04 08:43:11 274

原创 torchvison.models中包含的哪些模型?

1.模型AlexnetAlexNet 是一个具有 8 层的深度卷积神经网络,结构上比早期的卷积神经网络(如 LeNet)要深得多。它由 5 个卷积层(conv layers)和 3 个全连接层(fully connected layers)组成。AlexNet 的googlenetGoogLeNet 是 Google 在 2014 年提出的一种深度卷积神经网络架构,它在 ImageNet 大规模视觉识别挑战赛中取得了非常优秀的成绩,获得了 2014 年的冠军。GoogLeNet 的最大创新点之一是

2024-12-03 21:11:59 1290

原创 pytorch中model.eval的理解

在复现simsam的过程中,看到在线性评估部分的训练函数中设置了model.eval,不太理解,印象中一直觉得,model.eval会影响梯度的回传,这里来拨乱反正一下。

2024-12-03 10:41:00 772

原创 [论文阅读]Unsupervised Learning of Visual Features by Contrasting Cluster Assignments

无监督图像表征学习在缩小与有监督预训练的差距方面取得了显著进展,尤其是在近期对比学习方法的成就上。这些对比方法通常是在线工作的,需要大量显式的特征配对比较,计算成本很高。本文提出了一种在线算法 SwAV,它利用了对比方法的优势,但不需要计算成对比较。具体来说,我们的方法在对数据进行聚类的同时,保持对同一图像的不同增强(或“视图”)生成的聚类分配的一致性,而不是像对比学习那样直接比较特征。简而言之,我们使用了一种“交换”预测机制,在其中我们从一个视图的表征来预测另一个视图的编码。

2024-11-13 17:04:41 1213 1

原创 [论文阅读]Automatic detection of continuous pig cough in a complex piggery environment

猪呼吸道疾病因其高度传染性和高致死性严重制约了健康养殖的发展(Assavacheep & Thanawongnuwech, 2022;Ji, Yin等, 2022;Sassu等, 2018)。传统的早期预警方法主要依赖人工检查。近年来,越来越多的研究集中于猪咳嗽的自动检测,以提供预警(Racewicz等, 2021)。早期的研究提出了许多针对猪咳嗽识别的解决方案,并取得了良好的结果。

2024-10-27 21:24:29 1225 1

原创 [论文阅读]RGB-Depth Fusion GAN for Indoor Depth Completion再阅读

欢迎各位同学学习讨论!

2024-10-21 19:58:17 312 1

原创 [论文阅读]RGB-Depth Fusion GAN for Indoor Depth Completion

由于固有的限制,如无法感知透明物体和有限的距离范围,室内深度传感器捕获的原始深度图像通常会有大面积的深度值缺失。这种不完整的深度图给许多后续视觉任务带来了负担,尽管提出了很多深度补全方法来缓解这一问题。但是现有的大多数方法都是从稀疏和均匀采样的深度图生成精确的稠密深度图,不适用于补充大面积连续的深度值缺失区域,而这是十分常见且至关重要。本文设计了一种新颖的两分支端到端融合网络,输入为RGB图像和不完整的深度图,输出为稠密且完整的深度图。

2024-10-17 18:51:01 1162 1

原创 [论文阅读]Deep Depth Completion of a Single RGB-D Image

我们的工作目标是完成RGB-D图像的深度通道。商用级深度摄像头通常无法捕捉光滑、明亮、透明和远处表面的深度信息。为了解决这个问题,我们训练了一个深度网络,该网络以RGB图像作为输入,并预测稠密的表面法线和遮挡边界。然后,这些预测与RGB-D摄像头提供的原始深度观测数据结合起来,解决了包括原始观测中缺失像素在内的所有像素的深度问题。

2024-10-15 11:08:47 1078 1

原创 [论文阅读]AGG-Net: Attention Guided Gated-convolutional Network for Depth Image Completion

最近,基于轻量化RGBD相机的单目视觉广泛用于各种领域。然而,受限于成像原理,通常使用的基于TOF,结构光或双目视觉的RGBD相机不可避免的会获取一些无效数据,例如弱反射,边界阴影和伪影,这些也许会给后续的工作带来消极的影响。在本文中,我们提出 了一个新的基于注意力指导的门卷积网络(AGG-Net)的深度图像补全模型,通过这种方法可以从原始的深度图像和对应的RGB图像获得更加准确和可靠的的深度图像。我们的模型使用了一个类U-Net架构,由两个平行的深度和颜色特征分支构成。

2024-10-13 17:55:06 1307 1

原创 PyTorch中,view, reshape, 或者 permute 的区别和联系

简单来说,view和reshape都是用来改变张量的形状的,view更快但要求连续存储,而reshape慢一点不要求连续,灵活度高;而permute是用来调整tensor的维度的顺序的,不改变形状大小。

2024-09-02 11:02:35 722

原创 [Datawhale AI 夏令营]多模态大模型数据合成赛事-Task2

简单按照datawhale给的task2的文档学习了一下,主要还是学习了Data-Juicer相关的知识。

2024-08-15 23:17:44 1050

原创 [Datawhale AI 夏令营]多模态大模型数据合成赛事-Task1

参加了一个多模态大模型数据合成的比赛,赛事链接https://tianchi.aliyun.com/competition/entrance/532251。比赛官方是有提供平台的,但是训练还是需要额外的付费,囊肿羞涩就自己搞一下吧。强烈建议步骤1和步骤2的时候没必要用太高的配置,从步骤3开始调高配置,该省省该花花嘛!打完收工~,以上就是在非官方平台跑通baseline的全过程,唯一的卡点就是在数据下载部分,但是只要注意上面提到的两点应该就没有大问题,有其他问题可以在评论区提问,后续会补充回答!

2024-08-11 18:10:28 503

原创 [论文精读]VIT:AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

虽然Transformer架构已成为自然语言处理任务的标准模型,但它在计算机视觉领域的应用仍然有限。在视觉领域,注意力机制要么与卷积网络结合使用,要么用来替换卷积网络的某些组件,同时保持其总体结构不变。我们的研究表明,这种对CNN的依赖于并非必要的,直接将纯粹的Transformer应用于图像块序列,也可以在图像分类任务上表现得非常好。

2024-07-29 19:13:44 812

原创 [吃瓜教程]南瓜书第6章软间隔与支持向量回归

为L2正则项,此处引入正则项除了起到正则化的作用外,也是为了和(软间隔)支持向量机的优化目标保持形式上的一致,这样就可以导出对偶问题引入核函数。落在带上的样本不计算损失,不在带上的计算损失,然后最小化损失使得间隔带从样本最密集的地方穿过,达到拟合训练样本的目的。在确定了软间隔支持向量机的损失函数后,我们还可以进一步转换,将其从损失函数的形式再写回优化问题的形式。之前讨论的支持向量机的一个重要的假设前提是它的数据集是线性可分的。才是最常见的,因此需要允许支持向量机犯错。这就是接下来要说的软间隔的支持向量机。

2024-07-12 19:27:06 1077

原创 [吃瓜教程]南瓜书第6章支持向量机

超平面是指在𝑛维空间中,维度为 𝑛−1的子空间。它是分割空间的一个平面。

2024-07-08 00:15:41 1286 1

原创 [吃瓜教程]南瓜书第5章神经网络

为了解决线性不可分的数据集(其他的当个神经元的模型也可以结局线性不可分的数据集,只是感知机不可以),提出了由多个神经元构成的神经网络,且用通用近似定理可以证明:只需一个包含足够多神经元的隐层,多层前馈网络(最经典的神经网络之一)就能以任意精度逼近任意复杂度的连续函数。从几何的角度来说,给定一个线性可分的数据集T,感知机的学习目标是求得能对数据集T中的正负样本完全正确划分的超平面,其中。此时损失函数是非负的。如果没有误分类点,损失函数值为0.而且,误分类点越少,误分类点离超平面越近,损失函数值就越小。

2024-07-04 22:49:03 926

原创 [吃瓜教程]南瓜书第4章决策树

理解一下,我们希望我们划分出来的空间内的样本的y的概率越大越好,这样我们就把各个y的不同值划分的很好了,这就对应了信息熵中的期望信息熵最小的情况,因此可以用信息熵来表示集合内样本的纯度,信息熵越小样本的纯度越高。这里上下两部分的关系,其实下面的部分再更加具体的解释上面的式子。这里第二部分假设X是只有一个维度,也就是特征a,而随机变量X的取值,这里就是a的具体的取值会影响到Y的信息熵,也就是说,.当X的某个取值的概率为1时信息熵最小,值为0,当X的各个取值的概率均等时信息熵最大,最不缺定,其值为。

2024-07-01 18:44:06 776

原创 [吃瓜教程]南瓜书第3章二分类线性判别分析

*2.求拉格朗日函数的偏导数:**对所有变量求偏导数,并令这些偏导数等于零,得到一组方程。特别的,当B=I(单位矩阵)时,广义瑞利商退化为瑞利商。特别的,当B=I(单位矩阵)时,广义特征值问题退化为标准特征值问题。**1.构造拉格朗日函数:**将目标函数和约束条件结合,形成拉格朗日函数。分别表示反例集合和正例集合的均值向量与投影直线的夹角, 围绕上面思想中的。之间的线性关系的度量。为A相对于B 的广义特征值,x为A 相对于B的属于广义特征值。的离散程度的度量,表示数据点与均值之间的偏离程度。

2024-06-28 23:16:14 1144

原创 [吃瓜教程]南瓜书第3章对数几率回归

它通过拟合一个对数几率函数(logit function),即对数几率(log-odds)与输入变量的线性组合之间的关系,来预测一个事件发生的概率。其中,I(x)是事件x的自信息量,P(x)是事件x发生的概率,log 表示对数运算,可以是以2为底(通常用于信息论中的单位为比特)或以自然对数为底(单位为纳特,nats)。由于理想分布p(x)是未知但固定的分布(频率学派的角度),所以式子的前办部分是一个常量,那么最小化相对熵就等价于最小化交叉熵。3.算法:梯度下降,牛顿法(近似求解方法,没有闭式解)

2024-06-26 00:57:10 988

YOLOv7源代码+权重文件

方便各位下载,YOLOv7源代码+权重文件

2022-07-14

机器学习数据集猪头部识别yolo格式

1490左右张已经标注好的猪的头部的图片,yolo格式

2022-07-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除