自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

aiAI

爱AI技术的小伙伴一起进步吧~

  • 博客(65)
  • 资源 (1)
  • 收藏
  • 关注

原创 笔记收藏系列--5分钟学会Markdown7大核心语法--最新简明版

Markdown7大核心语法--最新简明版什么是Markdown?Markdown是一种轻量级的「标记语言」,通常为程序员群体所用,目前它已是全球最大的技术分享网站GitHub和技术问答网站StackOverFlow的御用书写格式。就是这十个不到的标记符号,却能让人优雅地沉浸式记录,专注内容而不是纠结排版,达到「心中无尘,码字入神」的境界。Markdown 7大基础语法0标题标题是每篇文章必备而且最常用的格式。在Markdown中,如果想将一段文字定义为标题,只需要在...

2020-10-08 10:33:54 2389 6

原创 真香!百度网盘超级会员等级制度,等级越高,特权越多!容量,解压,转存上限,回收站保存时间,全都有!

百度网盘超级会员等级制度,等级越高,容量越大,你的网盘容量增加了多少?(手机端升级最新版本就可以查看哦)百度网盘免费用户容量是2T,超级会员可以扩容至5T,会员过期即收回空间和权限,由于工作的原因,哥哥已经陆陆续续购买超级会员几年了,也算是个百度网盘的忠实用户吧!不过今天哥哥在不经意间居然发现自己的容量涨到了10T,整整多出了5T,这是怎么回事呢?难道百度网盘将超级会员的容量增大了吗?最后经哥哥查询才得知原来百度网盘搞起了会员等级制度,在用户购买会员之后,会被...

2020-09-11 17:35:06 40723 2

原创 强力推荐:为何Gemini 2.5 Pro Preview是当下最值得体验的AI大模型?(谷歌AI加速,未来可期!)

谷歌推出的Gemini 2.5 Pro Preview是目前最值得体验的AI大模型之一,凭借其卓越的性能、亲民的体验和强大的生态支持,成为普通人接触顶尖AI技术的理想选择。该模型具备多项亮点,包括“思考”模式、顶尖编码能力、65,536 Token的输出长度、多模态理解与生成、知识更新至2025年1月以及强大的AI代理潜力。通过Google AI Studio,用户可免费体验这一模型,享受低成本探索前沿技术的机会。谷歌AI生态的协同效应。

2025-05-13 23:34:31 872

原创 【趋势洞察】AI Agent深度解析:从Tool Use、Computer Use到Multi-Agent系统的技术演进与个人开发者的破局之路

AI Agent技术正在经历从简单对话到自主行动的演进,涵盖工具使用(Tool Use)、计算机使用(Computer Use)和多智能体系统(Multi-Agent Systems)等关键方向。其核心在于通过动态推理(CoT)实现智能化决策和任务执行。然而,原子Agent的同质化、知识产权保护以及复杂Agent的护城河构建仍是当前的主要挑战。个人开发者和小型工作室可以通过深度整合AI能力、利用独特数据和优化用户体验来构建竞争优势。

2025-05-12 00:35:51 848

原创 【开发者福利?】Google One 学生优惠验证流程疑似Bug,或可免门槛试用 Gemini 2.5 Pro

Google 为美国地区的学生提供了相当有吸引力的 Google One 订阅优惠,通常包含18个月的高级会员服务。此服务目前集成了 Gemini Advanced,用户可以借此体验到最新的 Gemini 2.5 Pro 模型。近日,有用户发现其验证流程似乎存在一个“缺口”:在特定操作下,系统可能不会强制要求提供传统的.edu教育邮箱进行验证,也无需绑定信用卡信息即可完成订阅。甚至一些以前可能不被支持的账户类型也可能成功。

2025-05-07 11:34:25 1060

原创 告别低效!实战揭秘,从DeepSeek到Qwen3/Gemini2.5 Pro:解锁思维大模型生产力的五步进阶法

随着人工智能技术的飞速发展,以DeepSeek、阿里Qwen3、谷歌Gemini 2.5 Pro为代表的通用大模型(或称思维大模型)正在以前所未有的方式改变着我们的工作和学习模式。它们不仅具备强大的语言理解和生成能力,更在逻辑推理、知识迁移和创意生成方面展现出了惊人的潜力。然而,许多用户在使用这些强大的工具时,依然停留在基础的“问答”层面,难以充分激发其作为“生产力引擎”和“思考辅助工具”的真正价值。为什么同样的模型,有人能用它产出高质量的报告、复杂的代码,而有人却只能进行简单的闲聊?

2025-05-07 09:41:04 689

原创 深度解析:从 GPT-4o“谄媚”到 Deepseek“物理腔”,透视大模型行为模式的底层逻辑与挑战

从GPT-4o的“彩虹屁风波”到日常使用中可能遇到的各种AI“小癖好”,这些看似琐碎的现象,实则是我们观察和理解当前AI技术发展阶段、挑战与机遇的绝佳窗口。它们提醒我们,人工智能的征途依然漫长,充满了未知与探索。作为技术的见证者和参与者,保持好奇,理性思考,积极适应,或许是我们面对这个智能时代最好的姿态。那么,你在使用AI时遇到过哪些有趣的“小癖好”?你对AI的未来发展又有哪些思考?欢迎在评论区留言分享!文中关于DeepSeek等模型的行为描述主要基于用户观察和讨论,并非官方定论,仅作探讨示例。

2025-05-05 21:46:32 729

原创 【爆款预定】五一长假+Qwen3发布=AI效率巅峰?告别瞎指挥,大模型实用指南助你假期躺赢!

信息过载,需要整理和提炼?智慧玩法:想学新东西?“我想趁五一学习 Python 数据可视化,请推荐一些优质的在线教程(免费优先)、必看书籍、核心库以及实战项目资源?”—— AI 帮你高效筛选和聚合信息。快速回顾长篇内容?“把这篇XX文章/会议纪要(粘贴内容)的核心观点总结成 3 点,每点不超过 50 字。”——节省信息处理时间。策划活动没头绪?“五一部门想搞个线上互动,帮我头脑风暴几个主题,并列出每个主题需要考虑的关键要素(如形式、工具、预算、分工等)?”—— 提供结构化起点。

2025-04-30 23:35:12 688

原创 一夜刷屏!Qwen3跑分到底在“秀”什么?小白也能看懂的LLM能力单,让你选型不迷路!

AI 大模型的跑分表不再是天书!通过理解 ArenaHard、AIME、各类 Code Benchmarks、BFCL、MultiIF 等指标背后的含义,我们就能更清晰地判断一个模型是否真的“强”,以及它的“强项”是否正是我们所需要的。Qwen3 系列的发布,特别是其高性能和开源特性,无疑为我们提供了更多优质的选择。但记住,没有哪个模型是万能的。最好的 AI 模型,永远是那个最懂你需求、最能帮你解决实际问题的模型。希望这篇“跑分表食用指南”能帮你拨开迷雾,在 AI 选型的道路上更加从容自信!

2025-04-29 21:29:05 1006

原创 深度解析Qwen3:性能实测对标Gemini 2.5 Pro?开源大模型新标杆的部署挑战与机遇

大语言模型(LLM)的浪潮持续席卷技术圈,性能天花板不断被刷新。以 Gemini 2.5 Pro 为代表的闭源模型展现了惊人的能力,但其高昂的成本和有限的可访问性也让许多开发者望而却步。与此同时,开源力量正以前所未有的速度崛起。近期,阿里巴巴发布的 Qwen3 系列模型,尤其是旗舰级的 Qwen3-235B,在各大基准测试中取得了令人瞩目的成绩,部分指标甚至直逼闭源顶流,引发了业界的广泛关注。Qwen3 的出现,仅仅是又一个性能强大的开源模型吗?它是否真正具备挑战顶级闭源模型的实力?

2025-04-29 21:14:54 1568

原创 B站刷多了才发现:你还在纠结的AIGC痛点,可能已经OUT了!

不再纠结于已经被快速迭代掉的旧问题。区分是平台一时的Bug,还是需要长期攻坚的技术或易用性难题。关注那些尚未被完美解决的核心能力短板,寻找创新突破口。最重要的,是保持学习的热情和拥抱变化的勇气。那么,屏幕前的你,最近在AI探索的路上又有哪些新发现?哪些曾经让你头疼的问题已经烟消云散?又有哪些新的挑战让你觉得“路漫漫其修远兮”?欢迎在评论区留下你的真知灼见,让我们一起在这场AI变革中,乘风破浪!(觉得这篇观察有启发?

2025-04-27 17:35:28 823

原创 开源AI模型≠免费API?别再误会了!揭秘模型开源的那些事儿

AI领域的“开源”通常指开放模型权重(Open Weights),让你能用训练好的模型,但不一定给你完整的训练源码和数据。允许本地部署、研究和微调,促进了AI生态的繁荣。使用别人提供的API服务,本质上是在为昂贵的计算资源和维护服务付费,与模型本身的开源许可协议是两码事。Token计费是衡量计算消耗的一种方式。给开发者和AI爱好者的建议:你是想在本地运行、微调模型进行深度定制,还是只需要便捷地调用模型能力完成任务?本地部署需要强大的硬件和技术投入,API调用则需要考虑调用量和费用。

2025-04-27 17:12:37 863

原创 AI应用开发选型终极指南:手撸代码 (LangChain/LangGraph) vs. 低代码平台 (Dify/Coze),谁是你的菜?

手撸代码的原生框架和开箱即用的低代码平台,就像武侠世界里的“内功心法”和“神兵利器”。精通内功心法(原生框架)能让你应对各种复杂局面,潜力无限,但修炼过程艰苦;获得神兵利器(低代码平台)能让你快速提升战力,解决眼前问题,但可能过于依赖外物。没有绝对的优劣,只有是否适合。关键在于认清你的目标、场景、资源和团队能力。希望这篇分析能帮助你在 AI 应用开发的道路上,做出更明智的选择!觉得有用?你的支持是我持续分享的最大动力!也欢迎在评论区分享你的看法和经验!本文部分观点提炼自对 B 站用户的分析。

2025-04-27 12:17:25 726

原创 【AI Agent开发必读】搞懂Memory、向量库、Agent、Workflow,告别概念迷茫!收藏这篇就够了!

理解 Memory、Vector Store、Storage、Agent 和 Workflow 这五个核心概念及其区别,对于设计和开发强大的 AIGC 应用至关重要。它们就像搭建 AI 大厦的不同砖瓦和工具,各有其位,互相配合。希望这篇博客能帮助你理清思路,告别概念迷茫。如果你觉得有用,!也欢迎在评论区留下你的疑问或见解,我们一起交流,共同进步!本文基于个人理解和公开信息撰写,旨在科普交流,如有不准确之处,欢迎指正。

2025-04-27 11:41:04 636

原创 三种注意力机制: 多头注意力、分组多查询与多查询注意力(Multi-Head , Grouped Multi-Query , Multi-Query ):图书馆类比解读三种注意力机制的区别与优劣

用一个简单的生活场景来类比,帮助你理解图中的三种注意力机制(Multi-Head Attention, Grouped Multi-Query Attention, Multi-Query Attention)的区别。这就像在图书馆里,通过分组解决了成本高和效率低的问题,同时保留了较好的个性化服务。分组注意力机制在计算效率和结果质量之间找到了一个平衡点。多头注意力模型提供高质量的输出,但代价是计算速度慢。这种方法牺牲了质量来换取速度。

2024-11-20 21:26:01 1042

原创 内积与点积,相对位置编码:RoPE(Rotary Position Embeddings)的奇妙结合:从向量相似度到位置信息的深度编码

RoPE通过旋转编码使得点积操作不仅能够计算向量的内容相似度,还能隐式地捕捉词语之间的相对位置关系。通过优化旋转矩阵的计算方式,它大大提升了效率,使得模型在处理序列数据时能够更加精准地理解上下文关系。RoPE的引入,就像是为模型加上了“位置感应器”,帮助它更智能地理解词语的相对关系。通过RoPE,点积操作变得更加聪明,能够更好地理解词语之间的顺序和相对关系,从而在自然语言处理任务中取得更好的效果。

2024-11-20 20:36:48 926

原创 破解深度学习难题:Batch Normalization 如何解决 Internal Covariate Shift (内部协变量偏移)问题

Internal Covariate Shift(内部协变量偏移)是指在深度神经网络训练过程中,由于前一层参数的更新导致后一层输入数据分布发生变化的问题。简单来说,随着模型的训练,网络的每一层都会接收到“不断变化的输入分布”,这会给训练过程带来挑战。

2024-11-20 19:56:52 451

原创 解锁AI文本生成奥秘:Greedy、Beam、Top-k、Top-p与温度控制策略全揭秘

推理策略(Inference Strategy)是指在生成模型(如 Transformer、GPT 等)进行文本生成或预测时,决定每一步选择的输出(Token)的方法。不同的推理策略对生成的结果有着显著影响,主要体现在输出的质量、多样性、生成速度等方面。以下将深入探讨常见的推理策略及其特点,帮助开发者理解如何在实际应用中选择合适的推理策略。假设从概率最高的开始累加,直到总概率 p(如 p=0.9)为止,选取这部分候选词进行随机采样。每一步生成时,从预测分布中选择概率最高的 k 个 Token(如词)。

2024-11-20 19:37:02 1002

原创 在 Ubuntu 上安装 Whisper 支撑环境(ffmpeg、PyTorch)的教程(2024亲测可用)

以下是如何在 Ubuntu 系统上安装 Whisper 以进行视频转录的详细步骤。

2024-10-12 21:22:26 1024

原创 Ubuntu环境使用 Whisper 与 ZhipuAI 实现本地批量视频转录与文本标点复原(本地亲测可用)

通过本项目,你可以了解到如何利用开源的自动语音识别工具(如 Whisper)和大语言模型(如 GLM4)来实现批量视频转录和文本处理。这些工具和技术的结合不仅简化了转录和标点添加的过程,还展示了多线程处理在实际项目中的应用。希望这个项目能帮助你更好地理解视频处理自动化的相关技术,欢迎大家留言讨论或提出改进建议!

2024-10-12 21:15:29 1596

原创 主流显卡和 CPU 进行 Whisper 转录性能 RTF 转录时间估算

本文对常见显卡和 CPU 在 Whisper 音频转录任务中的性能进行了比较,帮助读者选择适合的硬件。高端显卡如 RTX 4090 和数据中心级 GPU 如 H100 提供最佳的转录速度,而高端桌面 CPU 也是不错的选择。

2024-10-11 18:23:43 2670

原创 2024国内无法连接Hugging face无法下载预训练模型解决方案(Ubuntu亲测成功)

通过修改 Hugging Face Hub 的默认网址,可以使用镜像站点加速访问。首先,使用 `pip show` 命令找到 Hugging Face 包的位置,并在安装路径中的 `constants.py` 文件中修改 `_HF_DEFAULT_ENDPOINT` 为镜像网址。保存修改后,重启 Python 环境,测试 Hugging Face 是否能通过镜像站点正常加载资源,解决网络延迟问题。

2024-10-11 18:08:42 3220

原创 Linux(ubuntu18.04)安装GCC-9.3.0全指导--2021年尝试成功经验

安装GCC-9.3.0全指导一.安装准备*1_1下载GCC-9.3.0安装包**2 手动下载辅助包,自动下载太慢,咱直接自己动手解决二.安装编译1 设置配置信息2 编译3 安装三.成果检验一.安装准备本教程超贴心,只需要小伙伴们挑选一个目录开始即可,一条一条跟,不要掉队哦!下载源精选国内清华源,速度无敌!1_1下载GCC-9.3.0安装包*wget https://mirrors.tuna.tsinghua.edu.cn/gnu/gcc/gcc-9.3.0/gcc-9.3.0.tar.gz1_

2021-02-08 20:40:16 19697 20

原创 带你俯瞰经典CNN网络--AlexNet & VGG & GoogLeNet & ResNet一起和大佬们灵感互动

带你俯瞰经典CNN网络–AlexNet & VGG & GoogLeNet & ResNet一起和大佬们灵感互动 概述本文主要目的是带各位小伙伴畅游一下经典的CNN网络发展历程,感受一下大佬的灵感闪光点,让我们对目前深度学习CNN的最新前沿技术发展有个上帝视角的了解。毕竟,关注这篇文章的小伙伴都是深度学习的爱好者,为了赶上技术发展,我们必须站在巨人的肩膀,知道什么是好的,可以直接用,什么是可以再优化的。 友情提醒,阅读本文需要一定CNN基础哦,这样食用风

2020-11-18 20:45:51 391

原创 IDEA每天一个小技巧-try-catch快捷键

IDEA每天一个小技巧-try-catch快捷键我们为啥要用IDEA呢,当然是为了方便方便更方便啦o(´^`)o不多说,开始啦!  1.选定需要包裹的代码块  2.快捷键ctrl+alt+T就是这个效果还可以选择很多其他的选项哦  3. 完成...

2020-11-15 18:03:24 1067

原创 智能时代-大数据与智能革命重新定义未来(吴军)-核心书摘

智能时代-大数据与智能革命重新定义未来(吴军)-核心书摘本文主要摘录于全书正文,部分解释是博主根据自己生活体验增加的理解,欢迎大家共同讨论更正~机器学习爱好者交流QQ群:1023 119 142为新手提供机器学习资料,也欢迎大佬来分享知识。本书目录第一章:数据—人类创造文明的基石 现象、数据、信息、知识 数据的作用:文明的基石 相关性:使用数据的钥匙...

2020-11-05 18:22:00 1904

原创 5 NLP自然语言处理入门--词向量embedding&代码实现(百度架构师手把手带你零基础实践深度学习原版笔记系列)

5 NLP自然语言处理入门--词向量(百度架构师手把手带你零基础实践深度学习原版笔记系列)自然语言处理技术面临的挑战如何让机器像人一样,能够准确理解和使用自然语言?这是当前自然语言处理领域面临的最大挑战。为了解决这一问题,我们需要从语言学和计算两个角度思考。语言学角度自然语言数量多、形态各异,理解自然语言对人来说本身也是一件复杂的事情,如同义词、情感倾向、歧义性、长文本处理、语言惯性表达等。通过如下几个例子,我们一同感受一下。同义词问题请问下列词语是否为同义词...

2020-10-22 21:45:33 3304 2

原创 矩阵的点乘和叉乘--深度学习应用场景针对有矩阵基础的解惑版

矩阵的点乘和叉乘–深度学习应用场景针对有矩阵基础的解惑版  大学刚学完矩阵论,一搞深度学习,代码.dot 和 矩阵* 傻傻分不清了。这里就帮各位大佬区分一下.  先讲叉乘规则大家都知道,讲个记忆。叉乘吗,自然需要行列交叉相乘的形式才行的(^_−)☆ 学过矩阵运算的都知道,我们其实默认说的矩阵乘法就是这个所谓的叉乘就是两个矩阵形状对的上,才能正确就行叉乘运算,也就是行与列对应相乘最后相加,放在对应位置。举个栗子o(´^`)o:形状上:

2020-10-22 17:24:44 4397 2

原创 4.6 目标检测YOLO-V3算法--多尺度检测(百度架构师手把手带你零基础实践深度学习原版笔记系列)

4.6目标检测YOLO-V3算法--多尺度检测(百度架构师手把手带你零基础实践深度学习原版笔记系列)多尺度检测目前我们计算损失函数是在特征图P0的基础上进行的,它的步幅stride=32。特征图的尺寸比较小,像素点数目比较少,每个像素点的感受野很大,具有非常丰富的高层级语义信息,可能比较容易检测到较大的目标。为了能够检测到尺寸较小的那些目标,需要在尺寸较大的特征图上面建立预测输出。如果我们在C2或者C1这种层级的特征图上直接产生预测输出,可能面临新的问题,它们没有经过充分的特征提取,像...

2020-10-19 21:21:56 1458

原创 4.5 目标检测YOLO-V3算法--损失函数(百度架构师手把手带你零基础实践深度学习原版笔记系列)

4.4 目标检测YOLO-V3算法--损失函数(百度架构师手把手带你零基础实践深度学习原版笔记系列)损失函数上面从概念上将输出特征图上的像素点与预测框关联起来了,那么要对神经网络进行求解,还必须从数学上将网络输出和预测框关联起来,也就是要建立起损失函数跟网络输出之间的关系。下面讨论如何建立起YOLO-V3的损失函数。对于每个预测框,YOLO-V3模型会建立三种类型的损失函数: 表征是否包含目标物体的损失函数,通过pred_objectness和label_objectness计..

2020-10-19 21:11:21 2115

原创 4.4 目标检测YOLO-V3算法--主线二:卷积神经网络提取特征(百度架构师手把手带你零基础实践深度学习原版笔记系列)

4.4 目标检测YOLO-V3算法--主线二:卷积神经网络提取特征(百度架构师手把手带你零基础实践深度学习原版笔记系列)目录4.4 目标检测YOLO-V3算法--主线二:卷积神经网络提取特征(百度架构师手把手带你零基础实践深度学习原版笔记系列)卷积神经网络提取特征根据输出特征图计算预测框位置和类别建立输出特征图与预测框之间的关联计算预测框是否包含物体的概率计算预测框位置坐标计算物体属于每个类别概率卷积神经网络提取特征在上一节图像分类的课程中,我们已经学习过..

2020-10-19 16:58:49 2082

原创 4.3 目标检测YOLO-V3算法--设计思想&主线一:产生候选区域(百度架构师手把手带你零基础实践深度学习原版笔记系列)

4.3 目标检测YOLO-V3算法--设计思想&主线一:产生候选区域(百度架构师手把手带你零基础实践深度学习原版笔记系列)目录4.3 目标检测YOLO-V3算法--设计思想&主线一:产生候选区域(百度架构师手把手带你零基础实践深度学习原版笔记系列)单阶段目标检测模型YOLO-V3YOLO-V3 模型设计思想产生候选区域生成锚框生成预测框对候选区域进行标注标注锚框的具体程序单阶段目标检测模型YOLO-V3R-CNN系列算法需要先产生候选区域,再.

2020-10-19 08:57:35 1998

原创 4.2 目标检测YOLO-V3算法--数据预处理&数据增广(百度架构师手把手带你零基础实践深度学习原版笔记系列)

4.2 目标检测YOLO-V3算法--数据预处理&数据增广(百度架构师手把手带你零基础实践深度学习原版笔记系列)目录4.2 目标检测YOLO-V3算法--数据预处理&数据增广(百度架构师手把手带你零基础实践深度学习原版笔记系列)数据预处理(数据增广目的)随机改变亮暗、对比度和颜色等随机填充随机裁剪随机缩放随机翻转随机打乱真实框排列顺序图像增广方法汇总批量数据读取与加速数据预处理(数据增广目的)在计算机视觉中,通常会对图像做一些随机的变.

2020-10-18 16:53:59 1799 1

原创 4.1 目标检测YOLO-V3算法--实验数据集介绍&数据处理(百度架构师手把手带你零基础实践深度学习原版笔记系列)

4.1 目标检测YOLO-V3算法--实验数据集介绍&数据处理(百度架构师手把手带你零基础实践深度学习原版笔记系列)目录4.1 目标检测YOLO-V3算法--实验数据集介绍&数据处理(百度架构师手把手带你零基础实践深度学习原版笔记系列)读取AI识虫数据集标注信息数据读取数据流动框图在本课程中,将使用百度与林业大学合作开发的林业病虫害防治项目中用到昆虫数据集。(本实验数据平台及数据集均由百度AISTUDIO提供,欢迎各位小伙伴前往体验)读取AI识虫数据集标.

2020-10-18 16:28:17 1025

原创 笔记收藏系列--5分钟学会Python Jupyter Notebook快捷键--最新简明版

Notebook快捷键 快捷键分成两种状态下的. 一个是命令模式, 一个是编辑模式, 掌握之后事半功倍.  不多说直接上快捷命令图:都是核心,超核心操作呀!!!博主就是拿来当笔记收藏哒,欢迎各位小伙伴收起来 (σ゚∀゚)σ…:☆...

2020-10-17 10:02:07 842

原创 3.10 图像分类领域经典模型-GoogLeNet(百度架构师手把手带你零基础实践深度学习原版笔记系列)

3.10图像分类领域经典模型-GoogLeNet(百度架构师手把手带你零基础实践深度学习原版笔记系列)GoogLeNetGoogLeNet是2014年ImageNet比赛的冠军,它的主要特点是网络不仅有深度,还在横向上具有“宽度”。由于图像信息在空间尺寸上的巨大差异,如何选择合适的卷积核来提取特征就显得比较困难了。空间分布范围更广的图像信息适合用较大的卷积核来提取其特征;而空间分布范围较小的图像信息则适合用较小的卷积核来提取其特征。为了解决这个问题,GoogLeNet提出了一种被称为Ince..

2020-10-14 20:53:33 273

原创 3.9 图像分类领域经典模型-VGG(百度架构师手把手带你零基础实践深度学习原版笔记系列)

3.9图像分类领域经典模型-AlexNet(百度架构师手把手带你零基础实践深度学习原版笔记系列)VGGVGG是当前最流行的CNN模型之一,2014年由Simonyan和Zisserman提出,其命名来源于论文作者所在的实验室Visual Geometry Group。AlexNet模型通过构造多层网络,取得了较好的效果,但是并没有给出深度神经网络设计的方向。VGG通过使用一系列大小为3x3的小尺寸卷积核和池化层构造深度卷积神经网络,并取得了较好的效果。VGG模型因为结构简单、应用性极强而广受..

2020-10-14 20:16:51 379 1

原创 3.8 图像分类领域经典模型-AlexNet(百度架构师手把手带你零基础实践深度学习原版笔记系列)

3.8图像分类领域经典模型-概述&LeNet(百度架构师手把手带你零基础实践深度学习原版笔记系列)AlexNet通过上面的实际训练可以看到,虽然LeNet在手写数字识别数据集上取得了很好的结果,但在更大的数据集上表现却并不好。自从1998年LeNet问世以来,接下来十几年的时间里,神经网络并没有在计算机视觉领域取得很好的结果,反而一度被其它算法所超越。原因主要有两方面,一是神经网络的计算比较复杂,对当时计算机的算力来说,训练神经网络是件非常耗时的事情;另一方面,当时还没有专门针...

2020-10-14 19:45:03 537

原创 3.7 图像分类领域经典模型-概述&LeNet(百度架构师手把手带你零基础实践深度学习原版笔记系列)

3.7 图像分类领域经典模型-概述&LeNet(百度架构师手把手带你零基础实践深度学习原版笔记系列)目录3.7 图像分类领域经典模型-概述&LeNet(百度架构师手把手带你零基础实践深度学习原版笔记系列)概述LeNetLeNet在手写数字识别上的应用LeNet在眼疾识别数据集iChallenge-PM上的应用数据集准备查看数据集图片定义数据读取器概述图像分类是根据图像的语义信息对不同类别图像进行区分,是计算机视觉的核心,是物体检测、图像分割、.

2020-10-14 18:43:50 823

原创 3.6 CNN卷积神经网络基础知识-丢弃Dropout(百度架构师手把手带你零基础实践深度学习原版笔记系列)

3.6CNN卷积神经网络基础知识-丢弃Dropout(百度架构师手把手带你零基础实践深度学习原版笔记系列)丢弃法(Dropout)丢弃法(Dropout)是深度学习中一种常用的抑制过拟合的方法,其做法是在神经网络学习过程中,随机删除一部分神经元。训练时,随机选出一部分神经元,将其输出设置为0,这些神经元将不对外传递信号。图16是Dropout示意图,左边是完整的神经网络,右边是应用了Dropout之后的网络结构。应用Dropout之后,会将标了×的神经元从网络中删除,让它们不向后面的层...

2020-10-14 16:18:34 1871

Ubuntu环境使用 Whisper 与 ZhipuAI 实现本地批量视频转录与文本标点复原(本地亲测可用)

Ubuntu环境使用 Whisper 与 ZhipuAI 实现本地批量视频转录与文本标点复原(本地亲测可用)

2024-10-12

基于Halcon的矿泉水瓶标签检测.zip

基于Halcon的矿泉水瓶标签检测的完整代码+图片资源。 可用自己通过标定板标定标签位置后完成几何校正,并检测出标签展示出来。 代码可直接运行,附带DAMO图片,带注释可自己调参。 基于标定法进行几何校正,存在10左右误差,可自己优化

2020-07-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除