
计算机视觉
文章平均质量分 91
人工智能-研究所
SCI/论文带读/本硕博毕业论文/中文核心期刊/EI会议/期刊/顶会发刊论文指导
文章相关资源可关注V.X【服务号】:AI技术星球 发送:211C 自取
展开
-
【计算机视觉】从AlexNet到Vision Transformer
在正文开始之前,先给大家带来一个超值福利!为了方便同学们快速开启人工智能学习计划,在学习过程中少走弯路用最快的效率入门Ai并开始实战项目。我们整理了近200个Ai实战案例和项目,这些并不是网上搜集来的,而是我们这五年线上线下教学所开发和积累的案例。-* 可以说都是反复迭代更新出来的,适合同学们来进行循序渐进的学习与练手。需要的扫码。原创 2025-05-16 21:12:00 · 814 阅读 · 0 评论 -
为什么大厂都看重Kaggle竞赛?一文带你准备Kaggle!
打开各大厂算法岗招聘页面,“” 的要求屡见不鲜。在科技行业,Kaggle 竞赛成绩已成为数据科学家和 AI 工程师求职时的 “硬通货”。谷歌、微软、Meta 等大厂在招聘数据相关岗位时,常将 Kaggle 排名、Kernel 质量、竞赛成果作为核心筛选标准。原创 2025-05-16 20:53:04 · 975 阅读 · 0 评论 -
面试官必问:一文读懂VGG、GoogleNet、ResNet到底是什么?
VGG(Visual Geometry Group)是由牛津大学视觉几何组提出的深度卷积神经网络,它在 2014 年的 ImageNet 大规模视觉识别挑战赛(ILSVRC)中取得了优异的成绩。VGG 的主要贡献在于证明了增加网络的深度可以显著提高模型的性能,其网络结构简单且规整,具有很强的可扩展性。GoogleNet(也称为 Inception 网络)是由 Google 团队在 2014 年提出的深度卷积神经网络,它在 ImageNet 挑战赛中夺冠。原创 2025-05-15 16:52:06 · 616 阅读 · 0 评论 -
研究生零基础,想学CV,机器学习正确学习路线是什么?
对于零基础的研究生而言,机器学习(ML)的学习需系统规划,结合数学基础、编程能力、经典算法、现代技术及学术研究逐步推进。以下是分阶段的学习路线,兼顾理论深度与实践应用:机器学习算法本质是什么?逼自己一周学完12大机器学习算法,人工智能系统的核心规则集!决策树、回归算法、聚类算法、神经网络。原创 2025-05-13 20:24:32 · 671 阅读 · 0 评论 -
研究生零基础,想学CV,计算机视觉正确学习路线是什么?
对于没有基础的研究生而言,计算机视觉(CV)的学习需系统规划,分阶段推进。以下是结合数学、编程、理论、实践的完整路线:从零到实战上岸AI算法工程师—机器学习、计算机视觉、深度学习、神经网络。原创 2025-05-13 20:13:33 · 894 阅读 · 0 评论 -
当Transformer遇到调优困境:工程师必备的模型性能提升路线图
本文探讨了机器学习项目中模型性能调优的系统方法论,强调了在超参数优化过程中探索与利用的平衡,以及参数间的关联性。文章提出了科学调优的四个关键步骤:目标定义、实验设计、结果分析和决策上线,并介绍了增量式演进策略和空间搜索的三维平衡方法。此外,文章还提供了训练曲线诊断法、方差分解模型和隔离图技术等结果验证工具,以及终局优化策略,包括验证集折叠技术、集成搜索策略和硬件感知优化。最后,文章提醒读者在调优前应确保数据清洗和模型框架选择等前期工作已完成,并提供了丰富的AI学习资源和论文指导服务。原创 2025-05-12 20:48:25 · 573 阅读 · 0 评论 -
毕设项目|基于OpenCV的疲劳检测
基于眼睛6个关键点的垂直和水平距离计算眼睛纵横比(Eye Aspect Ratio, EAR),公式为: EAR = \frac{||P2-P6|| ||P3-P5||}{2 \times ||P1-P4||}:利用OpenCV的solvePnP函数将3D人脸模型(预设的头部三维坐标)与检测到的2D关键点匹配,计算俯仰角(Pitch)、偏航角(Yaw)和滚转角(Roll):在标准测试集(如YawDD)中,EAR算法对闭眼检测准确率可达97.5%,结合头部姿态后综合准确率提升至98.3%原创 2025-04-24 14:11:25 · 587 阅读 · 0 评论 -
写论文为啥喜欢将YOLO作为第一学习目标
在学术论文中,YOLO(You Only Look Once)算法常被作为目标检测领域的“第一学习目标”,这一现象与其独特的设计理念、广泛的适用性以及学术界与工业界的双重认可密切相关。原创 2025-04-22 20:22:47 · 721 阅读 · 0 评论 -
Transformer必学哪些视觉?
ViT将输入图像分割为固定大小的16×16像素块(如224×224图像分为196个块),每个块展平后通过线性投影层(嵌入矩阵)转换为向量。例如,ViT的嵌入层将每个16×16×3的块转换为768维向量(以ViT-Base为例)。传统ViT为单一尺度特征,而PVT(Pyramid Vision Transformer)等模型构建多级金字塔特征,适配检测、分割等任务。总结来看,掌握ViT基础架构、自注意力机制及层次化改进是核心,同时需熟悉其在检测、分割等任务中的变体。原创 2025-04-19 11:57:11 · 789 阅读 · 0 评论