- 博客(581)
- 收藏
- 关注
原创 【图像处理基石】基于暗光图像恢复颜色有哪些难点?
暗光图像颜色恢复的核心难点在于“信息缺失下的噪声、颜色、细节协同优化”。现有算法通过传统物理模型与深度学习的结合,在中等暗光场景下实现了较好的颜色恢复,但在极端条件、泛化性、自然度等方面仍有不足。未来需从“物理约束+数据驱动”融合、轻量化模型设计、鲁棒评价指标构建等方向突破,实现更真实、高效的颜色恢复。
2025-07-28 17:44:41
1331
1
原创 【图像处理基石】如何入门ISP算法开发?
入门ISP(Image Signal Processor,图像信号处理)算法开发需要结合理论学习、实践操作和工程实现能力。,从简单模块入手,逐步构建完整的ISP流水线,并在实际项目中优化和验证算法效果。通过以上步骤,你可以逐步掌握ISP算法开发的核心技能。
2025-05-06 22:54:02
1200
1
原创 今天全网爆火的Manus到底是什么?Manus的功能与意义深度解析
Manus的爆火既反映了市场对AI Agent的期待,也暴露了技术炒作与真实能力之间的落差。对普通人而言,它是潜在的效率工具;对从业者,则是技术迭代与商业化的试验场。其长远意义在于推动AI从“辅助”走向“执行”,但需警惕过度营销对行业信誉的消耗。,而非仅提供建议或答案。该产品因宣称“知行合一”的能力(如自动生成PPT、分析股票、筛选简历等)迅速引发行业热议,甚至导致官网因流量激增崩溃,邀请码被炒至数万元。注册,但官方强调未开放付费渠道,二手平台的邀请码多为虚假信息。目前Manus处于内测阶段,需。
2025-03-06 20:57:21
4959
1
原创 2025年了,AI算法工程师的校招主要考察哪些内容?
结合大模型时代的技术趋势与计算机视觉(CV)算法岗的校招要求,校招考察要点呈现以下核心特征:编程与算法基础深度学习与CV专业知识项目与实战经验大模型核心技术前沿技术与创新思维工程与落地能力岗位类型差异行业招聘趋势技术准备简历与面试优化行业动态跟踪大模型时代下,CV算法岗校招呈现**“基础能力强化+技术边界扩展”**的双重特征:
2025-03-05 19:15:49
1689
原创 DeepSeek-R1技术革命:用强化学习重塑大语言模型的推理能力
DeepSeek-R1的成功验证了算法创新比算力堆砌更重要的技术哲学。通过GRPO算法与规则奖励系统的精妙设计,团队用1%的成本实现了顶尖性能,这为开源社区提供了可复现的技术范本。随着更多研究者加入这场推理能力的进化竞赛,我们正在见证AGI发展路径的根本性转向——从依赖人类标注的被动学习,走向自主探索的智能涌现时代。
2025-02-09 21:16:50
3431
1
原创 【图像处理与ISP技术】像素与图像数字化
数字图像技术能支撑医疗、交通、零售等复杂应用,核心在于两大基础:一是构成图像的最小单元 —— 像素,二是将现实场景转化为数字信号的图像数字化过程。像素决定图像的颗粒度,数字化则是连接现实与数字世界的桥梁,二者共同奠定了数字图像技术的基石。
2026-01-03 22:20:26
830
原创 【图像理解进阶】深入解析近似最近邻(ANN)搜索技术
ANN技术的本质:以极小精度损失换取海量高维数据的快速检索,解决了精确最近邻的“维度灾难”问题。技术路线:从早期树结构,到哈希、量化,再到现代图结构,最终走向混合方法,精度和速度持续提升。工具选择:入门用,工业级用FAISSScaNN,中小规模用Annoy,专注图方法用hnswlib。应用核心:所有需要“相似匹配”的高维数据场景,均离不开ANN技术的支撑。
2026-01-02 19:06:35
22
原创 【图像理解进阶】以图搜图技术深度分析
以图搜图技术的核心是基于内容的图像检索(Content-Based Image Retrieval, CBIR),它通过分析图像的视觉内容特征来实现图像的相似性匹配和检索。与传统的基于文本描述的图像检索不同,CBIR 直接从图像的底层视觉特征(如颜色、纹理、形状)和高层语义特征(如对象类别、场景理解)出发,实现了真正意义上的 “以图识图” 能力。该技术的发展历程可划分为三个重要阶段。
2026-01-02 18:25:45
114
原创 【图像处理基石】以图搜图的底层架构是怎样的?
以图搜图的底层是架构,核心流程为,支撑该流程的是一系列成熟算法,解决方案则围绕“精度-速度-成本”平衡进行工程落地。
2026-01-01 23:19:49
1116
原创 【图像处理基石】如何高质量地生成一张庆祝元旦的图片?
从算法工程师视角,高质量元旦图片生成的核心是“技术选型与场景匹配追求可控性、轻量性:选择OpenCV+PIL传统方案追求创意性、艺术感:选择Diffusers+Stable Diffusion AI方案高质量的本质:视觉风格统一(元旦主题色)、元素布局合理、细节无瑕疵、结果可复现。
2025-12-31 15:55:05
916
原创 【深度学习新浪潮】本地文档总结引擎部署全攻略(二):增量更新、自定义模板与实战汇报生成
基础系统的总结格式由固定,无法满足不同汇报场景(如周汇报、月汇报、项目总结)的需求。通过自定义Prompt模板,我们可以定义灵活的输出格式,支持模板变量(如文档名称、时间范围、汇报人)。在from llama_index . core . prompts import PromptTemplate from llama_index . core . query_engine import CustomQueryEngine # 定义常用汇报模板 REPORT_TEMPLATES = {
2025-12-31 15:46:29
146
原创 【深度学习新浪潮】本地文档总结引擎部署全攻略(一):SOTA方案调研与基础环境搭建
基于以上环境,我们使用LlamaIndex + Qwen-2-7B-Instruct-GPTQ构建一个最小可行的文档总结引擎。文档加载 → 索引构建 → 总结生成。创建目录,放入一份实际的工作文档,例如《XX项目周进度报告.pdf》,内容包含项目进度、已完成任务、存在问题、下一步计划。本文完成了本地文档总结引擎的方案调研与基础实现明确了核心组件选型:Qwen-2-7B-Instruct-GPTQ + LlamaIndex + Chroma搭建了可运行的本地环境,解决了模型下载与依赖配置问题。
2025-12-31 15:43:53
97
原创 【图像处理基石】2025年底了,深度学习图像处理的最佳实践是怎样的?
基于自定义数据集微调(仅展示核心流程,可直接扩展)import os# 自定义数据集类# 遍历数据集目录continue# 配置微调参数data_dir = "custom_dataset" # 自定义数据集目录(每个类别一个子文件夹)label2id = {"cat": 0, "dog": 1, "car": 2} # 替换为你的类别映射# 构建数据集和数据加载器# 微调模型(核心:冻结主干,训练分类头,降低计算量)# 开始微调。
2025-12-30 22:27:40
725
原创 【深度学习新浪潮】什么是AI原生云计算?
AI原生云计算(AI Native Cloud)是专为支持人工智能工作负载而设计和优化的云计算服务模式,核心是将AI技术深度融合到云服务的每一个层面,而非传统云服务对AI需求的简单适配。其本质是实现从“AI on Cloud”(AI运行在云上)到“Cloud for AI”(为AI量身打造的云)的范式跃迁。架构原生:从硬件选型、网络设计到软件栈开发,均以AI任务(训练/推理)为核心目标,而非通用计算场景。全栈协同:打破硬件、软件、平台、应用的层级壁垒,实现端到端的技术闭环优化。
2025-12-30 22:23:30
229
原创 【复杂网络分析】如何入门Louvain算法?
步骤1:构建自定义图(从边列表文件读取,或手动添加边)# 方式1:手动添加边# 方式2:从边列表文件读取(文件格式:每行两个节点ID,用空格分隔)# 步骤2:运行Louvain算法# 步骤3:可视化(同上述示例,此处省略重复代码)lenset。
2025-12-29 22:35:14
1383
原创 【图像处理基石】如何基于黑白图片恢复出色彩?
黑白照片承载着无数的时代记忆与珍贵瞬间,黑白照片上色(色彩恢复)也是计算机视觉领域经典的图像复原任务之一。从老照片修复、历史影像还原到日常图像美化,黑白转彩色的技术有着非常广泛的落地场景。将单通道的灰度图像[H,W],映射为三通道的RGB彩色图像[H,W,3]。灰度图像只保留了图像的亮度信息,丢失了色度、饱和度等色彩信息,而色彩恢复的核心就是通过算法为每个像素点合理的补充色彩信息。传统图像算法:基于人工设计的图像先验规则、色彩空间变换、像素映射实现上色,优点:原理简单、速度快、无训练成本、轻量化;
2025-12-29 22:31:59
749
原创 【图像处理基石】有哪些好用的图像去噪算法可以推荐一下么?
在计算机视觉、数字图像处理的项目中,图像去噪是永远绕不开的核心预处理步骤。我们采集到的图像,会因为传感器、光照、传输、拍摄设备等因素,不可避免的混入各类噪声,噪声会直接掩盖图像的有效特征,导致后续的分割、检测、识别、特征提取等任务精度大打折扣。在尽可能去除图像噪声的同时,保留图像的边缘、纹理、细节等有效信息,这也是衡量一个去噪算法好坏的核心标准。这篇博客面向算法入门者/图像处理新手,整理了工程中最常用、最好用、最易上手的图像去噪算法,从传统经典算法到进阶优化算法,再到入门级深度学习去噪算法,全部包含。
2025-12-28 16:27:26
782
原创 【深度学习新浪潮】Thor芯片在哪些计算领域有很强的技术优势?
英伟达Thor芯片(Jetson AGX Thor+DRIVE Thor双系列)作为Blackwell架构的旗舰级算力芯片,是目前物理AI+边缘异构计算领域的天花板级产品。不同于传统的算力芯片仅堆参数,Thor的核心竞争力是「算力规格+异构架构+场景化算力调度」的三重结合,其优势不是泛泛的“算力强”,而是在特定计算领域能把算力利用率、低延迟、多任务并行做到极致。很多技术文章聊Thor只讲参数和理论优势,少了落地的代码实践环节,这也是技术学习中最核心的痛点——
2025-12-28 16:20:12
150
原创 【图像处理基石】现代图像处理发端与物理关联算法详解:从原理到Python代码上手
现代图像处理(数字层面)的发端是1964年NASA JPL对月球探测器图像的数字处理,其核心标志是「图像数字化+计算机运算」;经典图像处理算法多与物理学深度绑定:傅里叶变换(波动光学)、高斯模糊(光的衍射/布朗运动)、维纳滤波(信号传输模型)、直方图均衡化(感光/视觉物理);物理原理是图像处理算法的底层逻辑,理解物理本质能帮助我们更灵活地调整算法参数、优化处理效果,而非机械调用API;
2025-12-27 16:35:10
86
原创 【图像处理基石】什么是光栅化?
光栅化的本质是「3D投影→图元转像素→着色+深度测试」,其核心价值在于极致的实时性,这是光线追踪难以替代的优势。3D顶点透视投影→三角形包围盒遍历→像素归属判断→颜色插值→深度测试。你可以在此基础上逐步迭代,最终实现支持复杂3D模型和逼真效果的实时渲染器。如果在扩展过程中遇到问题(如纹理映射错位、深度缓冲闪烁),欢迎在评论区交流~ 后续会更新“光栅化实现立方体”“GLSL着色器入门”等进阶内容,敬请关注!
2025-12-27 16:29:53
1182
原创 【图像处理基石】光线追踪(Ray Tracing)算法入门
光线追踪的本质的是「逆向追踪光线+几何交点计算+物理着色」,其入门门槛远低于想象——只要掌握“向量点积、归一化”两个核心数学工具,就能实现基础效果。相机发射光线→检测交点→计算光照→填充像素。你可以在此基础上逐步迭代,最终实现支持复杂材质和全局光照的渲染器。如果在扩展过程中遇到问题(如反射递归栈溢出、折射方向计算错误),欢迎在评论区交流~ 后续会更新“光线追踪+GPU加速”“路径追踪实现”等进阶内容,敬请关注!
2025-12-26 15:34:31
812
原创 【图像处理基石】图像处理领域还有哪些核心挑战与难题?
图像处理的挑战贯穿图像采集-预处理-特征提取-高层任务的全流程,核心矛盾在于图像质量退化、场景复杂度、计算资源约束、模型泛化能力四个方面。未来的发展方向将围绕鲁棒的低质量图像恢复算法、高效的轻量化模型、跨域泛化的通用特征提取、多模态融合技术展开,同时结合行业需求,解决特定领域的专属难题。
2025-12-26 15:21:40
1268
原创 【图像处理基石】什么是神经渲染?
在计算机图形学和计算机视觉的交叉领域,神经渲染(Neural Rendering)正成为最热门的研究方向之一。它打破了传统渲染依赖手工设计规则的局限,用神经网络学习从数据到图像的映射,让“AI画画”“数字人重建”“场景生成”等酷炫应用成为可能。本文将从入门视角讲解神经渲染的核心原理,并通过极简的代码实现一个基础的神经渲染器,让你快速上手这个前沿技术。神经渲染是结合神经网络和计算机图形学用神经网络替代/辅助传统渲染管线中的部分或全部模块。
2025-12-25 23:18:12
641
原创 【深度学习新浪潮】算力集群 / 智算中心的节点定义与规模解析
节点定义:集群的最小独立计算单元,具备完整的计算、存储、网络能力。节点分类:通用HPC集群包含计算、存储、管理、登录节点;智算中心核心是AI计算节点。节点规模:入门级节点适合小任务,中高端节点适合大模型训练和大规模计算,太空节点需满足特殊环境要求。关键指标:AI节点看加速卡数量和算力,HPC节点看CPU核心数和内存,太空节点看抗辐射和功耗。
2025-12-25 16:40:47
63
原创 【图像处理基石】VR的眩晕感是如何产生的?
VR眩晕感的核心是视觉-前庭系统的感官冲突,其解决需要硬件、软件、内容设计、用户适应的多领域协同。作为算法工程师,我们的核心目标是通过运动预测、视觉-前庭融合、动态参数调整、个性化适配和端侧优化,最大化视觉-前庭信号的同步性,降低眩晕感。脑机接口:直接读取大脑的前庭信号,实现视觉与前庭信号的精准同步;数字孪生:构建用户的数字孪生模型,实现个性化的实时优化;多模态融合:结合触觉、嗅觉等多模态信息,进一步提升沉浸感,减少眩晕感。
2025-12-25 16:37:20
1076
原创 【3D技术研究】2025 VR技术全景:核心突破、旗舰产品与行业落地新趋势
2025年VR产业完成了从技术积累到规模化发展的关键跨越:硬件端实现轻量化与高清化的双重突破,Micro-OLED与薄饼光学技术走向成熟;生态端AI+MR重构了内容生产与交互逻辑,Android XR系统打通跨平台壁垒;应用端从消费娱乐延伸至工业、医疗、低空经济等核心领域,产业价值全面释放。当前产业仍面临部分挑战:消费级设备的电池续航、中型开发者的盈利难题、内容生态与硬件发展的失衡等问题尚未完全解决。
2025-12-25 16:28:31
728
原创 【大模型技术研究】SGLang入门指南:高效大模型推理与编程的利器(附实战代码)
SGLang通过模板化提示原生对话管理高效推理引擎和便捷工具调用,为大模型应用开发提供了全新的解决方案。它不仅降低了开发门槛,还在高性能计算场景下展现出显著的性能优势,尤其适合需要处理高并发、复杂提示的大模型应用。随着大模型技术的发展,SGLang的生态也在不断完善,未来将支持更多模型架构和更丰富的工具链集成。如果你正在开发大模型应用,不妨尝试一下SGLang,它可能会成为你提升开发效率的利器。
2025-12-24 23:07:34
206
原创 【复杂网络分析】圣诞背后的算法魔力:4个复杂网络算法(附硬核细节+可运行代码)
孩子集合Cc1c2cnCc1c2...cn,礼物集合Gg1g2gmGg1g2...gm偏好矩阵P∈Rn×mP∈Rn×mPijP_{ij}Pij表示孩子cic_ici对礼物gjg_jgj的偏好值(1-10分,越高越喜欢)分配矩阵X∈01n×mX∈01n×mXij1X_{ij}=1Xij1表示礼物gjg_jgj。
2025-12-24 23:00:25
664
原创 【图像处理基石】[特殊字符]圣诞特辑:10+经典图像处理算法,让你的图片充满节日氛围感!
圣诞季的数字世界总需要点“仪式感”——给照片加飘雪、识别圣诞树、给亲友头像P圣诞帽、把普通场景换成圣诞风…这些看似“一键生成”的效果,背后其实藏着满满的图像处理算法智慧。作为程序员,与其用现成的滤镜APP,不如亲手实现这些圣诞特效!本文从传统计算机视觉(CV)到现代AI算法,拆解10+圣诞主题图像处理算法,附可直接运行的代码片段,新手也能快速上手,让你的圣诞图片自带技术buff✨。快速上手:用OpenCV实现雪花、灯光检测、圣诞帽合成,5分钟出效果;
2025-12-24 22:52:46
1250
原创 【python与生活】从手机定位到车辆导航:GPS定位算法原理与Python实现
GPS定位的核心是“通过4颗卫星的伪距解算三维坐标+时间偏差”,本质是解非线性方程组的数学问题。本文用Python实现了核心算法,模拟了从卫星信号到接收机定位的全过程,也解释了其在手机、车辆导航等生活场景的应用。理解GPS定位原理,不仅能帮我们搞懂日常工具的底层逻辑,也能为开发定位相关应用(如轨迹分析、位置服务)打下基础。如果需要更高精度的定位,可结合北斗卫星、AGPS、RTK等技术,核心算法仍基于本文的牛顿-拉夫逊迭代框架。
2025-12-23 19:09:03
1204
原创 【深度学习新浪潮】什么是robotaxi?
Robotaxi的核心算法栈是一个复杂的系统工程,涉及感知、定位、规划、控制等多个环节。端到端学习:从感知到控制的端到端模型,将简化算法栈,提高系统效率。多智能体协同:Robotaxi之间的协同规划,将提高交通效率。轻量化算法:适用于低成本硬件的轻量化算法,将推动Robotaxi的规模化落地。尽管Robotaxi的落地还面临法规、成本、安全等挑战,但随着算法技术的不断进步和工程化能力的提升,Robotaxi有望在未来5-10年内实现规模化运营,成为城市交通的重要组成部分。
2025-12-23 19:03:41
131
原创 【图像处理基石】图像梯度:核心算法原理与经典应用场景全解析
图像梯度是图像处理的核心概念,其应用贯穿于从基础到高级的各个视觉任务。本文从数学本质出发,解析了5种经典梯度计算算法的原理与对比,结合5个经典应用场景展开分析,并提供了可直接运行的Python代码实现。
2025-12-22 11:39:01
1412
原创 【大模型技术研究】可以把一台8卡的H100服务器和一台8卡的H200服务器组成一个集群用于大模型的全量训练么?
H100+H200异构集群并非简单的硬件拼接,而是通过“架构兼容+并行策略优化+负载均衡”实现1+1>2的效果。核心在于抓住“统一软件环境、适配并行策略、监控调优闭环”三大关键点,就能以更低成本完成中大规模大模型全量训练。
2025-12-22 11:29:01
164
原创 【AI智能体技术】过去一年AI智能体研发进展与产品盘点:从技术突破到规模化落地
过去一年,AI智能体完成了从技术概念到产业实践的关键跨越。随着开发工具链的成熟与应用成本的降低,智能体正从“高端配置”变为“基础工具”,重塑组织协作与个人生活的核心逻辑。未来,随着轻量化、可信化技术的演进,AI智能体将实现更广泛的普及,成为数字经济增长的核心引擎。这一年,智能体技术实现了架构范式、核心能力与落地场景的三重突破,不仅诞生了神经符号融合、多智能体协同协议等底层创新,更涌现出一批覆盖企业级、个人终端、垂直行业的标杆产品,推动人机协作进入“目标设定-自主执行”的全新阶段。
2025-12-21 16:17:04
683
原创 【深度学习新浪潮】近三年大模型信息论研究进展:从理论解释到技术落地
从实现模型参数的极致压缩,到保障多模态融合的可解释性,再到提升安全对齐的精准度,信息论正成为大模型从“经验驱动”向“理论驱动”转型的核心引擎。尽管当前仍面临语义量化、效率平衡等挑战,但随着信息论与统计物理、因果推理等学科的深度交叉,未来必将推动大模型在泛化能力、部署效率与安全可靠性上实现更大突破,为AGI的发展奠定坚实基础。从模型能力涌现的底层解释到实际部署的效率优化,信息论为大模型研究提供了全新的理论视角与技术路径,推动领域从经验驱动向理论驱动转型。
2025-12-21 16:11:22
147
1
原创 【AI算法工程师必知必会】用爷爷奶奶都能懂的话,讲透强化学习的PPO、DPO、GRPO
PPO:强化学习的“通用解”,稳定、易实现,适合单任务场景。DPO:大模型对齐的“新宠”,步骤简单、样本效率高,适合需要对齐人类偏好的场景。GRPO:多任务学习的“利器”,在PPO的基础上加入正则化,防止遗忘旧技能。强化学习的算法更新很快,但核心逻辑始终不变——让智能体通过反馈学习最优策略。PPO、DPO、GRPO这三种算法,分别从“稳定性”“对齐效率”“多任务学习”三个角度解决了强化学习的关键问题。希望这篇文章能帮助大家用通俗的方式理解这三种算法,同时也能掌握它们的技术细节和代码实现。
2025-12-20 21:24:53
826
原创 【深度学习新浪潮】对称性:从数学本质到大模型训练与推理的效率革命
对称性的本质是变换下的不变性。即一个系统在某种操作(变换)后,其核心性质保持不变。这一概念最早源于几何学,后被推广到代数、物理等领域,最终成为人工智能研究的重要理论工具。对称性作为贯穿数学、物理与AI的核心概念,在大模型研究中具有不可替代的价值。从几何对称到语义对称,从代数对称到结构对称,对称性的利用贯穿了大模型的架构设计、训练优化、泛化提升与推理加速全流程。对称性能有效降低训练成本(数据增强、分布式训练);对称性能提升模型泛化能力(不变性学习、对称正则化);
2025-12-20 21:14:59
157
原创 【复杂网络分析】什么是图神经网络?
图(Graph)是由节点(Node)和边(Edge)组成的一种数据结构,用于描述事物之间的关联关系,数学表示为GVEG = (V, E)GVEVVV:节点集合(比如社交网络中的用户、分子中的原子);EEE:边集合(比如用户之间的好友关系、原子之间的化学键)。为了让图包含更多信息,实际应用中会给节点或边赋予属性(Feature),这类图称为属性图。社交网络中,节点属性可以是用户的年龄、性别、兴趣标签;交通网络中,边属性可以是道路的长度、通行速度。
2025-12-19 23:10:22
759
原创 【图像处理基石】如何进行色彩还原?
有没有过这样的经历?在餐厅灯光下拍的美食偏黄,阴天户外拍的风景发灰,网购的衣服图片是温柔奶茶色,收到货却偏橘调?这些都是色彩失真在搞鬼!色彩还原技术就是为了解决这些问题,它能消除设备、光照等因素带来的颜色偏差,让图像还原真实模样。不管是日常拍照、老照片修复,还是设计印刷、街头艺术创作,都离不开它的助力。本文将用通俗的语言讲解主流色彩还原算法,搭配可直接运行的Python代码,让你轻松上手实操。
2025-12-19 22:59:55
1127
原创 【大模型技术研究】什么是稀疏注意力机制?
AttentionQKVSoftmaxQKTdkVAttentionQKVSoftmaxdkQKTV,其中注意力权重矩阵A∈Rn×nA∈Rn×n是稠密的;QKVSoftmaxQKT⊙MdkVQKVSoftmaxdkQKT⊙MV,其中M∈01n×nM∈01n×n是稀疏掩码矩阵,⊙\odot⊙为哈达玛积,Mij0M_{i,j}=0Mi。
2025-12-18 14:05:21
44
机器学习与模式识别领域的PRML习题解析手册
2025-03-10
在TensorFlow中将预训练好的模型转换成tflite格式模型的python代码实现
2025-03-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅