- 博客(136)
- 收藏
- 关注

原创 【图像处理基石】如何入门ISP算法开发?
入门ISP(Image Signal Processor,图像信号处理)算法开发需要结合理论学习、实践操作和工程实现能力。,从简单模块入手,逐步构建完整的ISP流水线,并在实际项目中优化和验证算法效果。通过以上步骤,你可以逐步掌握ISP算法开发的核心技能。
2025-05-06 22:54:02
856

原创 【AI产品】Manus,启动!
后面还会继续分享更多的试用体验,也欢迎大家一起加入探索,把这个工具用得更好~如果你有有关AI生产力工具的好点子也可以联系我,我们一起讨论,为社区做出贡献。科学之后就可以注册了。注册后,我先在手机上玩了一把。这样那样,跟之前yxh上写的挺相似的。大概十几分钟后,真的给我产出了一份报告!但是这么几大段就这么一条注释,我也是很费解啊!Try了第一步,就需要科学上网,因为国内呢,是跟千问合作的,现在还不能用。打开了一看,内容还真的很像那么回事的!所以我火速让manus增加了一下注释,出了个新版。
2025-04-12 11:25:39
204

原创 今天全网爆火的Manus到底是什么?Manus的功能与意义深度解析
Manus的爆火既反映了市场对AI Agent的期待,也暴露了技术炒作与真实能力之间的落差。对普通人而言,它是潜在的效率工具;对从业者,则是技术迭代与商业化的试验场。其长远意义在于推动AI从“辅助”走向“执行”,但需警惕过度营销对行业信誉的消耗。,而非仅提供建议或答案。该产品因宣称“知行合一”的能力(如自动生成PPT、分析股票、筛选简历等)迅速引发行业热议,甚至导致官网因流量激增崩溃,邀请码被炒至数万元。注册,但官方强调未开放付费渠道,二手平台的邀请码多为虚假信息。目前Manus处于内测阶段,需。
2025-03-06 20:57:21
4293
1

原创 2025年了,AI算法工程师的校招主要考察哪些内容?
结合大模型时代的技术趋势与计算机视觉(CV)算法岗的校招要求,校招考察要点呈现以下核心特征:编程与算法基础深度学习与CV专业知识项目与实战经验大模型核心技术前沿技术与创新思维工程与落地能力岗位类型差异行业招聘趋势技术准备简历与面试优化行业动态跟踪大模型时代下,CV算法岗校招呈现**“基础能力强化+技术边界扩展”**的双重特征:
2025-03-05 19:15:49
1306

原创 DeepSeek-R1技术革命:用强化学习重塑大语言模型的推理能力
DeepSeek-R1的成功验证了算法创新比算力堆砌更重要的技术哲学。通过GRPO算法与规则奖励系统的精妙设计,团队用1%的成本实现了顶尖性能,这为开源社区提供了可复现的技术范本。随着更多研究者加入这场推理能力的进化竞赛,我们正在见证AGI发展路径的根本性转向——从依赖人类标注的被动学习,走向自主探索的智能涌现时代。
2025-02-09 21:16:50
3009
1
原创 【深度学习新浪潮】智能追焦技术全解析:从算法到设备应用
智能追焦是基于人工智能和自动化技术的对焦功能,通过深度学习算法识别并持续跟踪移动物体(如人、动物、运动器械等),实时调整焦距以保持主体清晰,显著提升动态场景拍摄成功率。:搭载 BIONZ XR 芯片,集成 TransTrack 类算法,0.03 秒超高速对焦,通过卡尔曼滤波预测高速运动轨迹,适合体育摄影。:结合激光雷达(如荣耀 Magic7 的 1200 点激光对焦)与视觉算法,实现毫米级对焦精度,解决低纹理场景(如白墙前的人物)追焦难题。实际应用:可连接镜头控制模块(如步进电机 API),通过。
2025-05-09 23:07:47
91
原创 【深度学习新浪潮】苹果在显示算法技术上的研发进展调研
苹果在显示算法技术研发上展现出三大趋势:AI深度整合、多模态环境感知以及软硬件协同优化。具体技术包括ProMotion动态刷新率与功耗管理、True Tone环境感知与色彩校准、HDR画质增强、AR/VR显示与实时校准等。苹果通过AI算法、传感器和芯片的深度耦合,实现了屏幕显示的精准控制和高效能效管理。未来,苹果将继续在Micro LED和AR/VR领域突破,推动显示技术的进一步发展。建议关注苹果的专利布局和行业展会,以把握技术前沿动态。
2025-05-09 22:48:48
305
原创 【深度学习新浪潮】以OpenAI以30亿美金收购Windsurf为例,观察AI对于IT行业的影响
AI技术的渗透加速了IT行业的“马太效应”。此外,AI代理(AI Agents)的兴起正在重塑企业服务模式,从传统的“软件即服务”(SaaS)向“自主决策即服务”演进。OpenAI以30亿美元收购AI编程助手开发商Windsurf(原Codeium)的交易,不仅是其史上最大规模的并购动作,也标志着AI对IT行业的深度重构已进入加速阶段。在这场变革中,程序员的角色将经历从“手工业者”到“设计师”的蜕变——那些能够驾驭AI工具、理解复杂系统、并在伦理与创新间找到平衡点的开发者,将成为新时代的技术中坚。
2025-05-06 23:04:50
22
原创 【深度学习新浪潮】小米MiMo-7B报告内容浅析
该报告介绍了专为推理任务设计的大语言模型MiMo-7B,其在预训练阶段通过优化数据预处理、采用三阶段数据混合策略(处理约25万亿token)和引入MultiToken Prediction(MTP)目标提升推理潜力;后训练阶段构建13万可验证数学和编程问题数据集,结合测试难度驱动奖励机制和数据重采样策略进行强化学习(RL)。实验表明,超越同规模模型,MiMo-7B-RL。
2025-05-01 23:38:12
644
原创 【深度学习新浪潮】ISP芯片算法技术简介及关键技术分析
ISP(Image Signal Processor)芯片作为现代影像系统的核心组件,负责对图像传感器输出的原始信号进行后期处理。ISP的主要功能包括线性纠正、噪声去除、坏点修复、色彩校正以及白平衡调整等,这些处理步骤对于提高图像质量和视觉效果至关重要。随着科技的进步,ISP芯片不仅提升了图像的清晰度和色彩准确性,还通过高效的算法增强了拍摄体验,尤其是在低光环境下的表现。
2025-04-29 22:47:05
743
原创 【AI生产力工具】Windsurf,一款AI编程工具
其深度集成的智能体系统(如 Flows 和 Cascade)正在重新定义开发者与 AI 的协作方式。无论是个人开发者追求效率,还是企业需要安全可控的 AI 解决方案,Windsurf 均提供了差异化的选择。随着 OpenAI 收购传闻的发酵,未来其功能可能进一步与大模型生态整合,值得持续关注。,它是一款集成深度上下文感知、多模型协作和实时代码管理的综合开发环境(IDE)。Windsurf 作为 AI 编程工具的核心价值在于。
2025-04-28 17:08:00
680
原创 【深度学习新浪潮】新视角生成的研究进展调研报告(2025年4月)
新视角生成领域正从学术研究向产业落地加速渗透,扩散模型、轻量化渲染和动态场景处理成为三大技术主线。未来,随着多模态融合、自监督学习和硬件加速的进一步突破,该技术将在元宇宙、自动驾驶、影视制作等领域释放更大潜力。
2025-04-22 22:30:05
301
原创 【LLM量化压缩】什么是1.58bit压缩?
1.58 Bit”不仅是一个技术指标,更是LLM轻量化的里程碑。它通过三值量化打破了传统低位宽量化的性能瓶颈,为大模型在边缘设备、移动端的部署提供了新范式。尽管当前仍面临硬件适配和训练复杂度的挑战,但随着专用芯片和开源工具的发展,1.58-bit LLM有望成为未来AI部署的主流选择。
2025-04-21 16:05:47
250
原创 【杂谈】怎么选择openAI的模型以实现投入产出比最大化?
众所周知,openAI最近一天一个模型的,实在不知道咋选了,每次打开console我的感觉就如下图所示↓所以今天我总结一下他家各个模型的特点和优势场景,方便大家选择。你需结合任务需求、性能、成本和场景特性进行综合权衡。
2025-04-21 12:01:15
102
原创 【图像处理基石】什么是去马赛克算法?
速度优先:双线性插值(实时预览)、VNG(早期手机)。画质优先:深度学习算法(现代旗舰相机/手机)、Malvar算法(专业RAW处理软件)。平衡方案:方向插值、Hirakawa算法(中等计算量,较好抑制伪色)。Demosaic算法是连接传感器原始数据与全彩图像的桥梁,其核心是通过插值策略智能填充缺失的颜色通道。从简单的双线性插值到复杂的深度学习模型,算法的选择需平衡图像质量、计算效率和硬件适配,是成像系统(如相机、手机)画质优化的核心技术之一。
2025-04-20 11:59:53
1913
原创 vivo X200 Ultra前瞻系列(3):什么是经典负片风格?
早期探索:摄影术诞生于19世纪,早期的摄影方法如达盖尔银版法等,虽然能够记录影像,但存在诸多局限,如影像不可复制、拍摄成本高昂等。1839年,英国发明家塔尔博特发明了卡罗式摄影法,这是一种基于纸质底片的摄影方法,被认为是负片摄影的早期雏形。卡罗式摄影法的底片是一张经过碘化银处理的纸,曝光后通过显影和定影处理,得到一张负像,然后可以通过接触印相的方法制作出正像照片。这种方法的出现,为后来负片技术的发展奠定了基础。胶片时代的辉煌:19世纪后期,随着明胶干版技术的发明,负片摄影得到了极大的发展。
2025-04-18 09:33:18
474
原创 vivo X200 Ultra前瞻系列(2):vivo X200 Ultra影像技术沟通会总结
vivo于今日(2025年4月14日)举办的“X系列蓝图影像技术沟通会”中,正式发布了。,展示了其在移动影像领域的多项技术突破。(注:以上参数基于2025年4月发布信息,实际以官方为准。
2025-04-14 22:24:03
487
原创 【图像处理基石】什么是通透感?
画面的通透感指图像在色彩鲜明度、空间层次感、物体轮廓清晰度色彩鲜明:颜色纯净且饱和度适中,无灰暗或浑浊感;层次分明:明暗过渡自然,光影对比合理,空间纵深感强;轮廓清晰:物体边缘锐利,细节保留完整,无模糊或雾化现象。
2025-04-13 22:25:11
789
原创 【Grok 大模型深度解析】第二期:架构探秘与训练哲学
在大规模模型训练中,传统的分布式训练框架面临着诸多挑战。随着模型参数规模的增大和数据量的爆炸式增长,数据并行和模型并行的协调变得极为复杂。在数据并行模式下,不同计算节点之间需要频繁地同步梯度信息,这会导致网络通信开销大幅增加,成为训练效率的瓶颈。而在模型并行模式下,如何合理地将模型的不同部分分配到不同的计算节点上,以充分利用每个节点的计算资源,同时避免节点之间的负载不均衡,是一个非常棘手的问题。为了解决这些问题,Grok 团队自研了基于 JAX + Rust 的自定义训练框架。
2025-04-11 21:21:13
333
原创 【Grok 大模型深度解析】第一期:技术溯源与核心突破
Grok大模型通过混合架构、思维链推理和实时联网能力,重新定义了AI的边界。对于开发者,可基于Grok-1进行行业定制;企业用户可接入Grok-3 API提升服务效率;学术研究者可关注其开源生态的技术演进。未来,Grok有望在AGI探索中扮演关键角色,同时也需应对伦理、监管等挑战。建议持续关注xAI的技术动态,参与开源社区贡献,共同推动AI技术的普惠与安全发展。
2025-04-10 22:38:59
241
原创 【图像处理基石】什么是影调?并用python实现一个哈苏色彩影调
影调指画面中明暗、虚实、色彩的层次与对比关系,通过这些元素的组合形成光的流动感、空间感及氛围,直接影响作品的视觉情绪。影调是摄影语言的核心,通过控制明暗、虚实与色彩,可精准传达创作意图。实际选择需结合主题情感、光线条件及画面结构,灵活运用高调、低调或冷暖色调,以强化视觉表现力。根据哈苏影调的核心特点(自然色彩、细腻的层次感和动态范围),可通过Python结合色彩空间转换、LUT映射和曲线调整实现类似效果。如需更精确的模拟,建议结合哈苏官方HSP色彩文件(需授权)或分析实际样张生成LUT。
2025-04-10 14:42:08
1403
2
原创 【深度学习新浪潮】deepseek和llama系列模型的技术路线有什么异同?
未来,两者可能进一步融合技术路线:DeepSeek或加强多模态能力,LLaMA可能借鉴低精度训练等优化手段。开发者可根据具体需求选择模型——追求极致效率选DeepSeek,需要多模态通用性则选LLaMA。DeepSeek和LLaMA系列作为当前主流的开源大模型,在技术路线上既有共性也有显著差异。
2025-04-09 22:07:05
139
原创 vivo X200 Ultra前瞻系列(1):重塑影像旗舰标准
在色彩风格化、视频专业度上实现了安卓阵营的突破性进步。其2亿像素长焦、双LYT-818传感器及5轴防抖技术,对追求个性化创作的用户具有强吸引力。若真机表现能兑现硬件承诺,X200 Ultra有望重新定义手机影像的“专业”标准。然而,其厚重设计、价格门槛及生态适配问题,仍需市场检验。vivo X200 Ultra作为2025年上半年影像旗舰,以“全焦段夜视仪+电影级视频”为核心卖点,主打。,对标小米15 Ultra、OPPO Find X8 Ultra等竞品。,顶配版(24GB+2TB)逼近万元。
2025-04-08 21:41:22
625
原创 【图像处理基石】什么是ISP色彩管理?
在ISP(Image Signal Processor,图像信号处理器)管线中,色彩管理是图像处理流程的核心环节,主要负责从传感器原始数据(RAW)到最终输出图像(如YUV、RGB或JPEG)的色彩转换、校正和优化。ISP中的色彩管理直接影响成像质量,包括颜色准确性、动态范围、白平衡、色调和饱和度等。ISP管线中的色彩管理是成像质量的核心,涉及从RAW数据到输出图像的全链路处理。随着计算摄影(如多帧融合、AI调色)的发展,色彩管理正从传统标定方法转向动态、智能化的解决方案,以满足不同场景和用户需求。
2025-04-07 23:38:23
1211
原创 【图像处理基石】什么是自动曝光(AE)?
自动曝光(Auto Exposure, AE)是一种通过调整相机参数(如曝光时间、增益、光圈等)使图像亮度达到目标值的技术。其核心是通过实时分析图像亮度,动态优化参数以保证成像质量。AI AE算法已从规则驱动转向数据驱动,通过深度学习、强化学习等技术显著提升了复杂场景的适应性。未来研究将聚焦于轻量化部署、跨模态协同和硬件-算法联合优化,推动AE在自动驾驶、工业检测等领域的应用。
2025-04-06 21:13:32
1123
原创 【深度学习新浪潮】视觉与多模态大模型文字生成技术研究进展与产品实践
视觉与多模态大模型在文字生成领域已从单一模态向深度融合演进,通过架构创新与领域优化逐步解决传统效果问题。产品层面,工具链的完善(如DeepSeek、CogView4)显著提升了内容生产效率,而GPT-4o的突破性表现进一步推动了行业变革。未来,跨模态推理、轻量化部署及多模态交互将成为技术突破的核心方向,同时需平衡伦理合规与技术创新。
2025-04-05 22:01:25
287
原创 【图像处理基石】什么是neural style transfer?
神经风格迁移(Neural Style Transfer)是一种利用深度学习技术将一幅图像的风格(如笔触、色彩、纹理等)与另一幅图像的内容(如物体、场景结构)结合的方法。其核心思想是通过神经网络分离并重组图像的内容和风格信息,生成具有新视觉效果的艺术化图像。
2025-04-04 21:02:09
1216
原创 【5分钟论文阅读】InstructRestore论文解读
本文提出InstructRestore框架,用于实现基于人类指令的区域定制化图像恢复。针对现有方法缺乏区域定制恢复能力的问题,开发数据生成引擎构建536,945个三元组的数据集,设计类似ControlNet的模型。该模型能识别目标区域并分配不同整合尺度,实验表明InstructRestore可有效按指令恢复图像,如实现背景虚化和局部增强效果,但存在实例级对象指定支持不足、指令模板固定等局限研究背景:图像恢复是计算机视觉的基础问题,基于深度学习的判别式模型和生成对抗网络模型存在过度平滑或引入视觉伪影的问题。
2025-04-03 23:01:25
380
1
原创 【图像处理基石】什么是tone mapping?
Tone mapping(色调映射)是一种用于将高动态范围(HDR)图像的颜色值映射到低动态范围(LDR)的技术,目的是使图像能够在有限动态范围的显示设备(如屏幕、打印机等)上呈现,同时尽可能保留视觉细节和自然观感。动态范围压缩现实世界的亮度范围(HDR)远超普通显示器或相纸的显示能力。例如,人眼可感知的亮度范围可达10^14:1,而普通LCD显示器仅为约1000:1。Tone mapping通过算法压缩HDR数据,使其适应设备的显示限制。视觉效果优化。
2025-04-03 22:07:20
1218
原创 【图像处理基石】什么是RAW格式?
因为RAW保留了原始数据,摄影师可以在后期通过软件(如Adobe Lightroom、Capture One)调整白平衡、曝光度、对比度、饱和度等参数,甚至在过曝或欠曝的情况下恢复细节。RAW文件直接记录了相机传感器(如CMOS或CCD)捕捉到的每个像素的原始光强度和色彩信息,未经过相机内部的自动处理(如白平衡、锐化、降噪、色彩优化等)。不同相机厂商的RAW格式(如Canon的CR2/CR3、Nikon的NEF、Sony的ARW等)可能需要特定软件支持,或通过转换为通用格式(如DNG)。
2025-04-02 22:07:59
1796
原创 【深度学习新浪潮】DeepSeek近期的技术进展及未来动向
DeepSeek近期以模型性能突破和开源策略为核心,在技术架构、成本控制及行业应用上取得显著进展。未来将聚焦模型迭代(如R2、V4)、算力生态协同和多场景深化(如AI眼镜、储能),同时应对实时信息处理和多模态能力的技术挑战。其全球化布局和技术标准化努力,将进一步巩固其在AI领域的竞争力。
2025-04-02 21:56:53
443
原创 【深度学习新浪潮】AIOS的研发进展与未来展望
AIOS(Artificial Intelligence Operating System,人工智能操作系统)是一种深度融合人工智能技术的操作系统,其核心目标是通过集成大语言模型(LLM)、机器学习、自然语言处理(NLP)、计算机视觉(CV)等AI能力,实现设备智能化、服务个性化和生态互联化。与传统操作系统不同,AIOS不仅负责硬件资源管理,更强调通过AI技术主动理解用户需求、优化任务执行,并在多设备间形成协同智能。:蔚来自研芯片“神玑NX9031”算力更高,英伟达新一代芯片即将上车,小鹏需加速技术迭代。
2025-04-01 21:25:04
552
原创 【深度学习新浪潮】Grok过去两周的进展一览(2025.04.01)
Grok的发展路径呈现“技术突破驱动应用落地”的特点,通过多模态、大算力、开源化构建核心竞争力,同时在伦理与商业化之间寻求平衡。未来,其可能成为覆盖消费级交互、企业级解决方案及垂直领域深度应用的综合AI平台。总体来看,Grok 3的发布标志着xAI在模型性能、应用场景和商业化策略上的重大突破,同时也加剧了AI领域的竞争与伦理讨论。通过上述技术路径,Grok旨在实现从通用语言理解到跨领域复杂推理的全面突破,成为兼具性能与可靠性的AI推理引擎。
2025-04-01 09:23:52
336
原创 【深度学习新浪潮】什么是推理模型?
推理模型(Reasoning Model)定义推理模型通常指专门用于处理逻辑推理、因果推断、数学计算或常识推理任务的模型。这类模型可以是基于符号逻辑(如专家系统)、概率图模型(如贝叶斯网络),或是结合深度学习的混合模型(如神经符号系统)。典型任务数学题求解(如“3+5=?”)、逻辑谜题(如数独)、因果推理(如“如果下雨,地面会湿吗?”)等。GPT是通用语言模型,擅长文本生成与上下文理解,但可能缺乏严格推理能力。推理模型专注特定任务,准确性更高,但依赖标注数据和领域知识。趋势。
2025-03-31 12:38:54
192
原创 【深度学习新浪潮】什么是最近大火的vibe coding?
Vibe Coding是一种依赖人工智能的编程范式,开发者通过自然语言描述需求(如功能、逻辑或目标),由大型语言模型(LLM)自动生成代码,全程无需手动编写代码。例如,开发者只需说“创建一个电商网站的购物车功能”,AI即可生成对应代码。主要好处降低编程门槛:无需掌握具体编程语言,普通人也能通过自然语言开发软件,实现“全民编程”。提升效率:复杂功能可通过AI快速生成,减少重复性编码工作。支持创新:开发者可专注于创意设计,AI处理技术细节,例如通过语音指令直接生成代码。潜在问题代码质量与可维护性。
2025-03-30 17:22:41
430
原创 【深度学习新浪潮】具身智能及其发展前景分析
具身智能(Embodied Intelligence)是指通过物理载体(如机器人)与环境实时交互,实现感知、决策与行动闭环的智能系统。其核心在于将人工智能与物理实体结合,强调“智能源于身体与环境的互动”,而非仅依赖虚拟算法。具身智能的典型特征包括多模态感知(视觉、触觉、听觉等)、自主决策能力(如基于大语言模型的自然语言指令解析)以及自学习能力(通过数据迭代优化任务执行)。具身智能正从实验室迈向规模化商用,国内厂商在政策支持与技术追赶中展现强劲潜力。
2025-03-29 20:38:46
238
原创 【图像处理基石】什么是refocus?
Refocus(重新对焦)是一种通过算法调整图像或视频焦点的技术,允许用户在拍摄后选择焦点,实现类似光场相机的“先拍照后对焦”效果。其核心是通过多视角信息或深度估计,生成不同焦平面的图像,并模拟浅景深(如背景虚化)。通过结合硬件创新与算法优化,手机 Refocus 技术正逐步逼近单反级虚化效果,成为移动端影像的核心竞争力之一。
2025-03-29 16:32:28
1098
原创 【图像处理基石】什么是joint demosaicking and denoising算法?
Joint Demosaicking and Denoising 通过统一框架处理颜色重建和噪声抑制,在提升图像质量的同时减少传统分步处理的缺陷。随着深度学习的发展,端到端模型在复杂场景下展现出显著优势,但如何平衡效率、鲁棒性和细节保留仍是研究热点。Demosaicking 通过插值算法,从不完整的颜色信息中重建每个像素的完整 RGB 值,生成全彩色图像。是一种结合了去马赛克(Demosaicking)和去噪(Denoising)的图像处理技术,旨在从原始传感器数据中同时重建全彩色图像并减少噪声。
2025-03-28 21:38:02
816
原创 【图像处理基石】什么是神经渲染?
神经渲染(Neural Rendering)是一种结合深度学习技术和计算机图形学的新型图像生成方法。它利用神经网络(如生成对抗网络、Transformer等)从数据中学习场景的特征或物理规律,从而生成高质量的图像、视频或3D内容。与传统基于物理的渲染(如光线追踪)不同,神经渲染更注重从数据中学习复杂的视觉效果,而非完全依赖显式建模。NeRF(Neural Radiance Fields)的计算流程NeRF 是一种基于神经网络的隐式3D场景表示方法,通过多视角图像训练后,可渲染任意新视角的逼真图像。
2025-03-27 22:18:52
1452
机器学习与模式识别领域的PRML习题解析手册
2025-03-10
在TensorFlow中将预训练好的模型转换成tflite格式模型的python代码实现
2025-03-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人