6、k-NN分类器的优化与性能考量

k-NN分类器的优化与性能考量

1. 无关属性与缩放问题

1.1 无关属性的影响

在机器学习中,并非所有属性都对分类同等重要。有些属性的值与示例的类别无关,但却会影响向量间的几何距离。例如,在一个以体温和鞋码为属性的训练集中,鞋码对于判断一个人是否健康并无关联,但在计算欧几里得距离时,它却会对结果产生影响,可能导致分类错误。

若仅使用第一个属性(体温),两个示例间的欧几里得距离为 (d_E(x, y) = \sqrt{(x_1 - y_1)^2} = |x_1 - y_1|);若同时使用两个属性,则距离为 (d_E(x, y) = \sqrt{(x_1 - y_1)^2 + (x_2 - y_2)^2})。当第二个属性(鞋码)无关时,((x_2 - y_2)^2) 这一项就是多余的,却会对 k - NN 的相似度概念产生不利影响。

无关属性造成的损害程度取决于用于描述示例的无关属性数量。在有数百个属性的领域中,若只有一个无关属性,通常不会对距离值产生显著影响;但随着无关属性比例的增加,几何距离可能变得几乎毫无意义,分类器的性能也会大幅下降。

1.2 属性值的缩放问题

属性值的尺度也会对 k - NN 分类器的行为产生重大影响。例如,对于示例 (x = (t, 0.2, 254)) 和 (y = (f, 0.1, 194)),在计算距离时,第三个属性(取值范围为 ([0, 1000]))会完全主导结果,使其他两个属性几乎失去意义。

此外,属性的度量单位也会影响分类结果。例如,当第二个属性表示温度时,使用不同的温度单位(摄氏度或华氏度)会导致向量发生变化,从而改变分类器的判断。

根据原作 https://pan.quark.cn/s/459657bcfd45 的源码改编 Classic-ML-Methods-Algo 引言 建立这个项目,是为了梳理和总结传统机器学习(Machine Learning)方法(methods)或者算法(algo),和各位同仁相互学习交流. 现在的深度学习本质上来自于传统的神经网络模型,很大程度上是传统机器学习的延续,同时也在不少时候需要结合传统方法来实现. 任何机器学习方法基本的流程结构都是通用的;使用的评价方法也基本通用;使用的一些数学知识也是通用的. 本文在梳理传统机器学习方法算法的同时也会顺便补充这些流程,数学上的知识以供参考. 机器学习 机器学习是人工智能(Artificial Intelligence)的一个分支,也是实现人工智能最重要的手段.区别于传统的基于规则(rule-based)的算法,机器学习可以从数据中获取知识,从而实现规定的任务[Ian Goodfellow and Yoshua Bengio and Aaron Courville的Deep Learning].这些知识可以分为四种: 总结(summarization) 预测(prediction) 估计(estimation) 假想验证(hypothesis testing) 机器学习主要关心的是预测[Varian在Big Data : New Tricks for Econometrics],预测的可以是连续性的输出变量,分类,聚类或者物品之间的有趣关联. 机器学习分类 根据数据配置(setting,是否有标签,可以是连续的也可以是离散的)和任务目标,我们可以将机器学习方法分为四种: 无监督(unsupervised) 训练数据没有给定...
本系统采用微信小程序作为前端交互界面,结合Spring BootVue.js框架实现后端服务及管理后台的构建,形成一套完整的电子商务解决方案。该系统架构支持单一商户独立运营,亦兼容多商户入驻的平台模式,具备高度的灵活性扩展性。 在技术实现上,后端以Java语言为核心,依托Spring Boot框架提供稳定的业务逻辑处理数据接口服务;管理后台采用Vue.js进行开发,实现了直观高效的操作界面;前端微信小程序则为用户提供了便捷的移动端购物体验。整套系统各模块间紧密协作,功能链路完整闭环,已通过严格测试优化,符合商业应用的标准要求。 系统设计注重业务场景的全面覆盖,不仅包含商品展示、交易流程、订单处理等核心电商功能,还集成了会员管理、营销工具、数据统计等辅助模块,能够满足不同规模商户的日常运营需求。其多店铺支持机制允许平台方对入驻商户进行统一管理,同时保障各店铺在品牌展示、商品销售及客户服务方面的独立运作空间。 该解决方案强调代码结构的规范性可维护性,遵循企业级开发标准,确保了系统的长期稳定运行后续功能迭代的可行性。整体而言,这是一套技术选型成熟、架构清晰、功能完备且可直接投入商用的电商平台系统。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值