Weka使用笔记之一

本文介绍了使用Weka进行文本分类的过程,包括预处理、特征选择、分类器使用。通过编码转换、中文分词,利用TFIDF进行特征降维,并使用朴素贝叶斯分类器。文章详细讲解了如何将文本数据转化为arff文件,应用StringToWordVector和Discretize过滤器,以及训练和测试模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前些日子基于weka初步做了一下文本分类,使用的是最频繁使用的矢量空间模型(Vector Space Model),即假设正负样本在特征空间的分布迥异,基于某种规则将它们转化为矢量,然后训练分类器来区分这些矢量,测试样本来时送进分类器进行分类就行。在我的实验里面,特征降维使用的是基于TFIDF的特征选择,分类器使用的是朴素贝叶斯(naïve bayes)分类器。

 

前期预处理

编码不一致:由于我的中文样本是从网站各个地方收集来的,因此编码很可能不一致,有的是ANSI,有的是Unicode,需要统一编码便于后续处理。本实验里面,所有的文本都被统一成ANSI编码。下载一个文本编码转换器(TxtEdit)即可转换。

中文分词:由于样本是中文文本,因此需要进行中文分词,包括去掉英文标点符号,停词处理等,现成的工具有计算所开发的汉语分词系统(http://ictclas.org/)等。

 

Weka进行分类

Weka功能实在是太强大,剩下的事情可以全部交给weka做了。

先引用weka中文论坛的资料介绍下Weka:

WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。
WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值