读研时转过一篇《weka入门教程》。当时机器学习还没有这么火。Weka其实非常方便,有图形界面,可以识别多种格式,自动切分测试集与训练集等功能。这篇主要介绍图形界面下分类的用法,其他机器学习任务大同小异。
weka可以从官方网站下载:https://www.cs.waikato.ac.nz/ml/weka/
安装就不说了,安装好后运行,Windows在菜单中可以找到,Linux运行weka.sh,主界面上单击Explorer打开分类主界面,如下图:
单击Open File
我们可以看到Weka支持多种文件,这里重点说一下csv,因为这种格式很容易和excel或者数据库文件进行转换。
CSV文件的第一行为标题行,即每一行的名字。Weka对CSV的支持并不是很友好,很多特殊字符不支持,所以注意将他们替换,我遇到问题的是,和'。内部应该没有用比较完善的开源CSV解决方案。打开文件后所有列名会被列举在Attributes栏里面,选中不需要的列,