最近要使用LDA提取主题,mallet是基于Java的机器学习包,可以用于自然语言处理、文本分类、主题建模等。
1、配置Java环境
下载相应版本的jdk,例如jdk1.7.0_11。
解压之后放置在d:\jdk1.7.0_11。
设置JAVA_HOME=d:\jdk1.7.0_11
PATH=.;%JAVA_HOME%\bin
CLASSPATH=.;%JAVA_HOME%/lib/tools.jar;%JAVA_HOME%/lib/dt.jar
2、配置ant环境
下载ant,解压到d:下
设置ANT_HOME=d:\apache-ant-1.9.4
添加CLASSPATH=%ANT_HOME%\lib
添加PATH=%ANT_HOME%\bin
测试:cmd下输入ant,出现下面的结果表示成功
Buildfile : build.xml does not exist!
Build failed
3、安装mallet
将mallet解压到d:\mallet-2.0.7
设置MALLET_HOME=%d:\mallet-2.0.7%
添加PATH=%MALLET_HOME%/bin
添加CLASSPATH=%MALLET_HOME%/class;%MALLET_HOME%/lib;%MALLET_HOME%/lib/mallet-deps.jar
运行 à cmd ,进入到 mallet 的解压目录
输入 ant,如果出现 Build successful 字 样,则表示配置成功
4、mallet使用
准备好一个文件夹 test,里面放置好一些文件。就可以提取这些文件的主题
E:\>mallet import-dir --input e:\test --output e:\result\data.mallet --keep-seqence --remove-stopwords
E:\>mallet train-topics --input e:\result\data.mallet --num-topics 1 --num-top-words 30 --optimize-interval 20 --output-topic- keys e:\result\data.txt --xml-topic-phrase-report e:\result\data.xml