- 博客(9)
- 收藏
- 关注
原创 LDA主题模型试验
LDA模型取得较好的结果,最好满足以下条件:1.清理一些无法反映文档主题的词;2.文档的主题比较集中;3.设置较大的迭代次数,由于LDA Gibbs抽样算法的复杂度较高,每次训练都要运行很长时间,导致没有时间去尝试其它的参数组合,也许尝试一些其它的参数组合会得到比本文更好的结果。
2016-01-18 22:56:49
7804
原创 一个简化版的Java多线程爬虫
情形一:最开始执行第一个爬虫,取出任务队列的整数后,队列为空,提前退出循环,解决方法是:当队列为空并且还有任务正在执行时,让主线程休眠等待有线程完成任务,队列变成非空,从而线程池释放线程执行新的任务。情形二:当线程中同一时刻执行任务的线程个数为最大值4时,暂时无法释放线程立即执行新的任务,解决方法是:让主线程休眠直至有线程任务完成。
2015-12-13 11:46:10
1582
原创 Java单机爬虫
1.上述爬虫是单线程的,可以对代码改进,增加一个工作线程池,这些线程并行地从url队列中取出url进行处理。或者更好的解决方案是分布式爬虫,在这种情况下将url队列和已访问过的url存储在数据库中,同时使所有节点能够访问该数据库。看了一阵子的多线程的文档,看得头大,想想自己是搞数据挖掘的,还是搞分布式爬虫更对路,知乎上有牛人建议用redis做分布式队列,有机会尝试下。2.上述代码只是将网页的网址和标题保存在文件中,如果想做文本挖掘,需要保存网页的全部文本,可以试一下jsoup或apache tika。
2015-11-13 17:07:55
1966
原创 初试Spark之K-Means聚类算法实现
自学Spark有将近一个月了,一直想找一个稍微复杂点的例子练练手,K均值聚类算法实现是个不错的例子,于是有了这篇博客。K均值聚类算法的原理本身很简单,大概思想就是:选取初始质心,根据这些质心将样本点聚类,聚类之后计算新的质心,然后重新将样本点聚类,不断循环重复“产生质心,重新聚类”这一过程,直至聚类效果不再发生明显变换。
2015-02-21 16:37:51
6791
原创 Hadoop之K-Means聚类算法
Begin 读取inputPath,从中选取前k个点作为初始质心,将质心数据写入centerPath; While 聚类终止条件不满足 在Mapper阶段,读取inputPath,对于key所对应的点,遍历所有的质心,选择最近的质心,将该质心的编号作为键, 该点的编号作为值传递给Reducer; 在Reducer阶段,将Mapper阶段传递过来的
2014-11-27 21:10:06
8866
2
原创 CART分类树算法实现
对于当前训练数据集,遍历所有属性及其所有可能的切分点,寻找最佳切分属性及其最佳切分点, 使得切分之后的基尼指数最小,利用该最佳属性及其最佳切分点将训练数据集切分成两个子集,分别对应 着判别结果是true和判别结果是false。
2014-08-27 19:28:01
2330
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人