
NLP
文章平均质量分 68
code_caq
机器学习、计算机视觉爱好者。
努力学习的新人!
展开
-
特征工程与文本处理
未完待续…… ref: http://blog.csdn.net/j123kaishichufa/article/details/7679682 https://www.zhihu.com/question/28641663/answer/41653367 http://blog.csdn.net/qll125596718/article/details/8306767 http://b...原创 2017-05-06 16:12:33 · 2504 阅读 · 0 评论 -
Notes—Latent Dirichlet Allocation,LDA主题模型
【数学之美】 ……未完待续…… ref: 1、★★★★★★★★★★通俗理解LDA主题模型★★★★★★★★★★ 2、主题模型-LDA浅析 3、搜索背后的奥秘――浅谈语义主题计算 4、主题模型TopicModel:主题模型LDA的应用 5、David M. Blei, AndrewY. Ng, Michael I. Jordan, LatentDirichlet Allocation, ...原创 2017-06-03 13:48:02 · 835 阅读 · 0 评论 -
Notes—LDA中的gamma函数和几个分布
ref:http://blog.csdn.net/v_JULY_v/article/details/41209515(详细推导见该链接) LDA模型中用到的数学知识:一个函数:gamma函数四个分布:二项分布、多项分布、beta分布、Dirichlet分布一个概念和一个理念:共轭先验和贝叶斯框架两个模型:pLSA、LDA(在本文第4 部分阐述)一个采样:G转载 2017-06-03 10:55:24 · 2058 阅读 · 0 评论 -
Rocchio算法用于文本分类
谈谈自己的理解…… 假设现有正样本集P和负样本集N用来训练一个二分类Rocchio分类器 主要思想如下:1.对于P和N分别计算质心 (*)2.对于以后待分类的每一个文档d,计算d与 c+或者c-的相似度(如余弦相似度),并划分为相似度大的那一类。(*)中各个字母的意义: c+、c-:训练集P和N的质心,即能够代表这一类的一个向量 α、β:可用于调节正负样本对于结果的影响 d的含义:代表每原创 2017-07-16 22:13:27 · 1468 阅读 · 0 评论