
NLP&机器学习&数据挖掘
wpj112
专业:自然语言处理
能力特长:c语言开发,操作系统,嵌入式开发,信息安全,信息检索。
现在:读自然语言处理方向研究生
展开
-
lemur代码分析之入口设计
首先Lemur的入口只有一个,但它可以根据不同的配置执行不同的代码,它是怎么组织和设计的呢?它的组织很有趣:首先从外面来看,整个解决方案生成了好多个可执行的文件。那么深入去看,它们可以以入门所做的操作的相同来分组。比如建立索引中的几个函数,都要调用分析输入参数GetAppParam();和分析建立索引int AppMain(int argc, char * argv[])。也就它们的入口是原创 2012-07-04 09:15:09 · 244 阅读 · 0 评论 -
交叉验证(CrossValidation)方法思想简介
交叉验证(CrossValidation)方法思想简介以下简称交叉验证(Cross Validation)为CV.CV是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做 为训练集(train set),另一部分做为验证集(validation set),首先用训练集对分类器进行训练,在利用验证集来测试训练得到的模型(model),转载 2014-04-10 10:19:59 · 469 阅读 · 0 评论 -
Matlab神经网络数据的归一化
由于采集的各数据单位不一致,因而须对数据进行[-1,1]归一化处理,归一化方法主要有如下几种,供大家参考:1、线性函数转换,表达式如下:y=(x-MinValue)/(MaxValue-MinValue)说明:x、y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小值。2、对数函数转换,表达式如下:y=log10(x)说明:以10为底的对数函数转载 2014-01-17 01:05:27 · 376 阅读 · 0 评论 -
使用matlab绘画柱状图,且使用不同的图案填充
在论文中,图表往往发挥着极为重要的作用,好的图表将能进一步提升论文的质量。在书写论文时,很多时候需要绘制柱状图,然而不同的柱状图如果采用颜色区分,当论文打印以后,视觉效果大打折扣,甚至无法区分。在遇到这个问题时,我通过网站论坛搜索,终于找到了在matlab中绘制柱状图,并采用不同的图案进行表示。主要利用下面的代码。代码出自:http://www.aos.wisc.edu/~dvimont/ma转载 2014-01-17 00:59:32 · 3089 阅读 · 0 评论 -
数据标准化/归一化方法(Normalization Method)汇总
归一化方法(Normalization Method)1。 把数变为(0,1)之间的小数主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内。2 。把有量纲表达式变为无量纲表达式归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。比如,复数阻抗可以归一化书写:Z = R + jωL = R转载 2014-01-15 00:38:37 · 5809 阅读 · 0 评论 -
《数学之美》读书笔记和知识点总结(二)
接上一篇文章,我继续对《数学之美》进行总结。由于篇幅原因,很多具体的算法没有写,只给出了外链。如有需要请自行搜索 网页相似性的度量问题描述:求出任意两个网页之间的相似程度解决方法:TF-IDF方法(term Frequency-Inverse Document Frequency)步骤:提取出网页的关键词,然后根据网页的长度对关键词进行归一化。两个网转载 2012-09-19 15:47:34 · 640 阅读 · 0 评论 -
《数学之美》读书笔记和知识点总结(一)
早在前几个月我在台湾的时候,就听说《数学之美》是一本非常不错的书,也正好是我喜欢的类型,一直想买。回到北京之后的第一件事就是把我这半年积攒的书单全部兑现,其中包括《数学之美》和《浪潮之巅》。看了之后大叫过瘾,让我好好享受了一回数学之美。 文字和数字的起源很久以前人类以不同的叫声表示不同的信息,达到彼此交流的目的,当所要表达的信息太多时,叫声已经不够用了,于是文字产生了。转载 2012-09-19 15:46:49 · 423 阅读 · 0 评论 -
中文分词入门之最大匹配法
中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中文分词具有极高的地位。中文分词入门最简单应该是最大匹配法了,当年师兄布置给我的第一个学习任务就是实现最大匹配法的分词算法(正向、逆向)。记得当时对自己参考学习最有帮助的是北大詹卫东老师“中文信息处理基础”的课件和源程序,不过他实现的是mfc程序,词表存储在数据库里。自己实现时用纯c转载 2012-07-03 13:12:40 · 214 阅读 · 0 评论 -
一种快速分词系统的设计与实现
一种快速分词系统的设计与实现(***计算机学院)摘 要: 通过对已有分词算法的分析,一方面用hash加tire树的结构来改进词典,从而提高了分词速度,另一方面,在已有模型的基础上,通过增加规则来保证分词准确率。实验表明整个系统的分词速度和准确率都得到了一定程度的提高。关键词:分词;hash;Trie树;规则1 概述分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在原创 2012-07-03 13:08:28 · 1308 阅读 · 0 评论 -
Lemur的参数文件
Lemur的参数文件Lemur Toolkit是一个新兴的实验系统。它由卡耐基-梅隆大学(CMU)开发,在2001年公布了第一个公开的版本,目前最新版本是4.6。其特点是在检索中引入了语言模型,更重要的是,它不仅是一个完整的检索系统,而且是以工具包的形式提供的。各功能模块都有良好的封装,并提供清晰的源代码和丰富的文档说明,研究者使用它搭建自己的实验系统易如反掌。Lemur Toolkit的转载 2012-07-03 13:15:52 · 323 阅读 · 0 评论 -
关于百度中文分词
关于百度中文分词了解搜索引擎分词技术对于我们的SEO工作有着重大的意义,不管是我们的关键词布局还是链接架构,都跟分词有莫大的关联。这里萧涵给大家谈下一百度的中文分词(当然也不局限于百度,其他搜索引擎也是差不多的)。本文分两个部分,首先是摘取已有的关于分词的解释,另外再加入我自己对分词的扩展思路。什么是中文分词?我们都知道,英文句子都是由一个一个单词按空格分开组成,所以在分词方面就方便多转载 2012-07-03 13:10:55 · 250 阅读 · 0 评论 -
隐马尔可夫模型中的Viterbi算法(动态规划)
这篇文章简单描述一下Viterbi算法——一年之前我听过它的名字,直到两周之前才花了一点时间研究了个皮毛,在这里做个简单检讨。先用一句话来简单描述一下:给出一个观测序列o1,o2,o3 …,我们希望找到观测序列背后的隐藏状态序列s1, s2, s3, …;Viterbi以它的发明者名字命名,正是这样一种由动态规划的方法来寻找出现概率最大的隐藏状态序列(被称为Viterbi路径)的算法。这里需要转载 2012-07-03 12:55:25 · 487 阅读 · 0 评论 -
汉字编码问题
由于常常要和汉字处理打交道,因此,我常常受到汉字编码问题的困扰。在不断的打击与坚持中,也积累了一点汉字编码方面的经验,想和大家一起分享。一、汉字编码的种类 汉字编码中现在主要用到的有三类,包括GBK,GB2312和Big5。 1、GB2312又称国标码,由国家标准总局发布,1981年5月1日实施,通行于大陆。新加坡等地也使用此编码。它是一个简化字的编码规范,当然也包括其他的转载 2012-07-08 12:59:04 · 725 阅读 · 0 评论 -
贝叶斯算法原理分析 举的例子很形象
Bayes法是一种在已知先验概率与条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。 Bayes方法的薄弱环节在于实际情况下,类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获得它们,就要求样本 足够大。另外,Bayes法要求表达文本的主题词相互独立,这样的条件在实际文本中一般很难满足,因此该方法往往在效果上难以达到理论上的最大值。转载 2012-07-06 13:06:30 · 1943 阅读 · 0 评论 -
Lucene倒排索引原理(转)
Lucene倒排索引原理(转)Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下:0)设有两篇文章1和2文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too.文章2的内容为:He once lived in Shanghai.1)由于lucene是基于关转载 2012-07-06 12:56:48 · 194 阅读 · 0 评论 -
lemur代码分析之 #line
今天一直在纠结parsing中的函数不能调试的问题,搞了一两天才明白原来是#line的问题。这个宏本来是为来方便在程序出错时能更准确的定位出错信息,但它却影响到了调试。把这些代码都注释掉就可以调试了。下面就记录一下#line相关的知识:此命令主要是为强制编译器按指定的行号,开始对源程序的代码重新编号,在调试的时候,可以按此规定输出错误代码的准确位置。形式1语法格式如下:#原创 2012-07-04 09:19:04 · 199 阅读 · 0 评论 -
如何选择数据挖掘工具
一、数据挖掘工具分类 数据挖掘工具根据其适用的范围分为两类:专用挖掘工具和通用挖掘工具。专用数据挖掘工具是针对某个特定领域的问题提供解决方案,在涉及算法的时候充分考虑了数据、需求的特殊性,并作了优化。对任何领域,都可以开发特定的数据挖掘工具。例如,IBM公司的AdvancedScout系统针对NBA的数据,帮助教练优化战术组合。特定领域的数据挖掘工具针对性比较强,只能用于一种应用;也转载 2014-04-10 10:24:29 · 406 阅读 · 0 评论