
搜索引擎(lucene/solr)
文章平均质量分 76
iteye_2556
这个作者很懒,什么都没留下…
展开
-
全文检索lucene的使用和优化
1 lucene简介1.1 什么是luceneLucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。 1 lucene简介要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文...原创 2012-01-05 15:35:41 · 138 阅读 · 0 评论 -
lucene学习资料收集
由于公司用到lucene,现对看到过的帮助较大的lucene学习资料做个整理: http://www.ibm.com/developerworks/cn/web/wa-lucene2/ // 用 Lucene 加速 Web 搜索应用程序的开发 http://xxiongdi.iteye.com/blog/400794 // 分析lucene源码的文章 http:/...原创 2011-11-25 16:09:06 · 108 阅读 · 0 评论 -
lucene中QueryParser操作符的疑惑
在测试Lucene搜索时,对于 AND 与 + 的区别研究了下索引库中有四条记录,分别是no:300900002071 name:情侣装*休闲女装 no:300900002069 name:情侣装*休闲男装no:400000480418 name:情侣完美坠no:400000480155 name:天然翡翠项链如果用以下字符串来搜索(name:情侣) + (no:...原创 2011-11-25 16:15:34 · 618 阅读 · 0 评论 -
lucene 索引 原理
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为:He once lived in Shanghai. 1)由于lucene是基于关键词索引和查询的,首先我们要取得这两篇文章...原创 2011-12-06 09:33:37 · 111 阅读 · 0 评论 -
关于几种中文分词的比对
目前lucene自身提供的StandardAnalyzer已经具备中文分词的功能,但是不一定能够满足大多数应用的需要。 另外网友谈的比较多的中文分词器还有: CJKAnalyzer ChineseAnalyzer IK_CAnalyzer(MIK_CAnalyzer) 还有一些热心网友自己写的比较不错的分词器在此就不说了,有兴趣的可以自己研究研究。 以上三个中文分词器...原创 2011-12-06 09:34:53 · 307 阅读 · 0 评论 -
lucene检索运算符
lucene检索运算符:1. “:” 指定字段查指定值,如返回所有值*:*2. “?” 表示单个任意字符的通配3. “*” 表示多个任意字符的通配(不能在检索的项开始使用*或者?符号)4. “~” 表示模糊检索,如检索拼写类似于”roam”的项这样写:roam~将找到形如foam和roams的单词;roam~0.8,检索返回相似度在0.8以上的记录。5. 邻近检索,如检索相隔10个单词的”...原创 2012-05-05 13:05:21 · 119 阅读 · 0 评论 -
solr部署
1,从官方网站下载solr:apache-solr-3.4.0.zip2,解压已经下载的文件后如下所示Xml代码 E:\jar\solr\apache-solr-3.4.0\example\solr 3,把 apache-solr-3.4.0\example\webapps\solr.war 解压复制到 D:\To...原创 2012-05-21 18:45:59 · 82 阅读 · 0 评论 -
solr中Schema.xml和solrconfig.xml分析
一、字段配置(schema)schema.xml位于solr/conf/目录下,类似于数据表配置文件,定义了加入索引的数据的数据类型,主要包括type、fields和其他的一些缺省设置。1、先来看下type节点,这里面定义FieldType子节点,包括name,class,positionIncrementGap等一些参数。name:就是这个FieldType的名称。cl...原创 2012-05-24 17:09:28 · 73 阅读 · 0 评论 -
solr理论
1、 solr基础因为 Solr 包装并扩展了 Lucene,所以它们使用很多相同的术语。更重要的是,Solr 创建的索引与 Lucene 搜索引擎库完全兼容。通过对 Solr 进行适当的配置,某些情况下可能需要进行编码,Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引。在 Solr 和 Lucene 中,使用一个或多个 Document 来构建索引。Document...原创 2012-05-24 17:11:21 · 387 阅读 · 0 评论 -
利用 Heritrix 构建特定站点爬虫
本文由浅入深,详细介绍了 Heritrix 在 Eclipse 中的配置、运行。最后对其进行扩展,介绍如何实现只抓取特定网站的页面。通过本文,读者可以了解 Heritrix 的相关特点以及在 Eclipse 中的配置运行,能够从零开始构建特定站点的专有爬虫,从而为网站增加全文检索服务。背景随着网站内容的增加,为其添加搜索功能是一个常见的需求,搜索引擎也已成为互联网最重要的应用之...原创 2011-11-25 15:41:06 · 88 阅读 · 0 评论 -
solr服务器复制、服务器分发(shard)、Multicore(分片)配置,SolrJ的使用
Solr服务器复制的配置1,首先测试在本机上开启三个tomcat的服务器:一个端口是80,另一个是98882,按照标题一的配置对第二和第三个tomcat服务器进行类似的配置,注意SolrHome的目录不要相同即可,其他的配置不变. 例如:以本机为例tomcat命名 URLSolrHome目录URI web.xml配置...原创 2012-07-16 15:23:39 · 581 阅读 · 0 评论 -
Solr Replication(复制)是怎样工作的
luence有一个IndexDeletePolicy接口,这个接口是提供luence删除索引文件的两个时机,分别是init和commit,init是在IndexWirter创建时执行的。commit是在有索引文件更新,提交是执行的。而indexDeletePolicy这两个方法都会得到一个提交点集合即(IndexCommit),IndexCommit是luence的一个抽...原创 2012-07-16 15:18:23 · 225 阅读 · 0 评论 -
当前几个主要的Lucene中文分词器的比较
1. 基本介绍: paoding :Lucene中文分词“庖丁解牛” Paoding Analysisimdict :imdict智能词典所采用的智能中文分词程序mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器ik :采用了特有的“正向迭代最细粒度切分算法“,多子处理器分析模式 2. 开发者及开发活跃度: paod...原创 2012-01-05 15:36:24 · 79 阅读 · 0 评论 -
solrj之二次开发
Solrj已经是很强大的solr客户端了。它本身就包装了httpCliet,以完全对象的方式对solr进行交互。很小很好很强大。下面直接上自己封装的主要代码:1、solrj操作接口 public interface SolrjQuery { // solrj查询返回SolrDocument记录的集合 public DataGrid<SolrD...原创 2012-07-11 11:19:50 · 170 阅读 · 0 评论 -
Solr 3.5 + Tomcat7 + mmseg4j + 搜狗词库 -配置并运行
这是我看到过的写的较好的一篇入门文章,个人觉得相对有些文章来说靠谱些,呵呵。机器上已安装 : Tomcat 7 jdk1.7 mysql 5.0访问 http://www.apache.org/dyn/closer.cgi/lucene/solr , 在这个网址里选择一个路径 , 下载 solr 3.5 的版本solr3.5 在本机解压缩以后 , 把 apache-s...原创 2012-07-11 11:22:56 · 86 阅读 · 0 评论 -
DataImportHandler从数据库导入大量数据而内存溢出的问题
Solr有个很方便的处理器叫DataImportHandler,可以通过配置配置db-data-config.xml配置各种数据源然后从中导入数据进行索引,很方便我们进行开发.但是之前从数据库导入数据一直有个问题,就是如果数据库中数据过大,就会导致内存溢出.自己经过阅读源码以及发邮件到Solr邮件列表,终于找到了解决办法,这里拿出来共享. 这里我的Solr版本是Solr1.4....原创 2012-07-11 11:33:23 · 201 阅读 · 0 评论 -
solr的配置参数理解
l dataDir参数用于替换默认的索引数据目录(./data)。如果重复指定,将使用重复的值。如果不是绝对路径,将使用servlet容器当前工作目录下的相对路径。<dataDir>/var/data/solr</dataDir> l mainIndex参数部分mainIndex> <!-- lucene opt...原创 2012-07-11 11:35:12 · 229 阅读 · 0 评论 -
Searching过程详解
1.拦截请求,解析请求并构建相应的handler。发送检索请求,例如:http://localhost:8983/solr3.5/core2/select/?q=*%3A*&version=2.2&start=0&rows=10&indent=on首先他将被SolrDispatchFilter拦截。?doFilter(Ser...原创 2012-07-11 11:41:20 · 824 阅读 · 0 评论 -
solr学习资料收集
学习新东西前,我一般都会先找些文章来看,整个原理呀、执行过程呀、优缺点呀之类的先了解个大概。然后建个工程开始写例子,在写例子的过程中还会查找些资料,比如百度文库上比较有价值的文档等,只是有些豆豆要的比较多,有点坑爹。在写例子的过程中不断的完善,封装,直到把代码写的看的下去,然后跑通整个过程。前面的那篇solrj的二次开发就主要是对solr的客户端API进行了封装,使之适合自己的使用。总...原创 2012-07-13 17:57:50 · 133 阅读 · 0 评论 -
Solr Multicore 结合 Solr Distributed Searching 切分大索引来搜索
原文出处:http://blog.chenlb.com/2009/01/solr-multicore-work-with-solr-distributed-searching-to-search-big-index.html (系列博文,大牛!) Solr Distributed Searching (分布式搜索) 是 solr 1.3 的特性。大索引,可能有多种原因...原创 2012-07-13 17:58:11 · 121 阅读 · 0 评论 -
SOLR搭建企业搜索平台
一、SOLR搭建企业搜索平台--MultiCore Solr Multicore 是 solr 1.3 的新特性。其目的一个solr实例,可以有多个搜索应用。 我们知道你既可以把不同类型的数据放到同一index中,也可以使用分开的多indexes。基于这一点,你只需知道如何使用多 indexes(实际上就是运行Solr的多实例)。尽管如此,为每一个类型添加一个完整的Solr实例会显得太臃肿庞大。S...原创 2012-05-24 18:34:38 · 225 阅读 · 0 评论