
Lucene(信息检索技术)
小狼_百度
百度,web系统,分布式系统,大数据,机器学习,人工智能等爱好者
展开
-
实战 Lucene,第 1 部分: 初识 Lucene
本文首先介绍了Lucene的一些基本概念,然后开发了一个应用程序演示了利用Lucene建立索引并在该索引上进行搜索的过程。Lucene 简介Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工转载 2009-05-27 15:15:00 · 729 阅读 · 0 评论 -
bloom filter 的Java 版
一、 Bloom-Filter算法简介。 Bloom-Filter,即布隆过滤器,1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中,其优点是空间效率和查询时间都远远超过其他算法,其不足在于Bloom- Filter存在着误判。 二、 Bloom-Filter的基本思想。 Bloom-Filter算法的核心思想就是利用多个不同的Hash函转载 2011-12-14 15:40:21 · 717 阅读 · 0 评论 -
大数据量的算法
第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法, 比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大 的几个)及相转载 2011-12-26 15:13:36 · 974 阅读 · 0 评论 -
Annotated Lucene(源码剖析中文版)
Annotated Lucene(源码剖析中文版) Apache Lucene是一个高性能(high-performance)的全能的全文检索(full-featured text search engine)的搜索引擎框架库,完全(entirely)使用Java开发。它是一种技术(technology),适合于(suitable for)几乎(nearly)任何一种需要全文检索(full-转载 2012-04-28 18:25:18 · 1948 阅读 · 0 评论 -
java 汉字转为简拼
public static void main(String[] args) { String str = null; str = "顾亮"; System.out.println("Spell=" + toJP(str)); } public static String toJP(String c){ char[] chars =转载 2012-07-17 18:42:12 · 2109 阅读 · 4 评论 -
SpellChecker
A Spell Checker allows to suggest a list of words similar to a misspelled word. This implementation is based on David Spencer's code using the n-gram method and the Levenshtein distance. Structur转载 2012-08-31 18:22:34 · 1071 阅读 · 0 评论 -
Mdrill项目在lucene的改进上的10点心得
Mdrill项目在lucene的改进上的10点心得 原始文档下载:https://github.com/alibaba/mdrill/blob/master/doc/Mdrill%E9%A1%B9%E7%9B%AE%E5%9C%A8lucene%E7%9A%84%E6%94%B9%E8%BF%9B%E4%B8%8A%E7%9A%8410%E7%82%B9%E5%BF%83转载 2016-01-06 17:27:32 · 798 阅读 · 0 评论 -
基于mdrill的大数据分析
数据越来越多,传统的关系型数据库支撑不了,分布式数据仓库又非常贵。几十亿、几百亿、甚至几千亿的数据量,如何才能高效的分析? mdrill是由阿里妈妈开源的一套数据的软件,针对TB级数据量,能够仅用10台机器,达到秒级响应,数据能实时导入,可以对任意的维度进行组合与过滤。 mdrill作为数据在线分析处理软件,可以在几秒到几十秒的时间,分析百亿级别的任意组合维度的数据。 在阿里10台机转载 2016-01-06 17:34:38 · 702 阅读 · 0 评论 -
大索引技术,大数据的未来
不管你信也好,不信也好,大数据时代真的来临了,随着Hadoop技术的普及,其生态圈发展的越来越壮大,Hive、Hbase、Spark、Storm等的一系列新名词不断的涌现在我们的眼里。似乎NoSQL一夜间,攻陷了全部的大数据阵地。 那么传统的关系型数据库的一些思路,真的没有用武之地了么?真的就一去不复返了么?当大数据技术大旗在每个山头摇摆的时候,我们躲在角落里还能做些什么?“索引转载 2016-01-06 18:50:20 · 727 阅读 · 0 评论