
爬虫
java_wliang
这个作者很懒,什么都没留下…
展开
-
HtmlParser 简单应用
HtmlParser 简介当今的 Internet 上面有数亿记的网页,越来越多应用程序将这些网页作为分析和处理的数据对象。这些网页多为半结构化的文本,有着大量的标签和嵌套的结构。当我们自己开发一些处理网页的应用程序时,会想到要开发一个单独的网页解析器,这一部分的工作必定需要付出相当的精力和时间。事实上,做为 JAVA 应用程序开发者, HtmlParser 为其提供了强大而灵活易用的开源类库转载 2014-07-23 09:30:25 · 481 阅读 · 0 评论 -
HttpClient 和 HtmlParser 实现简易爬虫
简易爬虫的实现HttpClient 提供了便利的 HTTP 协议访问,使得我们可以很容易的得到某个网页的源码并保存在本地;HtmlParser 提供了如此简便灵巧的类库,可以从网页中便捷的提取出指向其他网页的超链接。笔者结合这两个开源包,构建了一个简易的网络爬虫。爬虫 (Crawler) 原理学过数据结构的读者都知道有向图这种数据结构。如下图所示,如果将网页看成是图中的某一个节点,而将转载 2014-07-23 09:58:45 · 680 阅读 · 0 评论 -
HttpClient : 基本使用整理
HttpClient 是我最近想研究的东西,以前想过的一些应用没能有很好的实现,发现这个开源项目之后就有点眉目了,令人头痛的cookie问题还是有办法解决滴。在网上整理了一些东西,写得很好,寄放在这里。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了,越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源。虽然在 JDK 的 java.net 包中转载 2014-07-22 16:00:55 · 674 阅读 · 0 评论 -
布隆过滤器
布隆过滤器 假如有1亿个不重复的正整数(大致范围已知),但是只有1G的内存可用,如何判断该范围内的某个数是否出现在这1亿个数中?最常用的处理办法是利用位图,1*108/1024*1024*8=11.9,也只需要申请12M的内存。但是如果是1亿个邮件地址,如何确定某个邮件地址是否在这1亿个地址中?这个时候可能大家想到的最常用的办法就是利用Hash表了,但是大家可以细想一下,如果利用Hash转载 2014-07-23 19:48:18 · 594 阅读 · 0 评论 -
Heritrix 拓展Heritrix
扩展 Heritrix我们先来分析一下 Heritrix 的总体结构和 URI 的处理链。Heritrix 的总体结构Heritrix 采用了模块化的设计,用户可以在运行时选择要用的模块。它由核心类(core classes)和插件模块(pluggable modules)构成。核心类可以配置,但不能被覆盖,插件模块可以由第三方模块取代。所以我们就可以用实现了特定抓取逻辑的转载 2014-07-25 15:05:23 · 653 阅读 · 0 评论 -
Heritrix Eclipse下环境配置
在http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20%28heritrix%201.x%29/1.14.4/下载heritrix, heritrix-1.14.4-src.zip 中包含原始的源代码,方便进行二次开发。本文需要用到 heritrix-1.14.4-src.zip,将其下载并解压至 heri转载 2014-07-25 11:11:47 · 654 阅读 · 0 评论 -
Lucene 入门实例
Lucene转载 2014-07-26 17:57:04 · 575 阅读 · 0 评论 -
搜索引擎 倒排索引基础知识
1.单词——文档矩阵 单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展示了其含义。图3-1的每列代表一个文档,每行代表一个单词,打对勾的位置代表包含关系。转载 2014-07-27 11:29:11 · 639 阅读 · 0 评论 -
Lucene 中文分词器SmartChineseAnalyzer
对中文支持稍好,但扩展性差,扩展词库,禁用词库和同义词库等不好处理[java] view plaincopypackage bond.lucene.analyzer; import java.util.Iterator; import org.apache.lucene.analysis.TokenStream转载 2014-07-26 19:42:11 · 10347 阅读 · 0 评论