- 博客(169)
- 资源 (9)
- 收藏
- 关注
原创 在clojure下封装Twitter Kestrel
使用clojure封装Twitter Kestrel 队列服务。代码详见: https://github.com/lycaojh/kesterl-clojure
2013-02-21 15:32:05
2338
原创 clojure-jack-in : error in process filter: open-network-stream: make client process failed: Connecti
clojure-jack-in 启动出错出错信息如下:Connecting to Swank on port 65280.. [2 times]error in process filter: open-network-stream: make client process failed: Connection refused, :name, SLIME Lisp, :buff
2013-01-11 15:54:31
3030
转载 Scala 闭包 匿名函数
函数语言的名称源于这样一种概念:程序行为应该像数学函数一样;换句话说,给定一组输入,函数应始终返回相同的输出。这不仅意味着每个函数必须返回一个值,还意味着从一个调用到下一个调用,函数本质上不得具有内蕴状态(intrinsic state)。这种无状态的内蕴概念(在函数/对象领域中,默认情况下指的是永远不变的对象),是函数语言被认为是并发领域伟大的 “救世主” 的主要原因。闭包函数作为一级概念的
2012-04-21 17:11:12
6707
转载 一致性哈希相关资料
我最近一段时间在研究 consistent hash。介绍它的paper(Consistent Hashing and Random Trees: Distributed Caching Protocols for Relieving Hot Spots on the World Wide Web byDavid Karger et al) 十年前就出现了,不过直到最近才悄悄的有越来越多的
2011-12-06 16:56:37
2564
转载 转 如何进行Lucene的分布式应用
<br /><br />研讨如何进行Lucene的分布式应用 <br /> 共1页 <br /> <br /> 提问:<br /> 现在有个项目,有10台服务器,每台服务器负责某一部分的index。另外有一台web服务器,它可以根据用户提交的查询请求到特定的服务器上进行查找。比如用户提交查询A,根据index的分配情况,可以将查询请求分发给服务器a来负责,而用户提交查询请求B,则将它提交给服务器b来负责。不知lucene目前的index机制和search机制是否能够支持这种需求?<br /> <br
2011-04-21 17:38:00
3930
转载 关于搜索引擎及其开发
<br /><br /> 托google、百度们成功的福,搜索引擎火了半边天。很多人都想跨到这个行业里边来。前两天在公司里边面试了一些人,基本上没有感到满意。不是说从业经验不够,有些也已经工作了三年、四年。不过我估计,或者说是猜想,是不是做应用做的时间太长了,把数据结构、算法,时间、效率都扔到一边去了;然后平时的工作又太忙,平时自己工作的做的可以,但对工作相关的、稍微扩展的知识没有时间或者说是懒得去看了。。。。。<br /> 我的想法是,如果有兄弟姐妹要进入这个行业,最好对这个行业流行的想法、做法了解一
2011-03-23 17:07:00
3231
1
转载 Memcache基础教程
<br />Memcache基础教程<br />Memcache是什么<br />Memcache是danga.com的一个项目,最早是为 LiveJournal 服务的,目前全世界不少人使用这个缓存项目来构建自己大负载的网站,来分担数据库的压力。<br />它可以应对任意多个连接,使用非阻塞的网络IO。由于它的工作机制是在内存中开辟一块空间,然后建立一个HashTable,Memcached自管理这些HashTable。<br />Memcache官方网站:http://www.danga.com/mem
2011-03-22 17:07:00
2156
原创 svn 版本控制 trunk branch tag
——简单的对比 SVN的工作机制在某种程度上就像一颗正在生长的树:一颗有树干和许多分支的树分支从树干生长出来,并且细的分支从相对较粗的树干中长出一棵树可以只有树干没有分支(但是这种情况不会持续很久,随着树的成长,肯定会有分支啦,^^)一颗没有树干但是有很多分支的树看起来更像是地板上的一捆树枝如果树干患病了,最终分支也会受到影响,然后整棵树就会死亡如果分支患病了,你可以剪掉它,然后其他分支还会生长出来的哦!如果分支生长太快了,对于树干它可能会非常沉重,最后整棵树会垮塌掉当你感觉你的树、树干或者是分支看起来很
2011-02-26 10:44:00
5539
原创 数据更新快量大的业务设计数据库
<br />对于千万到几亿级别的数据<br />设备id分表,按区段或者取模这种传统手段都可以<br />时间long型做主键<br />最后去掉自增列<br /><br />并发如果超过一定量级(比如每秒100次了)<br />就开始读写分离<br />主库无索引只写入<br />从库建索引调整索引大小<br /><br />如果超大并发(比如每秒500-1000次及以上写入)就这样子:<br />原始数据用aof式的log存<br />然后异步的存入数据库<br />数据库本身再读写分离<br />写入
2011-02-22 14:35:00
2445
1
原创 linux mysql乱码
<br />全部默认utf8<br /> linux终端utf-8<br />方法一:<br /> <br /><br />LANG="en_US.UTF-8"<br />SUPPORTED="zh_CN.UTF-8:zh_CN:zh:en_US.UTF-8:en_US:en"<br />SYSFONT="latarcyrheb-sun16"方法二:vi /etc/profileexport LC_ALL="en_US.UTF-8"mysql vi /etc/my.cnf[client]default-ch
2011-01-25 09:43:00
2358
转载 使用Java NIO编写高性能的服务器
从JDK 1.4开始,Java的标准库中就包含了NIO,即所谓的“New IO”。其中最重要的功能就是提供了“非阻塞”的IO,当然包括了Socket。NonBlocking的IO就是对select(Unix平台下)以及 WaitForMultipleObjects(Windows平台)的封装,提供了高性能、易伸缩的服务架构。说来惭愧,直到JDK1.4才有这种功能,但迟到者不一定没有螃蟹吃,NIO就提供了优秀的面向对象的解决方案,可以很方便地编写高性能的服务器。话说回来,传统的Server/Client实现是
2011-01-21 19:17:00
2834
原创 解决mysql“Access denied for user 'root'@'localhost'”
<br /># mysql -uroot -p<br />Enter password:<br />ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: NO)<br /><br />使用网上介绍的方法修改root用户的密码:<br /># mysqladmin -uroot -p password 'newpassword'<br />Enter password:<br />mysqladmin: c
2011-01-14 00:23:00
252744
1
原创 消息队列
<br />twitter最近将ruby实现的消息队列服务器starling开源了,这是一个支持memcache协议的轻量级持久化服务器,因此使用php/perl/ruby/java等多种客户端都没问题,可以将较慢的处理逻辑通过消息队列放在后台处理,同时也支持多点分布式处理。<br /> <br />利用消息队列可以很好地异步处理数据传送和存储,当你频繁地向数据库中插入数据、频繁地向搜索引擎提交数据,就可采取消息队列来异步插入。另外,还可以将较慢的处理逻辑、有并发数量限制的处理逻辑,通过消息队列放在后台处理
2010-12-30 10:14:00
3984
原创 Twitter架构图(cache篇)
<br /><br />根据网上公开资料整理的Twitter架构,主要是cache方面,加了作者自己的补充,跟实际的架构未必完全一致。<br /><br />一些数据:Cache分Page cache, fragment cache, row cache, vector Cache, cache命中率见图。Fragment cache存放了API各种请求格式的数据,包括XML, JSON, RSS, ATOM。发表Tweets是先放入Kestrel, 再异步处理,Kestrel用的也是memcached协议
2010-12-29 16:51:00
2475
原创 让Java程序作为linux的Daemon后台运行 和 使用Java Service Wrapper将java程序作为linux服务并且开机自动启动
让Java程序作为linux的Daemon后台运行 使用Java Service Wrapper将java程序作为linux服务并且开机自动启动
2010-12-25 16:27:00
9334
3
转载 solr DataImportHandler
<br /> 大多数的应用程序将数据存储在关系数据库、xml文件中。对这样的数据进行搜索是很常见的应用。所谓的DataImportHandler提供一种可配置的方式向solr导入数据,可以一次全部导入,也可以增量导入。<br /> 概览<br /> 目标 能够读取关系数据库中的数据。 通过可配置的方式,能够将数据库中多列、多表的数据生成solr文档 能够通过solr文档更新solr 提供 通过配置文件就能够导入所有数据的能力
2010-10-21 17:44:00
13959
原创 solr dismax
http://wiki.apache.org/solr/SolrQuerySyntax<br />Please note that many characters in the Solr Query Syntax (most notable the plus sign: "+") are special characters in URLs, so when constructing request URLs manually, you must properly URL-Encode th
2010-10-20 16:46:00
5103
原创 solr 索引mysql DIH 链接
Download the JDBC Driver<br />Download the JDBC Driver for MySQL from http://mysql.spd.co.il/Downloads/Connector-J/mysql-connector-java-3.1.14.zip<br />Put the "mysql-connector-java-3.1.14-bin.jar" in Solr Dir/example/libConfiguring Solr to Use MySQL<br
2010-10-14 10:03:00
3833
2
原创 敏感词过滤算法
字符串多模式精确匹配(脏字/敏感词汇/关键字过滤算法)——TTMP算法 之实战F模式 <br />字符串多模式精确匹配(脏字/敏感词汇搜索算法)——TTMP算法 之B模式概述字符串多模式精确匹配(脏字/敏感词汇搜索算法) 之算法前传II字符串多模式精确匹配(脏字/敏感词汇搜索算法) 之算法前传 字符串多模式精确匹配(脏字/敏感词汇搜索算法)——TTMP算法 之理论如此 <br />使用DFA实现文字过滤<br />Dfa和文字过滤 <br />文字过滤是一
2010-09-17 10:14:00
28984
1
转载 转 脏字/ 敏感词汇搜索算法
字符串多模式精确匹配(脏字/敏感词汇/关键字过滤算法)——TTMP算法 之实战F模式Sumtec 2008-02-08 22:49 阅读:6353 评论:15 字符串多模式精确匹配(脏字/敏感词汇搜索算法)——TTMP算法 之B模式概述Sumtec 2008-02-04 17:51 阅读:2520 评论:6 字符串多模式精确匹配(脏字/敏感词汇搜索算法) 之算法前传IISumtec 2008-02-03 15:13 阅读:2896 评论:11 字符串多模式精确匹
2010-09-17 09:16:00
3946
原创 katta文档
<br />katta文档<br />http://katta.sourceforge.net/documentation/how-katta-works<br /> <br /> <br />Lucene另一种分布式搜索是使用Solr(本人 不太熟悉Solr)。所有的更新是在Solr的主服务器,通过cron自动分发到搜索服务器。搜索通过只定shards的 host:port/base_url分发到各个搜索服务器。url例子:http://localhost:8983/solr /selec
2010-09-14 17:22:00
2532
原创 lucene 处理大规模数据的一些解决方法 katta--简介
lucene 索引文件有大概10G,搜索时候比较慢,最好拆分存放索引,多位置同时搜索 /** * 得到MultiSearcher多目录查询实例 * * @param String[] dirs 要查询的索引目录。 * * @return MultiSearcher * @throws IOException*/private MultiSearcher getMultiSearcher(String[] dirs) throws IO
2010-09-14 15:17:00
6912
转载 关于开源的网络爬虫/网络蜘蛛larbin结构分析的一篇非常不错的文章
<br /> larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情 larbin也不提供。一个简单的larbin的爬虫可以每天获取500万的网页。<br /><br /> 利用larbin,我们可以轻
2010-09-14 15:02:00
1475
原创 Bloom-Filter算法
<br />一、 Bloom-Filter算法简介。<br />Bloom-Filter,即布隆过滤器,1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中,其优点是空间效率和查询时间都远远超过其他算法,其不足在于Bloom-Filter存在着误判。<br /><br />二、 Bloom-Filter的基本思想。<br />Bloom-Filter算法的核心思想就是利用多个不同的Hash函数来解决“冲突”。<br />计算某元素x是否在一个集合中,首先能想到的方法就
2010-09-14 14:34:00
2548
原创 Mahout
<br />http://lucene.apache.org/mahout/基于 Apache Mahout 构建社会化推荐引擎http://www.ibm.com/developerworks/cn/java/j-lo-mahout/<br /><br />Apache Mahout 简介<br />http://www.ibm.com/developerworks/cn/java/j-mahout/<br /><br />Mahout 0.3: 机器学习开源项目http://www.infoq.com/
2010-09-14 14:27:00
1073
原创 三种压力测试工具 http_load 和 apache ab 、 siege 压力测试
到http://www.acme.com/software/http_load/ 下载http_load ,安装也很简单直接make;make instlall 就行。http_load的标准的两个例子是:http_load -parallel 5 -fetches 1000 urls.txt http_load -rate 2 -seconds 300 urls.txt 例子只是个参考,参数其实可以自由组合,参数之间的选择并没有什么限制。比如你写成http_load -parallel 5 -
2010-09-09 15:30:00
36992
2
原创 Tomcat启动分析
<br /> Tomcat笔记(1)<br /> Tomcat启动分析heavyz, 2003-03-221 - Tomcat Server的组成部分<br />1.1 - Server<br />A Server element represents the entire Catalina servlet container. (Singleton)<br />1.2 - Service<br />A Service element represen
2010-09-04 16:33:00
959
转载 开源运行监控工具推荐 — JavaMelody
<br />JavaMelody能够在QA和实际运行生产环境监测Java或Java EE应用程序服务器。并以图表的形式显示:Java内存和Java CPU使用情况,用户Session数量,JDBC连接数,和http请求、sql请求、jsp页面与业务接口方法(EJB3、Spring、Guice)的执行数量,平均执行时间,错误百分比等。图表可以按天,周,月,年或自定义时间段查看。 <br />使用配置如下:<br /> <br />部署步骤如下:<br /><br /><br />
2010-08-21 15:19:00
2626
1
原创 linux 下 screen 使用方法
<br />经常需要远程登录到Linux服务器?你是不是经常为一些长时间运行的任务头疼?还在用 nohup 吗?那么来看看 screen 吧,它会给你一个惊喜!<br />首先,安装screen<br />wget http://ftp.gnu.org/gnu/screen/screen-4.0.3.tar.gz<br />make install<br />make<br />ln -s yourpath/screen ./screen<br /> <br />现在
2010-08-13 14:26:00
1377
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人