tattarrattat-CSDN博客

原创在clojure下封装Twitter Kestrel

使用clojure封装Twitter Kestrel 队列服务。代码详见： https://github.com/lycaojh/kesterl-clojure

2013-02-21 15:32:05 2338

原创 clojure-jack-in : error in process filter: open-network-stream: make client process failed: Connecti

clojure-jack-in 启动出错出错信息如下：Connecting to Swank on port 65280.. [2 times]error in process filter: open-network-stream: make client process failed: Connection refused, :name, SLIME Lisp, :buff

2013-01-11 15:54:31 3030

转载 Scala 闭包　匿名函数

函数语言的名称源于这样一种概念：程序行为应该像数学函数一样；换句话说，给定一组输入，函数应始终返回相同的输出。这不仅意味着每个函数必须返回一个值，还意味着从一个调用到下一个调用，函数本质上不得具有内蕴状态（intrinsic state）。这种无状态的内蕴概念（在函数/对象领域中，默认情况下指的是永远不变的对象），是函数语言被认为是并发领域伟大的 “救世主” 的主要原因。闭包函数作为一级概念的

2012-04-21 17:11:12 6707

转载一致性哈希相关资料

我最近一段时间在研究 consistent hash。介绍它的paper(Consistent Hashing and Random Trees: Distributed Caching Protocols for Relieving Hot Spots on the World Wide Web byDavid Karger et al) 十年前就出现了，不过直到最近才悄悄的有越来越多的

2011-12-06 16:56:37 2564

研讨如何进行Lucene的分布式应用 共1页 　　提问： 　　现在有个项目，有10台服务器，每台服务器负责某一部分的index。另外有一台web服务器，它可以根据用户提交的查询请求到特定的服务器上进行查找。比如用户提交查询A，根据index的分配情况，可以将查询请求分发给服务器a来负责，而用户提交查询请求B，则将它提交给服务器b来负责。不知lucene目前的index机制和search机制是否能够支持这种需求？ <br

2011-04-21 17:38:00 3930

转载关于搜索引擎及其开发

托google、百度们成功的福，搜索引擎火了半边天。很多人都想跨到这个行业里边来。前两天在公司里边面试了一些人，基本上没有感到满意。不是说从业经验不够，有些也已经工作了三年、四年。不过我估计，或者说是猜想，是不是做应用做的时间太长了，把数据结构、算法，时间、效率都扔到一边去了；然后平时的工作又太忙，平时自己工作的做的可以，但对工作相关的、稍微扩展的知识没有时间或者说是懒得去看了。。。。。 我的想法是，如果有兄弟姐妹要进入这个行业，最好对这个行业流行的想法、做法了解一

2011-03-23 17:07:00 3231 1

转载 Memcache基础教程

Memcache基础教程 Memcache是什么 Memcache是danga.com的一个项目，最早是为 LiveJournal 服务的，目前全世界不少人使用这个缓存项目来构建自己大负载的网站，来分担数据库的压力。 它可以应对任意多个连接，使用非阻塞的网络IO。由于它的工作机制是在内存中开辟一块空间，然后建立一个HashTable，Memcached自管理这些HashTable。 Memcache官方网站：http://www.danga.com/mem

2011-03-22 17:07:00 2156

原创 svn 版本控制 trunk branch tag

——简单的对比　　SVN的工作机制在某种程度上就像一颗正在生长的树：一颗有树干和许多分支的树分支从树干生长出来，并且细的分支从相对较粗的树干中长出一棵树可以只有树干没有分支（但是这种情况不会持续很久，随着树的成长，肯定会有分支啦，^^）一颗没有树干但是有很多分支的树看起来更像是地板上的一捆树枝如果树干患病了，最终分支也会受到影响，然后整棵树就会死亡如果分支患病了，你可以剪掉它，然后其他分支还会生长出来的哦！如果分支生长太快了，对于树干它可能会非常沉重，最后整棵树会垮塌掉当你感觉你的树、树干或者是分支看起来很

2011-02-26 10:44:00 5539

原创数据更新快量大的业务设计数据库

对于千万到几亿级别的数据 设备id分表，按区段或者取模这种传统手段都可以 时间long型做主键 最后去掉自增列 并发如果超过一定量级（比如每秒100次了） 就开始读写分离 主库无索引只写入 从库建索引调整索引大小 如果超大并发（比如每秒500-1000次及以上写入）就这样子： 原始数据用aof式的log存 然后异步的存入数据库 数据库本身再读写分离 写入

2011-02-22 14:35:00 2445 1

原创 linux mysql乱码

全部默认utf8 linux终端utf-8 方法一： LANG="en_US.UTF-8" SUPPORTED="zh_CN.UTF-8:zh_CN:zh:en_US.UTF-8:en_US:en" SYSFONT="latarcyrheb-sun16"方法二：vi /etc/profileexport LC_ALL="en_US.UTF-8"mysql vi /etc/my.cnf[client]default-ch

2011-01-25 09:43:00 2358

转载使用Java NIO编写高性能的服务器

从JDK 1.4开始，Java的标准库中就包含了NIO，即所谓的“New IO”。其中最重要的功能就是提供了“非阻塞”的IO，当然包括了Socket。NonBlocking的IO就是对select(Unix平台下)以及 WaitForMultipleObjects(Windows平台)的封装，提供了高性能、易伸缩的服务架构。说来惭愧，直到JDK1.4才有这种功能，但迟到者不一定没有螃蟹吃，NIO就提供了优秀的面向对象的解决方案，可以很方便地编写高性能的服务器。话说回来，传统的Server/Client实现是

2011-01-21 19:17:00 2834

原创解决mysql“Access denied for user 'root'@'localhost'”

# mysql -uroot -p Enter password: ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: NO) 使用网上介绍的方法修改root用户的密码： # mysqladmin -uroot -p password 'newpassword' Enter password: mysqladmin: c

2011-01-14 00:23:00 252744 1

原创消息队列

twitter最近将ruby实现的消息队列服务器starling开源了，这是一个支持memcache协议的轻量级持久化服务器，因此使用php/perl/ruby/java等多种客户端都没问题，可以将较慢的处理逻辑通过消息队列放在后台处理，同时也支持多点分布式处理。 利用消息队列可以很好地异步处理数据传送和存储，当你频繁地向数据库中插入数据、频繁地向搜索引擎提交数据，就可采取消息队列来异步插入。另外，还可以将较慢的处理逻辑、有并发数量限制的处理逻辑，通过消息队列放在后台处理

2010-12-30 10:14:00 3984

原创 Twitter架构图(cache篇)

根据网上公开资料整理的Twitter架构，主要是cache方面，加了作者自己的补充，跟实际的架构未必完全一致。 一些数据：Cache分Page cache, fragment cache, row cache, vector Cache, cache命中率见图。Fragment cache存放了API各种请求格式的数据，包括XML, JSON, RSS, ATOM。发表Tweets是先放入Kestrel, 再异步处理，Kestrel用的也是memcached协议

2010-12-29 16:51:00 2475

原创 nosql 数据库笔记

分布式数据库缓存 memcache dbcache

2010-12-29 11:22:00 3263

原创 thrift 轻松实现多语言跨服务器通信

thrift 轻松实现多语言跨服务器通信

2010-12-25 16:55:00 4468

原创让Java程序作为linux的Daemon后台运行和使用Java Service Wrapper将java程序作为linux服务并且开机自动启动

让Java程序作为linux的Daemon后台运行使用Java Service Wrapper将java程序作为linux服务并且开机自动启动

2010-12-25 16:27:00 9334 3

转载 Solr Distributed Searching （分布式搜索）

Solr Distributed Searching （分布式搜索）

2010-10-22 16:55:00 5050

转载 solr 分布式部署

solr 分布式部署

2010-10-22 16:48:00 4952

转载 solr 分布式(复制)配置

solr 分布式(复制)配置

2010-10-22 15:41:00 2532

原创 unix设置master和slaver之间无密码访问 ssh

unix设置master和slaver之间无密码访问 ssh

2010-10-22 14:25:00 3021

转载 solr DataImportHandler

大多数的应用程序将数据存储在关系数据库、xml文件中。对这样的数据进行搜索是很常见的应用。所谓的DataImportHandler提供一种可配置的方式向solr导入数据，可以一次全部导入，也可以增量导入。 概览 目标能够读取关系数据库中的数据。通过可配置的方式，能够将数据库中多列、多表的数据生成solr文档能够通过solr文档更新solr 提供通过配置文件就能够导入所有数据的能力

2010-10-21 17:44:00 13959

转载 SolrRelevancyFAQ --排序

SolrRelevancyFAQ --排序

2010-10-20 16:48:00 1438

原创 solr dismax

http://wiki.apache.org/solr/SolrQuerySyntax Please note that many characters in the Solr Query Syntax (most notable the plus sign: "+") are special characters in URLs, so when constructing request URLs manually, you must properly URL-Encode th

2010-10-20 16:46:00 5103

转载 solr 查询参数说明

solr 查询参数说明

2010-10-20 16:25:00 3509

转载 Solr 删除数据的几种方式

Solr 删除数据的几种方式

2010-10-20 16:22:00 13766

原创 solr 索引mysql DIH 链接

Download the JDBC Driver Download the JDBC Driver for MySQL from http://mysql.spd.co.il/Downloads/Connector-J/mysql-connector-java-3.1.14.zip Put the "mysql-connector-java-3.1.14-bin.jar" in Solr Dir/example/libConfiguring Solr to Use MySQL<br

2010-10-14 10:03:00 3833 2

原创 Configuring Solr 1.4 logging with Log4J in Tomcat

solr log4j

2010-10-12 14:45:00 1205

原创 solr1.4 安装部署

solr 安装部署

2010-10-11 17:06:00 2890

原创敏感词过滤算法

字符串多模式精确匹配（脏字/敏感词汇/关键字过滤算法）——TTMP算法之实战F模式 字符串多模式精确匹配（脏字/敏感词汇搜索算法）——TTMP算法之B模式概述字符串多模式精确匹配（脏字/敏感词汇搜索算法）之算法前传II字符串多模式精确匹配（脏字/敏感词汇搜索算法）之算法前传字符串多模式精确匹配（脏字/敏感词汇搜索算法）——TTMP算法之理论如此 使用DFA实现文字过滤 Dfa和文字过滤 文字过滤是一

2010-09-17 10:14:00 28984 1

转载转脏字/ 敏感词汇搜索算法

字符串多模式精确匹配（脏字/敏感词汇/关键字过滤算法）——TTMP算法之实战F模式Sumtec 2008-02-08 22:49 阅读:6353 评论:15 字符串多模式精确匹配（脏字/敏感词汇搜索算法）——TTMP算法之B模式概述Sumtec 2008-02-04 17:51 阅读:2520 评论:6 字符串多模式精确匹配（脏字/敏感词汇搜索算法）之算法前传IISumtec 2008-02-03 15:13 阅读:2896 评论:11 字符串多模式精确匹

2010-09-17 09:16:00 3946

原创 katta文档

katta文档 http://katta.sourceforge.net/documentation/how-katta-works Lucene另一种分布式搜索是使用Solr（本人不太熟悉Solr）。所有的更新是在Solr的主服务器，通过cron自动分发到搜索服务器。搜索通过只定shards的 host:port/base_url分发到各个搜索服务器。url例子：http://localhost:8983/solr /selec

2010-09-14 17:22:00 2532

原创 lucene 处理大规模数据的一些解决方法 katta--简介

lucene 索引文件有大概10G,搜索时候比较慢，最好拆分存放索引，多位置同时搜索 /** * 得到MultiSearcher多目录查询实例 * * @param String[] dirs 要查询的索引目录。 * * @return MultiSearcher * @throws IOException*/private MultiSearcher getMultiSearcher(String[] dirs) throws IO

2010-09-14 15:17:00 6912

转载关于开源的网络爬虫/网络蜘蛛larbin结构分析的一篇非常不错的文章

larbin是一种开源的网络爬虫/网络蜘蛛，由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取，最后为搜索引擎提供广泛的数据来源。Larbin只是一个爬虫，也就是说larbin只抓取网页，至于如何parse的事情则由用户自己完成。另外，如何存储到数据库以及建立索引的事情 larbin也不提供。一个简单的larbin的爬虫可以每天获取５００万的网页。 利用larbin，我们可以轻

2010-09-14 15:02:00 1475

原创 Bloom-Filter算法

一、 Bloom-Filter算法简介。 Bloom-Filter，即布隆过滤器，1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中，其优点是空间效率和查询时间都远远超过其他算法，其不足在于Bloom-Filter存在着误判。 二、 Bloom-Filter的基本思想。 Bloom-Filter算法的核心思想就是利用多个不同的Hash函数来解决“冲突”。 计算某元素x是否在一个集合中，首先能想到的方法就

2010-09-14 14:34:00 2548

原创 Mahout

http://lucene.apache.org/mahout/基于 Apache Mahout 构建社会化推荐引擎http://www.ibm.com/developerworks/cn/java/j-lo-mahout/ Apache Mahout 简介 http://www.ibm.com/developerworks/cn/java/j-mahout/ Mahout 0.3: 机器学习开源项目http://www.infoq.com/

2010-09-14 14:27:00 1073

SOLR搭建企业级搜索引擎

企业级solr入门

myhout in action

经典模式分类 ppt

Pattern_classification 模式分类

研究生教材清华大学矩阵论习题解答

高质量c编程指南(pdf)

空空如也