- 博客(61)
- 资源 (4)
- 收藏
- 关注
转载 PR算法
前言Google通过PageRank算法模型,实现了对全互联网网页的打分。但对于海量数据的处理,在单机下是不可能实现,所以如何将PageRank并行计算,将是本文的重点。本文将继续上一篇文章 PageRank算法R语言实现,把PageRank单机实现,改成并行实现,利用MapReduce计算框架,在集群中跑起来。目录PageRank算法并行化原理MapRed
2014-04-23 12:31:49
11612
原创 CDH5安装
https://wiki.debian.org/JavaPackagejava-package provides the ability to build a Debian package from a Java binary distribution by runningmake-jpkg (with archive files downloaded from provid
2014-04-14 17:09:01
6466
转载 hadoop
http://www.doc88.com/p-737454692045.htmlhttp://www.ibm.com/developerworks/cn/training/kp/os-kp-hadoop/
2014-04-09 17:14:48
848
转载 Solaris下OCI连接Oracle数据库的实例
//Compile: g++ -o getDBConnection testOCI.cpp -I$ORACLE_HOME/rdbms/demo -I$ORACLE_HOME/rdbms/public -lclntsh#include #include #include #include #include int main(int argc,char** argv)
2014-04-09 17:06:18
799
转载 Oracle常用的OCI函数
一. Oracle oci工具包安装: $ORACLE_HOME/BIN:执行文件和help文件 $ORACLE_HOME/OCI/INCLUDE:头文件 $ORACLE_HOME/OCI/LIB/BC: for Borlanf C++的OCI库 $ORACLE_HOME/OCI/LIB/MSVC: for MS Visual C++的OCI库如果是unix下,对于ORAC
2014-04-09 17:05:30
4435
转载 java 线程池
http://www.importnew.com/8542.htmlhttp://liuzl121.iteye.com/blog/1779039 首先说下java实现多线程的两种方式,这个很多人应该都知道,简单的说说,一种是实现Runnable接口,另一种是继承Thread类,两个方法各有各的好处吧,实现Runnable接口的话可以做到多个线程之间的资源共享,同时java是单继
2014-03-21 17:31:14
870
原创 mapreduce counter
http://diveintodata.org/2011/03/15/an-example-of-hadoop-mapreduce-counter/An Example of Hadoop MapReduce CounterPosted: March 15, 2011| Author: Hyunsik Choi | Filed under:FOSS | Tags:
2014-03-06 16:39:36
1052
转载 信号量 semaphore
信号量(semaphore) Linux内核的信号量在概念和原理上与用户态的System V的IPC机制信号量是一样的,但是它绝不可能在内核之外使用,因此它与System V的IPC机制信号量毫不相干。 信号量在创建时需要设置一个初始值,表示同时可以有几个任务可以访问该信号量保护的共享资源,初始值为1就变成互斥锁(Mutex),即同时只能有一个任务可以访问信号量保护的共享资源。
2014-03-04 14:57:52
1480
转载 Linux下消息队列和socket绝对速度比拼[转]
在当今的网络时代,我们常常见到的进程间通信方式都是socket,比如Java的EJB调用,Java和C通信,Web Service服务等。socket是最常用的通讯技术,几乎所有的系统、语言都支持,socket也是面向网络的,通信的两方可以跨越IP网络进行传输。在本地通信中(同一台机器上的进程间通讯),socket的网络特性却成了累赘,组装解析网络报头、报文确认、CRC校验等都是针对网络的,本
2014-02-27 10:24:20
5540
1
转载 ubuntu切换登录管理器
当安装了GDM、LightDM等多个登陆管理器时,如何设置Ubuntu默认的登陆管理器呢? (Ubuntu 11.10下的GDM3登陆界面)本文假设您在运行了Ubuntu或者其他基于Debian的Linux系统。LightDM是默认安装的,但您可能想要切换到GDM,为了完成这个任务,首先在终端中运行下列命令: sudo dpkg-reconfigur
2014-02-26 11:13:33
4784
转载 CSS样式大全
CSS样式大全原文地址 http://blog.sina.com.cn/s/blog_3f6244640100h8s3.html字体属性:(font)大小 {font-size: x-large;}(特大) xx-small;(极小)一般中文用不到,只要用数值就可以,单位:PX、PD样式 {font-style: oblique;}(偏斜体) italic;(斜体)
2013-12-17 15:51:52
1110
转载 Java_Script-XMLHttpRequest
使用XMLHttpRequest对象分为4部完成:1.创建XMLHttpRequest组建2.设置回调函数3.初始化XMLHttpRequest组建4.发送请求实例代码:[javascript] var userName; var passWord; var xmlHttpRequest; //XmlHttpReq
2013-12-17 14:12:11
855
转载 crontab
如果发现您的系统里没有这个命令,请安装下面两个软件包.vixie-croncrontabscrontab 是用来让使用者在固定时间或固定间隔执行程序之用,换句话说,也就是类似使用者的时程表。-u user 是指设定指定 user 的时程表,这个前提是你必须要有其权限(比如说是 root)才能够指定他人的时程表。如果不使用 -u user 的话,就是表示设定自己的时程表。 常用参数:
2013-12-04 17:10:54
578
转载 wireshark
首先说几个最常用的关键字,“eq” 和 “==”等同,可以使用 “and” 表示并且,“or”表示或者。“!" 和 "not” 都表示取反。 一、针对wireshark最常用的自然是针对IP地址的过滤。其中有几种情况: (1)对源地址为192.168.0.1的包的过滤,即抓取源地址满足要求的包。 表达式为:ip.src == 192.168.0.1
2013-12-04 15:06:54
538
原创 python_graph-ite
##################################### BASIC REQUIREMENTS# http://graphite.wikidot.com/installation# http://geek.michaelgrace.org/2011/09/how-to-install-graphite-on-ubuntu/# Last tested & updated 10/13
2013-11-09 15:42:00
1811
转载 mon_godb集群
http://blog.csdn.net/luonanqin/article/details/8497860http://blog.sina.com.cn/s/blog_3fe961ae01015aqw.html Mongodb是时下流行的NoSql数据库,它的存储方式是文档式存储,并不是Key-Value形式。关于Mongodb的特点,这里就不多介绍了,大家可以去看看官方说明:
2013-11-08 14:38:45
963
转载 url_lib2
http://zhuoqiang.me/python-urllib2-usage.html sourcehttp://docs.python.org/2/library/urllib2.html APIhttp://blog.csdn.net/wklken/article/details/7364390 http://blog.csdn.net/wklken/ar
2013-10-24 18:30:02
680
转载 objgraph_gc
在 Python 中,为了解决内存泄漏问题,采用了对象引用计数,并基于引用计数实现自动垃圾回收。因为 Python 有了自动垃圾回收功能,不少初学者就认为自己从此过上了好日子,不必再受内存泄漏的骚扰了。但如果查看一下 Python 文档对 __del__() 函数的描述,就知道好日子里也是有阴云的。下面摘抄一点文档内容: Some common situations that ma
2013-10-23 17:02:40
2673
转载 Luce_ne_Sco_ring_评分机制
原文出处:http://blog.chenlb.com/2009/08/lucene-scoring-architecture.htmlLucene 评分体系/机制(lucene scoring)是 Lucene 出名的一核心部分。它对用户来说隐藏了很多复杂的细节,致使用户可以简单地使用 lucene。但个人觉得:如果要根据自己的应用调节评分(或结构排序),十分有必须深入了解 lucene
2013-10-15 10:00:51
774
转载 GridFS详细分析
GridFS简介GridFS是MongoDB中的一个内置功能,可以用于存放大量小文件。http://www.mongodb.org/display/DOCS/GridFShttp://www.mongodb.org/display/DOCS/GridFS+SpecificationGridFS使用MongoDB提供了一个命令行工具mongofiles可以来处理GridFS,在b
2013-10-14 19:15:43
815
转载 _luce_ne+IK_analyzer
http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html http://blog.csdn.net/enjoyinwind/article/details/8278250 lucene+IKAlyzerhttp://blog.chinaunix.net/uid-20761674-id-3423941.h
2013-10-12 11:21:45
1172
原创 _torn_ado框架
官网:http://www.tornadoweb.org/ 中文版可以看这里:http://www.tornadoweb.cn/ 官方API参考:http://www.tornadoweb.org/documentation/index.html 《Intorduction to Tornado》:http://ishare.iask.sina.co
2013-10-10 22:25:18
1013
原创 pyt_hon + set_up.py + git
python文件操作http://www.cnblogs.com/rollenholt/archive/2012/04/23/2466179.htmlhttp://blog.csdn.net/liuyuehui110/article/details/7243559python字符串操作http://blog.csdn.net/ataraxia2010/a
2013-10-10 17:41:22
1206
原创 _elastic$search%
elasticsearch安装配置及中文分词 http://nosql.51document.com/1368777502778.htmllinux下ElasticSearch(es)安装使用部署http://www.51document.com/1364910818272.html Diving Into ElasticSearch (3) 编写自定义分词插件 htt
2013-10-09 23:26:05
1176
原创 _IDEA
IDEA 快捷键及修改 http://my.oschina.net/xianggao/blog/97539 http://blog.csdn.net/jnhoodlum/article/details/7035781
2013-10-09 23:19:10
9131
1
转载 memcache c操作
http://www.cnblogs.com/lovecindywang/archive/2010/05/19/1739025.html memcache和mongodb的区别http://memcached.org/ memcache下载安装首先是下载 memcached 了,目前最新版本是 1.1.12,直接从官方网站即可下载到 memcached-1.1.12.
2013-08-05 18:19:48
2671
1
转载 比较全面的gdb调试命令
用GDB调试程序 GDB是一个强大的命令行调试工具。大家知道命令行的强大就是在于,其可以形成执行序列,形成脚本。UNIX下的软件全是命令行的,这给程序开发提代供了极大的便利,命令行软件的优势在于,它们可以非常容易的集成在一起,使用几个简单的已有工具的命令,就可以做出一个非常强大的功能。 于是UNIX下的软件比Windows下的软件更能有机地结合,各自发挥各自的长处,组合成更
2013-06-27 21:00:17
593
转载 常用awk命令
ARGC 命令行变元个数 ARGV 命令行变元数组 FILENAME 当前输入文件名 FNR 当前文件中的记录号 FS 输入域分隔符,默认为一个空格 RS 输入记录分隔符 NF 当前记录里域个数 NR 到目前为止记录数 OFS 输出域分隔符 ORS 输出记录分隔符 1、awk '/101/' file 显示文件file中包含1
2013-06-03 17:15:42
492
转载 浮点数的二进制表示
有一道例题: #include void main(void){ int num=9; /* num是整型变量,设为9 */ float* pFloat=# /* pFloat表示num的内存地址,但是设为浮点数 */ printf("num的值为:%d\n",num); /* 显示num的整型值 */ printf("*pFloat的值为:%f\n"
2013-05-29 14:53:52
1184
转载 mysql 引擎优化
介绍: InnoDB给MySQL提供了具有提交,回滚和崩溃恢复能力的事务安全(ACID兼容)存储引擎。InnoDB锁定在行级并且也在SELECT语句提供一个Oracle风格一致的非锁定读。这些特色增加了多用户部署和性能。没有在InnoDB中扩大锁定的需要,因为在InnoDB中行级锁定适合非常小的空间。InnoDB也支持FOREIGN KEY强制。在SQL查询中,你可以自由地将InnoDB类型
2013-05-15 11:30:35
498
原创 mysql导出导入文件
从mysql服务器上导出 可以使用命令SELECT * INTO OUTFILE 'D: o_id.txt' FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"' ESCAPED BY ' ' LINES TERMINATED BY '\n' FROM tb_start_list limit 10; 字段含义 选择出需要导出的数据
2013-05-07 11:06:56
605
转载 C 时间函数
一、获取日历时间time_t是定义在time.h中的一个类型,表示一个日历时间,也就是从1970年1月1日0时0分0秒到此时的秒数,原型是: typedef long time_t; /* time value */可以看出time_t其实是一个长整型,由于长整型能表示的数值有限,因此它能表示的最迟时间是2038年1月18日19时14分07秒。函数time可以获取当前
2013-04-25 19:03:39
548
转载 c/c++ 操作sqlite
http://www.sqlite.org/lang.html 说明:通过sqlite3_get_table查询得到的结果,其结构是:第一行是列名,随后的行才是值。遍历的方式和二维数组相同。#include #include #include #include #include "test.h"int main(int argc, char **argv){
2013-04-24 17:05:03
928
转载 URL特殊符号含义
1、空格换成加号(+) 2、正斜杠(/)分隔目录和子目录 3、问号(?)分隔URL和查询 4、百分号(%)制定特殊字符 5、#号指定书签 6、&号分隔参数 例1:http://blog.sina.com.cn:8080/luoya86/index.html http:协议,web浏览器与web服务器交换数据的会话过程 8080:端口号,
2013-04-22 15:39:44
1412
转载 获取文件属性
// 获取指定文件夹的时间属性,入口参数DirName指定了待处理的文件夹,stime为一// 指向SYSTEMTIME结构的指针BOOL GetDirTime(CString DirName, SYSTEMTIME &stime){// 打开文件夹HANDLE hDir = CreateFile (DirName, GENERIC_READ, FILE_SHARE_REA
2013-04-12 15:16:14
726
转载 re-dis 操-作-配-置
Key-Value Store最大的特点就是它的可扩展性,这也就是它最大的优势。所谓的可扩展性,在我看来这里包括了两方面内容。一方面,是指Key-Value Store可以支持极大的数据的存储,它的分布式的架构决定了只要有更多的机器,就能够保证存储更多的数据。另一方面,是指它可以支持数量很多的并发的查询。对于RDBMS,一般几百个并发的查询就可以让它很吃力了,而一个Key-Value Store,
2013-04-11 17:12:27
794
原创 proweb
http://www.dlipw.com/index.htmlhttp://www.youdaili.cn/http://www.cnproxy.com/proxy1.htmlhttp://www.ip51.org/
2013-04-08 11:30:31
695
转载 Javascript经典正则表达式
三道测试题:1, var str=“ abbbbacc”;var rs=str.replace(“a”,”0”); (A)0bbbbacc (B)0bbbb0cc2,var str=“ abbbbacc”;var rs=str.replace(“/a/”,”0”); (A)0bbbbacc (B)0bbbb0cc 3,var str=“ abbbbacc”;
2013-04-07 12:30:53
505
转载 HTTP 1.1状态代码及其含义
应当谨慎地使用那些只有HTTP 1.1支持的状态代码,因为许多浏览器还只能够支持HTTP 1.0。如果你使用了HTTP 1.1特有的状态代码,最好能够检查一下请求的HTTP版本号。 状态代码 状态信息 含义 100 Continue 初始的请求已经接受,客户应当继续发送请求的其余部分。(HTTP 1.1新) 101 Switching Protocols 服务器将遵从客户的
2013-04-03 09:40:53
633
转载 mark一下boost
http://blog.sina.com.cn/s/blog_40b056950100ht8p.html出处:http://hi.baidu.com/vc_net/item/3dc5d0d9f07741e955347f45windows下boost怎样安装与使用说明?第1步:先从官网(www.boost.org)下载最新版的BOOST源码,如图所示随便下哪个都行,我这里
2013-03-28 19:06:52
575
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人