- 博客(62)
- 资源 (31)
- 收藏
- 关注
翻译 The google file system--测量(二)
现实中的集群1.存储正如表(1)中前五个条目显示的,这两个集群都有数百个块服务器,提供数TB的硬盘空间,都已存储一定0的数据。“已用空间”部分包括所有的块副本。几乎所有的文件都被复制三次。它们分别存储了18TB和52TB的文件数据。这两个集群有类似数量的文件,虽然集群B有大量的死文件、已经删除或者被新版本替换的文件,但是其存储空间仍旧没被回收。相比A而言,它有更多的块,因为它的文件更大
2012-02-28 16:14:07
688
转载 Hadoop Streaming
Hadoop StreamingHadoop streaming是Hadoop的一个工具, 它帮助用户创建和运行一类特殊的map/reduce作业, 这些特殊的map/reduce作业是由一些可执行文件或脚本文件充当mapper或者reducer。例如:$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
2012-02-25 15:21:50
1209
转载 C++ 跨平台应用
口号:一次编码,到处编译! :-) 一次编码,在 vc7.1 , vi 甚至ulteredit 上完成编码。 到处编译,将写好的代码 copy 到其它操作系统,也能够编译运行,而不用去修改哪怕一行代码。 听起来是不是象 SUN 的口气,呵呵。 其实 c++ 的移植性个人认为是超过 java 的,java之所以名声在外的原因 B.S 说得很明了:厂商利益。
2012-02-24 14:04:00
657
转载 c++ 代理类
C++代理类的使用所谓代理类,即surrogate.为什么要使用它呢,简单的举个例子. 1 class Vehicle 2 { 3 public: 4 Vehicle(){} 5 virtual string getName()= 0; 6 }: 7 8 class Car : public Vehicle 9 {10 public:
2012-01-30 17:46:51
635
原创 商业智能相关概念
1. CRM(Customer Relationship Management)客户关系管理指企业用CRM来管理与客户之间的关系。在不同场合下,CRM可能是一个管理学术语,可能是一个软件系统,而通常所指的CRM,是指用计算机自动化分析销售、市场营销、客户服务以及应用支持等流程的软件系统。它的目标是缩减销售周期和销售成本、增加收入、寻找扩展业务所需的新的市场和渠道以及提高客户的价值、满意度、赢利
2012-01-09 16:43:29
1030
转载 如何理解商业智能
商业智能(BI)是目前在国外企业界和软件开发界受到广泛关注的一个研究方向。可以用两点来总结这种研究热点出现的原因:一、信息技术的高速发展带来了企业利用信息技术提高本身竞争力的巨大空间:信息技术不但使企业获取需要的信息,而且,促进企业对信息的再利用,以此营造企业的竞争优势;二、IT界许多以提供软件平台和工具平台的大公司通过多年与企业的交流,已经认识到企业对商业智能的迫切需求,纷纷加入到从事商业智能的
2012-01-03 13:16:56
1371
原创 STL 容器的运用场合
缺省情况下应该使用 vector。vector的内部结构最简单,并允许随机存取。 若要经常在列表的头部和尾部安插和移除元素,或者希望元素溢出的时候,容器能够自动缩减内存,应该采用deque。 若要经常在容器中部进行元素的插入/删除/移动,应使用list。 若经常需要根据某个准则来搜寻元素,应使用 set 或者multiset。 若经常处理key/pair,请使用map或者multi
2011-12-19 18:49:44
813
原创 流数据挖掘(三)
本篇主要介绍流数据的研究内容。 数据流处理准备知识。 1. 数据流模型的研究 数据流模型是对数据流的逻辑抽象,合理的数据流模型,可以改善数据流的处理效率,是设计高效的处理算法的基础。数据流分析模型主要包括: 滑动窗口模型(sliding window model)、界标模型(landmark model)和快照窗口模型(snapshot window model)。
2011-12-17 15:23:07
6978
转载 BI工具
Pentaho Pentaho商业智能套件提供企业级报表制作、分析、数据挖掘、数据集成与工作流功能。还可以利用其灵活与完整的基础框架来构建自定义的BI应用套件。 SpagoBI 商务智能套件SpagoBI提供一个基于J2EE的框架用于管理BI对象如报表、OLAP分析、仪表盘、记分卡以及数据挖掘模型等。它提供的BI管理器能够控制、校验、验证与分发这些BI对象。 Spa
2011-12-12 11:19:09
7342
转载 140个google面试题
Google Interview Questions: Product Marketing Manager•Why do you want to join Google?•What do you know about Google’s product and technology?•If you are Product Manager for Google’s Adwords, how
2011-12-10 16:50:02
2367
转载 机器学习正在改变我们的工作与生活
器学习是关于计算机基于数据构建模型并运用模型来模拟人类智能活动的一门学科。随着计算机与网络的飞速发展,机器学习在我们的生活与工作中起着越来越大的作用,正在改变着我们的生活和工作。 1.日常生活中的机器学习我们在日常生活中经常使用数码相机。你也许不知道,数码相机上的人脸检测技术是基于机器学习的!我认识三位了不起的科学家与工程师,他们是Robert Schapire、Paul
2011-12-07 14:37:56
981
转载 RMS 在哲思峰会上的讲演--Free Software
自由软件是尊重用户自由的软件。这是一个关于自由而不是价格的概念,请大家将“Free software”翻译成自由软件,而不是免费软件。 如果一个软件不是自由软件,那么它只是一款,非免费软件,以用户为目标的软件。 非免费软件分离了用户,让用户觉得无助。分离了用户,因为它禁止用户共享软件;说它让用户觉得无助,是因为用户没有源代码,就不能改变软件, 他们甚至不知道这个软件究竟会对他们做些什么。
2011-12-04 21:54:05
2527
原创 朴素贝叶斯分类
在文本分类中,假设我们有一个文档d∈X,X是文档向量空间(document space),和一个固定的类集合C={c1,c2,…,cj},类别又称为标签。显然,文档向量空间是一个高维度空间。我们把一堆打了标签的文档集合作为训练样本,∈X×C。例如:={Beijing joins the World Trade Organization, China}对于这个只有一句话的文档,我们把它归类到
2011-11-30 11:04:52
5508
转载 6个变态的C语言Hello World程序
下面的六个程序片段主要完成这些事情:输出Hello, World 混乱C语言的源代码 下面的所有程序都可以在GCC下编译通过,只有最后一个需要动用C++的编译器g++才能编程通过。hello1.c1234567891011 #define _________ } #define
2011-11-28 09:35:30
729
转载 我们工作到底为了什么
转自朋友qq空间。 我们工作到底为了什么HP大中华区总裁孙振耀退休感言 :如果这篇文章没有分享给你,那是我的错。 如果这篇文章分享给你了,你却没有读,继续走弯路的你不要怪我。 如果你看了这篇文章,只读了一半你就说没时间了,说明你已经是个“茫”人了。 如果你看完了,你觉得这篇文章只是讲讲大道理,说明你的人生阅历还不够,需要你把这篇文章珍藏,走出去碰几年壁
2011-11-21 10:40:51
1290
原创 C++之auto_ptr
auto_ptr是一种智能指针(smart pointer),用来自动分配对象并且当不再需要对象时进行自动销毁。一个典型的例子就是运用new 和delete来产生和销毁对象。Void tem(){ classA * ptr=new classA; … delete ptr; }显而易见的问题是我们经常忘记delete动作,特别是当函数中存在ret
2011-11-18 09:42:40
1947
原创 c++关键字之static
Static对于特定类类型的全体对象来讲,访问一个全局对象有时是很必要的。然而,对一个类来说,全局对象或许会破坏封装。取而代之的方法是,类定义静态成员(static)来代替一个可普遍访问的全局对象。static成员包括static数据成员和static成员函数。通常,非static数据成员存在于类类型的每个对象中,而static数据成员独立于该类的所有对象而存在,每个static数据成
2011-11-14 15:25:55
608
转载 C++连接mysql数据库的两种方法
现在正做一个接口,通过不同的连接字符串操作不同的数据库。要用到mysql数据库,以前没用过这个数据库,用access和sql server比较多。通过网上的一些资料和自己的摸索,大致清楚了C++连接mysql的方法。可以通过2种方法实现。第一种方法是利用ADO连接,第二种方法是利用mysql自己的api函数进行连接。第一种方法可以实现我当前的需求,通过连接不同的字符串来连接不同的数据库
2011-11-13 13:46:38
2154
转载 一些C++开源库
C++在“商业应用”方面,曾经是天下第一的开发语言,但这一桂冠已经被java抢走多年。因为当今商业应用程序类型,已经从桌面应用迅速转移成Web应 用。当Java横行天下之后,MS又突然发力,搞出C#语言,有大片的曾经的C++程序员,以为C++要就此沉沦,未料,这三年来,C++的生命力突然被 严重地增强了。主力原因就是开源的软件、基础软件(比如并发原生支持,比如Android必定要推出原生的SDK)
2011-11-12 16:40:37
915
转载 从技术角度看中国谁能玩转大数据技术
毫无疑问,世界上所有关注开发技术的人都意识到“大数据”对企业商务所蕴含的潜在价值,其目的都在于解决在企业发展过程中各种业务数据增长所带来的痛苦。现实是,许多问题阻碍了大数据技术的发展和实际应用。因为一种成功的技术,需要一些衡量的标准。现在我们可以通过几个基本要素来衡量一下大数据技术,这就是——流处理、并行性、摘要索引和可视化。谁会用到大数据呢?一年前,大数据技术的一
2011-11-07 20:07:30
809
原创 数据流挖掘(二)
现有的数据流管理系统:数据流管理主要从系统的角度针对不同的应用背景,重点研究数据流的查询语言、查询模型、操作调度、资源管理、负载控制等与管理系统密切相关的问题。由于传统的数据库管理系统难以支持数据流应用中亟需的“连续查询”需求,因此,国内外许多大学和研究机构依托数据库管理系统的设计思路,针对具体行业背景,相继提出了多种数据流模型,并研发了一些具有代表性的数据流管理系统,典型的有:斯坦福大学的S
2011-11-03 16:00:23
2068
原创 不错地网络爬虫
Nutch 是一个使用 Java 编写,在 Apache 许可下发行的爬虫。它可以用来连接Lucene 的全文检索套件。WebVac 是斯坦福 WebBase 项目使用的一个爬虫。WebSPHINX 是一个由 Java 类库构成的,基于文本的搜索引擎。它使用多线程进行网页检索和 HTML 解析,拥有一个图形用户界面用来设置开始的种子 URL和抽取下载的数据。Ruya 是一个
2011-11-03 00:34:34
3363
原创 数据流挖掘(一)
近年来,随着计算机技术、信息处理技术在工业生产、经济信息处理等领域的广泛应用,数据已不仅仅拘泥于文件、数据库等传统的静态形式,一种连续、无界、不定速度的流式数据(即数据流)已经出现在越来越多的应用领域当中,如:互联网应用:互联网用户数量的增加直接导致网络通信量的急剧上升,互联网站点访问、即时消息通讯、电子邮件和在线视频等各类应用都产生大量的数据。金融应用:股票和基金等金融交易报价数据瞬息万
2011-11-02 18:46:04
3211
转载 GPL v2
声明!这是一份 GNU 通用公共授权非正式的中文翻译。它并非由自由软件基金会所发表,亦非使用 GNU 通用公共授权的软件的法定发布条款─只有 GNU 通用公共授权英文原文的版本始具有此等效力。然而,我们希望这份翻译能帮助中文的使用者更了解 GNU 通用公共授权。 This is an unofficial translation of the GNU General Public Lice
2011-10-31 21:43:15
1466
转载 Google Project Hosting
一、 简介Google code Project Hosting为项目开发提供了简洁方便的平台,尤其适用于多人合作的项目,在这里项目成员的交流和 沟通更加快捷高效,项目开发也更加合理有序。常用的开源项目托管平台有 sourceforge,google code 等. Sourceforge 是全球最大的开源社区,许多重 要,大型的的开源项目都选择 Sourceforge 作为其开发交流的平
2011-10-31 13:35:10
1805
原创 linux 解压命令汇总
.tar 解包:tar xvf FileName.tar打包:tar cvf FileName.tar DirName(注:tar是打包,不是压缩!)———————————————.gz解压1:gunzip FileName.gz解压2:gzip -d FileName.gz压缩:gzip FileName.tar.gz 和 .tgz解压:tar zxv
2011-10-27 20:45:30
586
原创 编辑距离算法
字符串编辑距离: 是一种字符串之间相似度计算的方法。给定两个字符串S、T,将S转换成T所需要的删除,插入,替换操作的数量就叫做S到T的编辑路径。而最短的编辑路径就叫做字符串S和T的编辑距离。举个例子:S=“eeba” T="abac" 我们可以按照这样的步骤转变:(1) 将S中的第一个e变成a;(2) 删除S中的第二个e;(3)在S中最后添加一个c; 那么S到T的编辑路径就等于3。当然
2011-10-27 11:20:18
5078
1
转载 数据仓库、OLAP和数据挖掘的比较分析
一、数据仓库、 OLAP和数据挖掘的关系和区别分析 1.数据仓库、OLAP和数据挖掘三者之间的关系 在比较成熟的系统中,数据分析过程都是基于以数据仓库为基础,OLAP和数据挖掘相辅相成的分析模式(如图1所示)。数据仓库将来自于各种数据源的数据,根据不同的主题进行存储,并对原始数据进行抽取、转换和加载等一系列筛选和清理工作。OLAP则将数据通过多维视角和多种层次向用户进行多方式的呈现
2011-10-26 14:08:36
3458
1
转载 新的大数据的知识发现和数据挖掘
来自如谷歌和雅虎这样的公司的顶尖的科学家,和高级学者们一起齐聚在本周在圣地亚哥举行的第17次计算机械协会(ACM)的知识发现和数据挖掘(KDD)会议上。他们将要展示从当下产生的铺天盖地的数据中寻找洞察力的最新技术,并使各种各样形式的信息变得比以往任何时候都更有意义。二十年前,关心所谓的“大数据”的人只是一些科学团体的成员 — 只有他们有大量的数据集和有动机试图处理这些数据,计算机械协会(A
2011-10-26 14:06:24
1734
转载 商业智能是如何帮助预测流行趋势的
Elie Tahari,一家高档女式时装品牌和零售的连锁企业,总能找准它的顾客想要的风格。 并非依靠魔术,也没有水晶球。这家零售商依靠的是科学的 数据挖掘的预测分析,利用技术来预测它在Nordstrom及其他高端零售商店上的市场需求。该工具从一个不断更新的数据仓库中获取数据来预测每周要送到每一家商店的货品,直至每一个销售地点上以满足需求的式样、颜色和尺寸。“它能保护客户的利益,
2011-10-26 13:23:57
1786
转载 信息检索资源
1、 英国剑桥大学自然语言和信息处理研究小组Cambridge The Natural Language and Information Processing (NLIP) Research Group,http://www.cl.cam.ac.uk/Research/NL/ 2、 英国格拉斯哥大学信息检索研究小组Glasgow Information Retrieval Grou
2011-10-24 16:12:54
2148
转载 在麻省理工读计算机专业,看美国的计算机教育
转自http://news.csdn.net/a/20100206/216928.html美国, 麻省, 计算机教育, 理工, 专业 清华本科5年,和许多同志们一样为着一个闯荡世界的梦想苦苦努力,98年终于在历尽千辛万苦之后,踏上北美大陆。这两年来当真是感慨万千,清华的学习生活我算是深有体会,而北美大学的学习生活我也可以算是领会了个中滋味。相信国内的许多好学上进的DDMM们还处在一种梦想和憧憬
2011-10-20 22:53:56
737
转载 编程技术面试的五大要点
扎实的基础知识、高质量的代码、清晰的思路、优化代码的能力、优秀的综合能力是编程技术面试的五大要点。找工作一直是一个热门话题。要想找到心仪的工作,难免需要经过多轮面试。编程面试是程序员面试过程中最为重要的一个环节。如果能在编程面试的环节充分展示自己的能力,那么拿到中意的Offer就是水到渠成的事情。我先后在欧特克、微软和思科等公司任软件工程师,多次接受他人的面试,同时也面试过很多人。总结面试
2011-10-09 20:19:48
819
转载 Google对学生朋友的一点建议
对学生朋友的一点建议 发表者:Google(谷歌)中国工程研究院工程师方坤 自去年春天加入谷歌,我曾多次随公司校园招聘团队一起走访各地院校,帮助公司发掘人才。利用这样的出差机会到处走走看看,饱览祖国大好河山,是我一点小小的私心。但更具挑战性、更激动人心的,还是和我未来的同事们过招,不打不相识嘛。一想到马上就要和这样优秀的人才一起工作,我就兴奋不已,真恨不得现在就买一张单程机票
2011-10-07 21:47:21
601
转载 几款优秀的开源数据挖掘工具
本文只对几种流行的开源数据挖掘平台进行了检视,比如Weka和R等。如果您想找寻更多的开源数据挖掘软件,可以到KDnuggets和Open Directory上查看。为了评测这些软件,我们用了UCI Machine Learning Repository上的心脏病诊断数据集。RR (http://www.r-project.org) 是用于统计分析和图形化的计算机语言及分析工具,为了保证性能
2011-09-28 16:13:39
1042
转载 C++11 中值得关注的几大变化(详解)
引自:http://coolshell.cn/articles/5265.html 源文章来自前C++标准委员会的 Danny Kalev 的 The Biggest Changes in C++11 (and Why You Should Care),赖勇浩做了一个中文翻译在这里。所以,我就不翻译了,我在这里仅对文中提到的这些变化“追问为什么要引入这些变化”的一个探讨,只有知道为了什
2011-08-29 21:39:08
684
转载 Perl、PHP、Python、Java和Ruby的比较
预览◆ 语言的发展趋势一定是动静结合、刚柔并济◆ Perl凝练晦涩,Python优雅明晰,Ruby精巧灵动,PHP简明单纯◆ 或许优雅正是来自对细节和规范的重视◆ (RoR)与Ruby结合之后,便如一只猱身而上灵猫,立刻衬托出Java和.NET大象般的身影提问◆ Perl、Python、Ruby和PHP各自有何特点?◆ 为什么动态语言多作为轻量级的解决方案?◆ LA
2011-07-21 16:32:19
1137
转载 到了哈佛,你才知道真正的精英并不是天才,都是要付出更多努力的人
人到底有怎样的发挥潜力?人的意志,人的才情,人的理想,为什么在哈佛能兑现?哈佛的学生餐厅,很难听到说话的声音,每个学生端着比萨可乐坐下后,往往边吃边看书或是边做笔记。我就没见过哪个学生光吃不读的,更没见过哪个学生边吃边闲聊的。感觉哈佛,餐厅不过是一个可以吃东西的图书馆,是哈佛正宗100个图书馆之外的另类图书馆。哈佛的医院,同样的宁静,同样的不管有多少在候诊的人也无一人说话,无一人不在阅读或记录。医
2011-04-27 23:58:00
1175
1
Business Intelligence(商业智能)
2011-12-17
集体智慧编程
2011-11-14
信息检索导论
2011-10-20
Linux 编程白皮书()
2010-03-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人