
IT
文章平均质量分 71
stevie
坚持自己的梦想。。。
展开
-
算法——K均值聚类算法(Java实现)
实现:Java代码如下[java] view plaincopypackage org.algorithm; import java.util.ArrayList; import java.util.Random; /** * K均值聚类算法 */ public class Kmeans {转载 2013-06-03 09:35:19 · 1438 阅读 · 0 评论 -
常用的匹配正则表达式和实例
匹配中文字符的正则表达式: 程序代码[\u4e00-\u9fa5]匹配双字节字符(包括汉字在内): 程序代码[^\x00-\xff]应用:计算字符串的长度(一个双字节字符长度计2,ASCII字符计1) 程序代码String.prototype.len=function(){return this.replace([^\x00-\xff]/g,"aa")原创 2013-03-13 16:59:48 · 1093 阅读 · 0 评论 -
基本Kmeans算法介绍及其实现
1.基本Kmeans算法[1][cpp] view plaincopyprint?选择K个点作为初始质心 repeat 将每个点指派到最近的质心,形成K个簇 重新计算每个簇的质心 until 簇不发生变化或达到最大迭代次数 选择K个点作为初始质心repeat 将每个点指派到最近的质心,形成K个簇 重新计算每个簇的质心转载 2013-03-14 16:37:55 · 1817 阅读 · 0 评论 -
Hadoop学习之zookeeper(集群安装)
ZooKeeper是一个分布式开源框架,提供了协调分布式应用的基本服务,它向外部应用暴露一组通用服务——分布式同步(Distributed Synchronization)、命名服务(Naming Service)、集群维护(Group Maintenance)等,简化分布式应用协调及其管理的难度,提供高性能的分布式服务。ZooKeeper本身可以以Standalone模式安装运行,不过它的长原创 2013-03-13 17:08:51 · 1888 阅读 · 0 评论 -
Weka使用笔记之一
前些日子基于weka初步做了一下文本分类,使用的是最频繁使用的矢量空间模型(Vector Space Model),即假设正负样本在特征空间的分布迥异,基于某种规则将它们转化为矢量,然后训练分类器来区分这些矢量,测试样本来时送进分类器进行分类就行。在我的实验里面,特征降维使用的是基于TFIDF的特征选择,分类器使用的是朴素贝叶斯(naïve bayes)分类器。 前期预处理编码不一致:原创 2013-03-13 17:04:08 · 1956 阅读 · 0 评论 -
perl中my和our的区别
perl中our的用法require 5.006当版本号小于 5.006 的时候,会返回失败,从而导致模块加载失败。所以它的作用就是保证模块调用环境的 Perl 版本。our 和 my 一样,都是对变量的声明,不过 our 声明的是包全局变量,而 my 声明的是词法变量。不过,经过 our 声明的变量,它会变得像一个词法变量一样,其实这也是 our 存在原创 2013-03-02 08:30:17 · 938 阅读 · 0 评论 -
Perl 调试方法
缺省的Perl调试器就是perl解释器本身,另外还有图形界面的调试器。因为我们在开发程序时一般都使用telnet访问服务器,所以这里主要介绍一下缺省的命令行调试器的用法。用-d 命令行选项启动Perl解释器,例如 perl -d test.pl 即进入Perl调试器的交互界面。调试命令列表如下:(所有命令都在调试提示符下顶格输入,命令大小写有关)h:显示调试器的原创 2013-03-02 08:27:16 · 718 阅读 · 0 评论 -
Hive Partition简介
一、背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构。二、技术细节原创 2013-03-02 08:24:01 · 9161 阅读 · 1 评论 -
mysql 之utf8
因为要搞多语言版的项目,数据库是Mysql-4.1.9,使用PHP来操作Mysql,为了能使用utf8,今天搞了一天,终于搞定,期间也参考了好多资料,似乎都有问题,也许是没有找到真正的有用的资料,后来经过自己的“小聪明”,终于搞定!注意:mysql 3.X的版本不支持utf8! 下面分别从mysql的安装,建数据库,建表以及PHP的连接来介绍! 1.安装mysql 很简单,我现原创 2013-03-01 16:27:08 · 620 阅读 · 0 评论 -
利用apache ant 包进行压缩、解压缩zip,归档tar,解档tar,压缩tar.gz解压tar.gz
最近用到了利用java进行一序列压缩解压缩,jdk也自带了,这里我就不用它了。本例用到的开源包是apahce ant.jar。我上传了。希望对大家有帮组。 引用Java压缩zip,解压缩zipJava代码[java] view plaincopyprint?import java.io.File; import java.io.FileInputS转载 2013-03-01 16:10:36 · 1149 阅读 · 0 评论 -
linux history历史命令介绍
现在大多数的Linux系统都使用bash作为默认的shell吧,下面就介绍一下bash的history命令管理功能吧,history命令可以回顾,修改和重用之前使用过的历史命令。1.一些变量说明:$HISTFILE bash启动的时候会读取~/.bash_history文件并载入到内存中,这个变量就用于设置.bash_history文件,bash退出时也会把内存中的历史回写到.bash_h原创 2013-03-01 16:02:52 · 1181 阅读 · 0 评论 -
如何解决Eclipse启动时画面一闪而过
以前Eclipse都可以正常使用,突然有一天不能启动了,点击图标后启动画面一闪之后就消失了,以下是一些解决方案1. 找到Eclipse目录下的eclipse.exe,右键点击-》发送到桌面快捷方式,然后右键点击快捷方式,选择属性,修改“目标”(或target) : E:\SoftWare\Myclipse\eclipse\eclipse.exe -vm "C:\Program Fil原创 2013-03-01 15:22:05 · 956 阅读 · 1 评论 -
协同过滤算法(1)
在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。下面直接进入正题1 什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么转载 2013-03-14 14:08:44 · 870 阅读 · 0 评论 -
Hadoop学习之zookeeper(2)
本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础,最新的版本可以通过官网http://hadoop.apache.org/zookeeper/来获取,Zookeeper 的安装非常简单,下面将从单机模式和集群模式两个方面介绍 Zookeeper 的安装和配置。 单机安装非常简单,只要获取到 Zookeeper 的压缩包并解压到某个目录如:/home/zookeepe原创 2013-03-13 17:12:33 · 936 阅读 · 0 评论 -
对zookeeper的一些分析
1.zookeeper不是为高可用性设计的o 由于要跨机房容灾,很多系统实际上是需要跨机房部署的。出于性价比的考虑我们通常会让多个机房同时工作,而不会搭建N倍的冗余。也就是说单个机房肯定撑不住全流量(你能设想谷歌在全球只剩下一个机房在干活吗)。由于zookeeper集群只能有一个master,因此一旦机房之间连接出现故障,zookeeper master就只能照顾一个机房,其他机房运原创 2013-03-13 17:19:57 · 1068 阅读 · 1 评论 -
chukwa在数据收集处理方面的应用
Chukwa 简介什么是 Chukwa,简单的说它是一个数据收集系统,它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop 进行各种 MapReduce 操作。Chukwa 本身也提供了很多内置的功能,帮助我们进行数据的收集和整理。Chukwa 应用场景介绍为了更加简单直观的展示 Chukwa,我们先来看一个假设的场景。假设我们有一个规模很转载 2013-03-26 09:15:24 · 1478 阅读 · 0 评论 -
基于Hadoop的日志收集框架---Chukwa的处理流程
1. 模拟增量日志环境/home/matrix/Program/project/log/testlogShell代码 - 10.0.0.10 [17/Oct/2011:23:20:40 +0800] GET /img/chukwa.jpg HTTP/1.0 "404" "16" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"转载 2013-03-22 13:54:07 · 1521 阅读 · 0 评论 -
基于Hadoop的日志收集框架---Chukwa的安装部署
chukwa是解决在集群环境中收集各节点增量日志的一种基于hadoop的实现方案,其主要有如下四个组成部分。1. Agents 运行在每个客户端上,负责发送数据。2. Collectors 接收Agents发送的数据并写入稳定存储。3. MapReduce jobs 分析和归档数据。4. HICC 数据中心,用于显示数据的web界面。它的系统架构如下图以单机部署为例,前转载 2013-03-22 13:55:04 · 2298 阅读 · 0 评论 -
Hadoop集群破坏试验可靠性验证
测试结果说明: 集群环境说明:主机名IP地址操作系统版本Hadoop版本Hbase版本Zookeeper版本机器用途hadoop1192.168.3.65Linux AS 4.8hadoop-0.20.2hbase-0.90.4zookeeper-3.3.3namenodehadoop2192.16转载 2013-03-25 17:37:12 · 1881 阅读 · 0 评论 -
MySQL中UNION和UNION ALL的使用
在数据库中,UNION和UNION ALL关键字都是将两个结果集合并为一个,但这两者从使用和效率上来说都有所不同。MySQL中的UNIONUNION在进行表链接后会筛选掉重复的记录,所以在表链接后会对所产生的结果集进行排序运算,删除重复的记录再返回结果。实际大部分应用中是不会产生重复的记录,最常见的是过程表与历史表UNION。如:select * from gc_dfys union原创 2013-03-25 15:41:42 · 1052 阅读 · 0 评论 -
Hadoop Shell命令(1)
FS Shell调用文件系统(FS)Shell命令应使用bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme原创 2013-03-25 09:38:25 · 782 阅读 · 0 评论 -
将Chukwa 0.5部署在基于Cloudera CDH4的Hadoop集群上
一、使用maven构建基于chukwa 0.5的项目 使用nexus搭建了maven私服,此时如果使用maven构建chukwa 0.5版本时可能在以下两个依赖项遇到问题 thrift-0.2.0.jar hadoop-core-0.20-append-r1056497.pom 这是因为chukwa0.5版本在pom文件中依赖了hbase0转载 2013-03-22 13:50:20 · 1137 阅读 · 0 评论 -
hadoop之Rebalance
HDFS中的数据按照一定策略分布在集群中的多个数据节点上,但在某些情况下,数据的分布也会出现不均衡的情况,比如说集群新增加了节点,在新增加的节点上就没有数据存在,虽说之后新增的数据会分配到新节点上,不过,对于已有数据,新节点和原有节点上的分布很不均衡,而且这还会导致在分配MapReduce任务的时候新机器分配不到可执行的任务分配,白白浪费了新增节点的计算能力。而对于一个真实的生产环境来说,随着数据转载 2013-03-25 13:06:37 · 4682 阅读 · 0 评论 -
Hbase安装
集群环境:192.168.11.12 作为hbase主master192.168.11.14 作为hbase备用master 192.168.11.16作为zookeeperNode/HRegionsever192.168.11.18作为zookeeperNode/HRegionsever192.168.11.20作为zookeeperNode/HRegionsever原创 2013-04-01 08:41:08 · 968 阅读 · 0 评论 -
google三宝之BigTable
2006年的OSDI有两篇google的论文,分别是BigTable和Chubby。Chubby是一个分布式锁服务,基于Paxos算法;BigTable是一个用于管理结构化数据的分布式存储系统,构建在GFS、Chubby、SSTable等google技术之上。相当多的google应用使用了BigTable,比如Google Earth和Google Analytics,因此它和GFS、MapRed转载 2013-03-29 20:56:05 · 1067 阅读 · 0 评论 -
google三宝之MapReduce
江湖传说永流传:谷歌技术有"三宝",GFS、MapReduce和大表(BigTable)!谷歌在03到06年间连续发表了三篇很有影响力的文章,分别是03年SOSP的GFS,04年OSDI的MapReduce,和06年OSDI的BigTable。SOSP和OSDI都是操作系统领域的顶级会议,在计算机学会推荐会议里属于A类。SOSP在单数年举办,而OSDI在双数年举办。那么这篇博客就来转载 2013-03-29 20:52:05 · 1187 阅读 · 0 评论 -
基于物品的协同过滤推荐算法——读“Item-Based Collaborative Filtering Recommendation Algorithms” .
一、协同过滤算法描述 推荐系统应用数据分析技术,找出用户最可能喜欢的东西推荐给用户,现在很多电子商务网站都有这个应用。目前用的比较多、比较成熟的推荐算法是协同过滤(Collaborative Filtering,简称CF)推荐算法,CF的基本思想是根据用户之前的喜好以及其他兴趣相近的用户的选择来给用户推荐物品。 如图1所示,在CF中,用m×n的矩阵表转载 2013-03-14 14:31:36 · 1085 阅读 · 0 评论 -
数据科学家的争夺及美分析学专业研究生院的建立
摘要:21世纪什么最重要?当然是人才,而对大数据玩家尤其重要的数据科学家正处于严重缺货状态!为此美国一些大学已经开始成立分析学专业的研究生院,开设了丰富的学习课程。而对数据科学家的争夺更是愈演愈烈,比如:随着大数据的运用水平逐步提高,日本也加入了人才的争夺行列。需求高涨的数据科学家 从技术方面来看,硬盘价格下降,NoSQL数据库等技术的出现,使得和过去相比,大量数据能够以廉价高效的转载 2013-03-14 07:48:16 · 1112 阅读 · 0 评论 -
Hadoop学习之zookeeper(1)
Zookeeper是Hadoop的分布式协调服务。 Zookeeper是简单的,它的核心是一个精简的文件系统,它提供一些简单的操作和额外的抽象操作,如排序和通知。Zookeeper表现力足够强,它的原语操作是一组丰富的构件,可用于实现很多协调数据结构和协议。如分布式队列,分布式锁和一组同级别的领导者选举等。Zookeeper具有高可用性,它运行在一组机器之上,并且在设计上具有高可用原创 2013-03-13 17:06:32 · 821 阅读 · 0 评论 -
Perl字符串处理
众所周知Perl处理字符串的功能非常强大,Perl(Practical Extraction and Reporting language)处理格式的功能也非常强大,这里我们就开始学习一些Perl的格式和字符串处理。熟悉其最强大的三个函数:substr、pack、unpack。1、大小写处理函数 lc(转为小写) uc(转为大写) 。$text="zhengwen feng";原创 2013-03-02 08:26:35 · 1370 阅读 · 0 评论 -
Hadoop集群环境部署
Hadoop 压缩/解压插件 lzo安装说明1、所需软件apache-ant-1.8.0-bin.tarant编译工具,必须大于1.7版本,否则有些属性不支持kevinweil-Hadoop-lzo-23e8370.tar用来编译hadoop-lzo-0.4.13.jar文件Hadoop-gpl-compression-0.1.0-rc0.tar.gz 上面的替代方案,经测试此方案原创 2013-03-01 16:21:04 · 1392 阅读 · 0 评论 -
Hadoop集群环境部署_lzo
hadoop 压缩/解压插件 lzo安装说明1、所需软件apache-ant-1.8.0-bin.tarant编译工具,必须大于1.7版本,否则有些属性不支持kevinweil-hadoop-lzo-23e8370.tar用来编译hadoop-lzo-0.4.13.jar文件hadoop-gpl-compression-0.1.0-rc0.tar.gz 上面的替代方案,经测试此原创 2013-03-01 16:19:25 · 720 阅读 · 0 评论 -
hive中的支持的存储格式和压缩格式
一、存储格式hive默认支持三种从存储格式,当然用户根据需要可以自定义存储格式。存储格式优点缺点SEQUENCEFILE可压缩可分割二进制文件需要一个合并文件的过程,且合并后的文件将不方便查看TEXTFILE简单方便查看RCFILE按列查找,理论上对于宽表采用这个比较好原创 2013-03-01 16:17:15 · 2336 阅读 · 0 评论 -
日期类加减及Java中日期类操作算法大全 (转)
计算 两日期间隔天数 import java.text.DateFormat;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;publicclass date {publicstaticvoid main(String[] ar原创 2013-03-01 16:12:13 · 1136 阅读 · 0 评论 -
hive 全面学习
1.Hive CLI(hive命令行 command line) hive命令行选项: -d k=v (定义变量) -e "" -f filename -h host -p port -v (控制台显示执行的hql) hive交互模式: set;显示hive中的所有变量,例如set mapred.reduce.tasks=32; set k=v :如果k不存在,不会报错原创 2013-03-01 15:54:59 · 1600 阅读 · 0 评论 -
HIVE RCFile高效存储结构
本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在 MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据转载 2013-03-01 15:53:30 · 700 阅读 · 0 评论 -
error occurred during initialization of vm java/lang/noclassdeffounderror java/lang/object .
问题: 今天在cmd里面使用java时候报出标题错误,昨天还好好的啊。 环境变量莫非有问题,进去一看也没改啊,昨天行今天咋就出问题了呢?javac没问题,java有问题,JDK也没升级过,肯定不是JDK的问题,肯定还是环境变量的问题。 在我的电脑搜索了一下,发现有两个java.exe文件,原因不言自明了,系统有多个java.exe文件并不造成问题,问题是另一个java.exe是挂在C:\WIN转载 2013-03-13 16:38:51 · 2537 阅读 · 0 评论 -
Hadoop集群中增加新节点总结
Hadoop集群中增加新节点向一个正在运行的Hadoop集群中增加几个新的Nodes1. 新节点上部署java/hadoop程序,配置相应的环境变量2. 新节点上增加用户,从master上拷贝id_rsa.pub并配置authorized_keys3. 新节点上设置host,需要有集群中各节点的host对应4. 新节点上建立相关的目录,并修改属主5.原创 2013-03-02 08:33:00 · 1136 阅读 · 0 评论 -
Hadoop学习之HDFS
1、HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理原创 2013-03-02 08:31:15 · 767 阅读 · 0 评论 -
perl字符串处理函数
1,indexposition = index (string, substring, position)返回子串substring在字符串string中的位置,如果不存在则返回-1。参数position是可选项,表示匹配之前跳过的字符数,或者说从该位置开始匹配。例子如下:[root@localhost ~]# echo -n '/var/fap/test/123' | per原创 2013-03-02 08:25:49 · 659 阅读 · 0 评论