- 博客(125)
- 资源 (103)
- 收藏
- 关注
原创 python获取时间字典
def cal(start_year, start_month, end_year, end_month): dict_year_month = {} if end_year == start_year: m = [] for i in range(start_month, end_month,1): m.append(i) dict_year_month[start_year] = m else: .
2021-09-30 11:29:30
773
原创 增加隐式反馈的svd 推荐
基于svd++的java代码实现,实现了评分矩阵分解的参数计算,使用随机梯度下降,计算参数。参考:https://www.cnblogs.com/Xnice/p/4522671.htmlhttps://blog.csdn.net/zhongkejingwang/article/details/43083603推荐系统-技术、评估及高效算法import java.io.Buff...
2019-10-24 14:35:37
720
原创 增加偏置项的svd推荐
本文使用基于偏置项的svd,对评分矩阵进行矩阵分解,实现用户内容推荐的评分计算。如有错误的地方,希望大家指正。package com.rec.SVDModel;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileNotFoundExcep...
2019-10-24 14:31:01
541
原创 hdfs文件系统中相互复制的java操作
引用包:importcom.dewmobile.offline.config.Configuration;importcom.dewmobile.offline.connection.HdfsConnection;importorg.apache.commons.math3.analysis.function.Abs;importorg.apache.hadoop.
2018-01-16 15:17:15
3691
1
原创 Spark升级到2.0后测试stream-kafka测试报java.lang.NoClassDefFoundError: org/apache/spark/Logging错误
在使用spark读取kafka数据时,当spark升级到2.0之后,出现如上问题:之前遇到了,当时在工程里面添加了org.apache.spark.Logging类,能够运行。但是在后期使用过程中,又遇到了相同的问题,为了一劳永逸,今天彻底把问题解决。开发环境:Idea intelligent14 + spark-2.1.0 + kafka在Idea中安装scala
2017-08-11 16:14:51
7297
6
原创 读取job的历史记录
1、java类import java.text.SimpleDateFormat;import java.util.Calendar;import java.util.Iterator;import java.util.Map;import java.util.Map.Entry;import java.util.NavigableMap;import java.uti
2016-09-12 14:49:02
576
转载 Hive函数
1、Array创建数据库表,以array作为数据类型create table person(name string,work_locations array)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\t'COLLECTION ITEMS TERMINATED BY ',';2、Map创建数据库表create table score(
2016-09-05 14:12:15
464
原创 case when用法
1、划分时间段select deviceid,case when server_time >=20160825000000 and server_time when server_time >=20160825010000 and server_time when server_time >=20160825020000 and server_time when server_
2016-08-31 16:30:54
614
原创 实践rank,dense_rank,row_number区别
1、新建表create table score(name string,subject string,score string);2、插入数据insert into score values('1','En','80'),('2','En','80'),('3','En','90'),('4','En','60'),('5','En','70'),('6','En','81'),('8
2016-08-30 11:02:59
496
原创 mapreduce的理解
1、map和reduce有时会启动两个task,这两个task完成的是同一个任务,如绿框中的红框所示,为读取的block块的索引,红色大框中的任务为任务名称,蓝色框为运行任务的主机。2、两个任务同时运行是为了提高map、reduce的运行速度,哪一个运行的快,就会将另一个任务kill掉,如图红色边框内,第二个任务被杀掉,在右侧的备注说明中,记录了被杀掉的原因,由于第一个任务已经运行完毕。
2016-08-18 16:25:29
480
原创 Thread Join学习
对于join了解,非常浅薄,今天又看到相似的代码,因此动手实践Thread.Join的真正作用。通过三个类加深对Join的了解。Thread1.javapackage com.port.test;public class Thread1 extends Thread{ public Thread1(){ super("Thread1"); } public void r
2016-07-25 17:47:01
514
原创 hive去重操作
1、建表create table lintest(id string,name string,size int);2、插入数据create table inform(id string,name string,size int);3、去重查询select ad ,sum(plus),count(distinct name,id)from (select di
2016-07-22 14:02:29
19967
2
原创 hive插入数据
新建表create table lintest(name string,id string)添加新列alter table lintest add columns(plus int)向表中插入数据insert overwrite table lintestselect uuid,deviceid,'1',count(deviceid) as num from kuaiya.
2016-07-08 15:35:31
2362
原创 提交spark程序
在hadoop环境下执行spark程序,使用spark-submit提交jarpackage com.spark.classfication;import scala.Tuple2;import org.apache.spark.api.java.*;import org.apache.spark.api.java.function.Function;import org.apac
2016-07-06 18:06:19
759
原创 获取类的路径
由于上篇博客写了关于在hadoop下发送mail的文章,但是在没有将第三方jar包打入到jar包的情况下,yarn jar Mail.jar仍然可以发送出来邮件。所以跟踪查找,在Mail的类MimeMessage中获取资源路径:Object obj = mimeMsg.getClass().getResource("");System.out.println("classpath:
2016-07-01 14:40:33
471
原创 eclipse创建maven工程读取hdfs文件发送邮件
1、在maven下新建maven工程2、编写代码package WorkFlow.Mail;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import org.apache.hadoop.conf.Configuration;import or
2016-07-01 11:57:35
1492
原创 Java动态web--jsp页面调用servlet(doPost)
环境:eclipse Mars1、新建Dynamic web2、新建jsp页面,编码:<%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="UTF-8"%>hive查询语句查询语句:3、新建servletpackage com.kua
2016-06-17 18:54:09
13619
1
原创 Hive java编程提交查询语句和配置
java编程配置hive参数和执行查询//设置优先级和reduce数量public static final String MR_TASKS_NUM="set mapred.reduce.tasks=40";public static final String MR_PRIORITY="set mapred.job.priority=VERY_HIGH";//将配置应用于
2016-06-16 18:05:35
936
原创 yarn编码获取application列表
1、 新建maven工程2、 编写代码package Yarn.Yarn;import java.io.IOException;import java.io.OutputStreamWriter;import java.io.PrintStream;import java.io.PrintWriter;import java.nio.charset.Charset;impor
2016-06-16 16:21:38
9376
1
原创 Hive动态分区与建表、插入数据操作
1、定义动态分区指不需要为不同的分区添加不同的插入语句,分区不确定,需要从数据中获取。set hive.exec.dynamic.partition=true;//使用动态分区(可通过这个语句查看:set hive.exec.dynamic.partition;) set hive.exec.dynamic.partition.mode=nonstrict;//无限制模式 如果
2016-06-14 16:57:20
20677
原创 wordcount
1·、新建maven工程pom.xml文件内容如下: junit junit 3.8.1 test org.apache.hadoop hadoop-mapreduce-client-core 2.3.0 org.apache.hadoop hadoop-hdfs 2.3.0 org.apache.hadoop had
2016-06-07 16:19:30
390
转载 DSP需求平台
DSP广告投放是基于大数据的全网覆盖,并从海量人群中精准定向出目标客群进行广告的投放。只要是被定向的客群,当他浏览任何页面时,广告内容都有几率(取决与RTB竞价成功率)向该潜在客群展示。展现的形式有富媒体弹窗,视频,图片等,只要是该页面的公共广告位,DSP都会自动参与竞价。另外需要着重指出的是DSP是针对目标客群的广告投放,而不是面向媒体的渠道购买。CTR(Click-Through-Rate
2016-06-02 18:32:58
892
原创 relief算法研究
最近由于工作需要,对数据进行降维处理,通过对各种算法的研究,想寻找一种比较理想的算法,处理数据维度,达到降维的目的,对PCA进行研究,但是PCA是对当前多维数据的空间变换,无法达到物理降维的目的,因此想选择物理降维的算法,因此对卡方算法和relief算法进行相关研究,这两种算法是对数据的物理降维,是特征选择的操作算法。通过几天的查找资料,整理和总结一下内容:个人总结:relief算法是
2016-05-24 17:51:51
14763
2
原创 hive设置reduce的最大值
hive.exec.reducers.max(默认为999) 计算reducer数的公式很简单: N=min(参数2,总输入数据量/参数1) 通常情况下,有必要手动指定reducer个数。考虑到map阶段的输出数据量通常会比输入有大幅减少,因此即使不设定reducer个数,重设参数2还是必要的。依据Hadoop的经验,可以将参数2设定为0.95*(集群中TaskTracker个数)。 正确的r
2016-05-10 16:14:45
2535
原创 window客户端访问HDFS
通过widows客户端访问Hadoop集群,读取HDFS文件使用平台为eclipse,CDH5.1.0,hdf2.3.01、新建java project2、在集群中找到core-site.xml和hdfs-site文件拷贝到java project的工程下,放置到bin文件夹下在src右键,新建source folder即可,如下2、编程代码如下:package c
2016-04-21 17:11:33
4952
原创 impala实现HBase数据查询
由于工作需要,现在需要使用Cloudera Manager的Impala实现大批量数据的查询统计功能。于是,在前面使用Hbase和solr搭建的平台完成最高院的全文检索平台,继续在clouderaManager原有的hadoop平台基础上继续进行更深层次的研究和应用。基于某些地方法院对于数据的要求不一致,有的客户针对于法律文书的全文检索,有的客户针对于当前某种类型案件的统计,因此原有的
2016-01-19 18:15:16
7980
原创 Sqoop将SQLServer数据导入HBase
首先在Cloudera Manager中添加Sqoop服务,然后进行如下操作:jdbc的server驱动和SQLServer-hadoop connector包下载位置:http://download.csdn.net/detail/nma_123456/94053431、 Sqoop安装包中并不包含jdbc的SqlServer驱动,所以想在HDFS和SqlServer数据库之间导入导
2016-01-15 16:50:11
4852
原创 zookeeper崩溃后修复
参考:http://www.myexception.cn/database/1973833.html可能出现该问题的情况:强制关机,数据量过大,集群意外关闭。使用cloudera搭建hadoop集群,由于使用ubuntu系统,根目录空间分配不足,导致数据录入一部分,集群崩溃,后来对ubuntu系统的根目录进行设置,扩大了根目录的空间,但是zookeeper中一台机器的节点一
2015-12-30 16:11:12
9527
原创 Ubuntu系统安装完后修改目录空间大小
参考:http://blog.csdn.net/yuxuepiaoguo/article/details/6883239Ubuntu系统LVM扩大根目录容量lvreduce –L 200g /dev/mapper/master1-vg-swap_1(调整交换空间的大小为200g)lvextend –L 200g /dev/mapper/master1-vg-root(调整根
2015-12-30 13:48:20
1353
原创 Solr索引建立
solr在传统数据库上建立索引的机制:与mysql,oracle数据库联合使用的方式:网上很多资料,可以在网上参考相关资料进行学习。主要有实时索引,全量索引,增量索引,定时索引方法:修改solrconfig.xml,data-config.xml等,在solr的web页面进行操作建立索引。solr与HBase建立索引的方式有以下三种:1、协处理器模式建立索引2、
2015-10-13 21:22:41
1833
原创 solr查询返回JSON格式
SolrDocumentList docs = response.getResults();1、JSONObject返回类似{"SolrDocument":{“1”:{},“2”:{}}Map mapDoc = new HashMap();int count = 1;for(SolrDocument doc : docs){mapDoc.put(count, doc);co
2015-09-11 15:20:17
5729
原创 离线安装CM时遇到的问题
CM4.8.5离线安装:不好意思,最后没有安装成功,还是在线安装的最新版本,一下问题可能对大家查找原因有帮助。无法接收到agent检测信号有几种可能:1、Python文件不匹配;参考http://www.cnblogs.com/lion.net/archive/2014/09/02/3950619.html中_io的设置2、日志文件不存在,在config.ini中把log_file放开
2015-08-21 12:05:07
1029
原创 cloudera manager安装和solrcloud搭建
我安装cloudera manager 是在线安装的,参考:http://www.cnblogs.com/lion.net/archive/2014/09/02/3950619.html,在线安装遇到的主要问题是:1、 mysql数据库设置,添加cmf账户,分配权限设置权限:Grant all on *.* to ‘root’@’%” identified by ‘123(密
2015-08-21 11:46:26
4870
转载 Cloudera在Ubuntu的安装部署
1. 安装前的准备 准备好Ubuntu离线source,配置/etc/apt/source.list 准备好Cloudera Hadoop离线source,配置/etc/apt/source.list.d/cloudera.list 同步集群的/etc/hosts ssh免密码登录,cloudera-scm-server所在机器能够免密码登录其他cloudera-scm
2015-08-08 13:29:05
3417
原创 java编写webservice接口net无法加载
使用java编写了webservice接口,插件使用的axis2,然后对一个java类发布webservice现在对原函数进行修改和删除,并且又新建了几个其他的类对新增的java类发布,并且在.net中进行调用,无法添加web引用并且java调试跟踪报错为could't find a matching java operation for wsdd operation.net报错o
2015-07-22 17:18:40
1799
原创 C# 获取xml属性名称
工作需要,读取一个超大量的xml文件,从xml文件中,读取节点,以及节点下的属性名称,用属性名称进行建表操作。在网上查找资料未果,于是自己寻找办法。在XmlElement类下有一个属性是Attributes,返回值为XmlAttributeCollection,节点element的属性存储在XmlAttributeCollection下。代码如下:XMLDocument doc=
2015-06-18 09:55:03
9099
原创 java json字符串解析--遇到的问题
参照网上的json字符串解析实例,进行开发编码,遇到了问题:java.lang.classnotfoundexception:net.sf.json.JSONObjectjava.lang.classnotfoundexception:net.sf.json.JSONArray在网上搜索解决方案:在eclispe中添加json的jar包后,代码运行出现上述问题,需要在tom
2015-06-09 17:12:28
1049
转载 C#与java中对抽象类、接口的继承和重写区别
C#:一、继承什么是继承:继承是允许重用现有类去创建新类的过程。分类的原则是一个类派生出来的子类具有这个类的所有非私有的属性。1、继承C#中的类:C#不支持多重继承,C#类始终继承自一个基类(如果未在声明中指定一个基类,则继承自System.Object)。派生类继承基类的语法如下:using System;public class Person{//这是基
2015-06-02 11:39:33
2461
原创 Eclipse配置Axis2总结
配置环境Eclipse4.3 kepler server release2 + tomcat6.0 + jdk1.7 + axis2-1.6.21、 Axis2:http://axis.apache.org/axis2/java/core/download.cgiAxis2 Eclipse插件:http://axis.apache.org/axis2/java/core/tools/i
2015-06-01 16:45:43
11152
spark升级后无logging类
2017-08-11
Yarn编程ApplicationList
2016-06-16
Yarn获取Application列表编码
2016-06-16
Yarn编码获取Application列表
2016-06-16
relief-java实现
2016-05-24
sqoop-hadoop的jar包
2016-01-15
Ubuntu14.04在线安装Cloudera Manager集群部署
2015-09-25
oracle-j2sdk1.6_1.6.0+update31_amd64.deb
2015-08-08
java--json解析包
2015-06-09
Axis2+eclipse开发webservice总结
2015-06-05
Eclipse配置Axis2总结
2015-06-01
Javaweb开发JSP+servelet实现多按钮功能
2015-05-17
hadoop-common-2.2.0-bin-master(windows开发Hadoop2.2需要的winutils.exe)
2015-05-05
VisualAssistX_10.7.1916
2012-11-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人