- 博客(49)
- 资源 (5)
- 收藏
- 关注
原创 hive中文乱码问题解决
hive中文乱码问题解决原因:hive的元数据库(mysql等)字符集问题在hive的元数据库,一般是mysql中执行下面所有语句use hive;-- 修改表字段注解alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;-- 修改表注解alter table TABLE_PARA...
2020-05-07 11:48:58
703
转载 Spark SQL 函数汇总
org.apache.spark.sql.functions是一个Object,提供了约两百多个函数。经过import org.apache.spark.sql.functions._ ,也可以用于Dataframe,Dataset。版本介绍Spark V2.3.0聚合函数approx_count_distinctcount_distinct近似值avg平均值collect_l...
2019-12-18 11:04:14
649
转载 (转)Linux各目录及每个目录的详细介绍
【常见目录说明】目录/bin存放二进制可执行文件(ls,cat,mkdir等),常用命令一般都在这里。/etc存放系统管理和配置文件/home存放所有用户文件的根目录,是用户主目录的基点,比如用户user的主目录就是/home/user,可以用~user表示/usr用于存放系统应用程序,比较重要的目录/usr/local 本地系统管理员软件安装目录(安装系统级的应用)。这是最庞大...
2019-10-23 17:34:27
292
原创 [Maxcompute]表关联翻倍问题解决
0X00 前提技术选型:阿里云Maxcompute 2.0场景:普通的日常模型开发,原有的模型宽表基础上通过left outer join获取新的维度信息。操作:A LEFT OUTER JOIN B ON A.ID=B.CID;0x01 过程分析:A表80w数据量,B表200w。一开始怀疑是因为小表左关联大表导致数据量翻倍,但是通过另外一个50w行记录的C表左关联B表实验,得到结果接...
2019-04-25 02:16:17
1287
原创 [hive]外部分区表结构变更后查询为空问题解决
0X00 前提数仓技术选型:hive+sqoop1.4.4场景:数仓中ods增量表由于上游db表变更缘故,需要对应地增加两个字段,一般使用alter table table_name add columns(column_name type comment '');的方式来直接在hive中增加字段。但由于上下游之间信息传达、沟通不到位,导致在上游db的源表已经增加表字段数天后,数仓相关部门才收...
2019-04-21 23:15:44
1104
转载 [Maxcompute]数据类型
基本数据类型MaxCompute2.0 支持的基本数据类型如下表,新增类型有:TINYINT、SMALLINT、 INT、 FLOAT、VARCHAR、TIMESTAMP 和 BINARY,MaxCompute 表中的列必须是下列描述的任意一种类型,详情如下:注意:若想使用新数据类型,需在 SQL 语句前加语句:set odps.sql.type.system.odps2=true;...
2019-04-19 20:25:12
3586
原创 [hadoop]安装笔记
Preface平常更多是在工作中使用hadoop、hive等一众工具,这次尝试自己安装。配置组合:虚拟机+ubuntu14+java1.7+hadoop2.9.1虚拟机安装hadoop之前,请将分配给虚拟机的内存数调为2的n次方个G,n大于等2实验证明当内存数小于4时,一个简单的找字母的MR作业都会资源不足导致倾斜问题。安装参考给力星的文章: http://dblab.xmu.edu.c...
2019-04-10 01:44:20
309
原创 java调用http工具类示例代码
java调用http工具类,主要是使用java自带的java.net.URL来执行调用import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import java.net.HttpURLConnection;imp...
2019-04-08 17:40:12
531
转载 (转)99%的人都理解错了HTTP中GET与POST的区别
GET和POST是HTTP请求的两种基本方法,要说它们的区别,接触过WEB开发的人都能说出一二。最直观的区别就是GET把参数包含在URL中,POST通过request body传递参数。你可能自己写过无数个GET和POST请求,或者已经看过很多权威网站总结出的他们的区别,你非常清楚知道什么时候该用什么。当你在面试中被问到这个问题,你的内心充满了自信和喜悦。你轻轻松松的给出了一个“标准答案...
2019-04-08 10:35:31
151
转载 (转)数据仓库分层规则
0x01 如何分层结合Inmon和Kimball的集线器式和总线式的数据仓库的优点,分层为ODS【-MID】-DW-DM-OLAP/OLAM/appODS层是将OLTP数据通过ETL同步到数据仓库来作为数据仓库最基础的数据来源。在这个过程中,数据经过了一定的清洗,比如字段的统一,脏数据的去除等,但是数据的粒度是不会变化的。ODS层的数据可以只保留一定的时间。MID中间层是采用Inmon集线...
2019-04-06 16:25:20
387
转载 数据仓库事实表分类
1)在数据仓库领域有一个概念叫Transaction fact table,中文一般翻译为“事务事实表”。事务事实表是维度建模的数据仓库中三种基本类型事实表中的一种,另外两种分别是周期快照事实表和累积快照事实表。事务事实表与周期快照事实表、累积快照事实表使用相同的一致性维度,但是它们在描述业务事实方面是有着非常大的差异的。事务事实表记录的事务层面的事实,保存的是最原子的数据,也称“原子事实表...
2019-04-04 11:07:27
447
转载 数据仓库工作总结(转载)
数仓网文转载概述本文作为我这些年实施数据仓库的总结,如有错误,请各位同仁指正。文档条理不是很清楚,而且也有很多口水话,我不想搞成一个真正的官方文档,所以很随意,符合我的性格。很多问题我只是提出来了,解决方案没有想好,也不知道怎么落到文字,就先提出来备注吧。文档原本想讨论的元数据管理、数据质量和监控工具的内容,由于时间关系,没有添加,以后有空补上吧。1.1.阅读方法本文阅读方式:1...
2019-03-30 02:08:40
902
转载 云计算研究必备——精典Google论文
Google云计算技术奠定其在业界的领先地位,收集经典云计算技术公开文章供大家研究学习:GFS-The Google File SystemBigtable - A Distributed Storage System for Structured DataMapReduce - Simplified Data Processing on Large ClustersPre...
2019-01-23 15:36:00
1278
原创 PyCharm 第三方包安装
一 说明在PyCharm中安装第三方包类的原理是:PyCharm打开后,会构建一个python运行的虚拟环境(VM),安装第三方包相当于在这个虚拟环境下通过pip程序安装。一般安装PyCharm后,都会默认自带一个pip第三方包便于用户日后安装其他包插件。用户也可以在PyCharm的Terminal终端(下图红圈)向虚拟环境输入pip install命令(下图箭头处)安装,类似cmd操作。二...
2019-01-10 01:34:15
1596
原创 Scrapy安装环境出错——error: Microsoft Visual C++ 14.0 is required
最近在学习使用python爬虫在安装Scrapy工具包的时候,安装环境:Win10 64位(Win 7亦可参考),python 3.6.3出现以下问题:building ‘twisted.test.raiser’ extensionerror: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++...
2019-01-06 02:34:23
460
原创 NewSQL:从NoSQL到NewSQL
前言其实本来是预想本文发表在18年年末,作为18年最后一弹,也是对之前工作、学习一些见解的总结。但是由于仪式感不敌拖延症,所以文章变成了19年新年第一弹,可惜未能在元旦完成,自我执行力还是要检讨下。(纯文字,没有什么图,不好意思)NoSQL源自2009年,当时在美国三藩市举办的一次Meetup提到的“Open Source, Distributed, Non Relational Databa...
2019-01-02 04:06:44
3755
原创 【Hbase】初识HBase(一些HBase学习笔记)
HBase从Google的bigtable论文发展而来,遵循着Key/value键值对、列存储模型。Rowkey,一些地方翻译为行健,在HBase中用来唯一标识表中一行记录,不存在两行Rowkey一致的记录,且只能通过Rowkey进行行的查询,不存在其他列作为查询/过滤条件的方式(可以通过对其他列值和对应的rowkey建一个索引表进行二级查询来实现)。Rowkey在内部是以一个字节数组的方式进...
2018-12-30 20:01:59
526
原创 Powerdesigner设计的PDM导出的数据库中不能体现出外码约束的解决方法
很多人在设计数据库的过程中,通过设计CDM ---à 生成PDM --à 导入数据库的方式设计和生成所需要的数据库。但是事实上信息的人会发现,在导入数据库之后,打开SQL Server 2008中相关的表,点击打开查看相关的列,会发现,只有主码的列字段才会被标注出来(标注为PK),而本应该标注出来的外码却没有标注出来(正确的情况下应该标注为FK)。如下图: ...
2018-12-30 19:57:01
319
原创 每日练习20180716
每日三题数据结构/算法练习,题目来自皮皮灰公众号 数据结构篇//设一个长度为n的数组,由负数、0、正数组成。编写函数,将其重新排序为前段都是负数,后端均为非负数的结构,要求时间复杂度为O(n)。#include"stdio.h"int main(){ int a[10]={1,-4,5,2,-6,-1,8,9,20,0}; int b[10]; int i...
2018-07-16 16:34:59
270
原创 ubuntu 14.04 apt-get update失败的解决办法
ubuntu 14.04 apt-get update失败解决方法在ubuntu14.04版本(虚拟机)安装jdk之前,一般我们会执行以下命令从源下载更新到系统sudo apt-get install update但这时总会出现形似:”fetch http://……失败。。。“ 的错误尝试过在ubuntu自带的”system setting“中修改为国内的源,但总是不成功。 ...
2018-06-04 01:07:57
4383
原创 python笔记:转义字符&关键字
环境:python 3.6- python转义字 转义字符 描述 (在行尾时) 续行符 \ 反斜杠符号 \’ 单引号 \” 双引号 \a 响铃 \b 退格(Backspace) \e 转义 \000 空 \n 换行 \v 纵向制表符 \t 横
2018-01-08 02:51:14
837
原创 [hive] hive: command not found错误解决
背景:在shell脚本中简单定义hive的命令,并且通过crontab定时任务机制去调度,实现定时动态添加hive表分区。 **环境:**hadoop2.5.2+hive0.14(0.13)+zk3.3 问题描述: shell脚本如下:target_date=`date '+%Y-%m-%d' -d "+2 days"`inc_mon=`date '+%Y%m' -d "0 days $ta
2017-01-03 11:57:20
15932
3
原创 通过JDBC访问hive集群
hive是大数据结构化的查询工具,之前一直使用cli客户端连接hive集群进行SQL存储过程代码的测试。JDK版本:1.8hive版本:0.13hadoop版本:2.52集群元数据库MySQL库的版本貌似是5.1,这个其实不影响。以下为示例代码:package com.java.linkhive;import java.sql.Connection;import java.sql.Dr
2016-11-23 12:09:14
3507
转载 Eclipse背景颜色修改
操作界面默认颜色为白色。对于我们长期使用电脑编程的人来说,白色很刺激我们的眼睛,所以我经常会改变workspace的背景色,使眼睛舒服一些。设置方法如下: 1、打开window->Preference,弹出Preference面板 2、展开General标签,选中Editors选项,展开。 3、选中 Test Editors,右边出现Test Editors面板。 面板中有这样一个选项:
2016-11-08 14:40:10
553
原创 [hadoop] hadoop命令小结
hadoop fs -mkdir /tmp/input 在HDFS上新建文件夹hadoop fs -put input1.txt /tmp/input 把本地文件input1.txt传到HDFS的/tmp/input目录下hadoop fs -get input1.txt /tmp/input/input1.txt 把HDFS文件拉到本地hadoop fs -ls
2016-11-06 13:46:33
380
原创 Java文件Io基础
File file2 = new File("D:/test.txt");//创建文件对象,File类中的构造方法中的参数为字符串,表示的是文件的地址,其中,在绝对路径中,磁盘的编号后的斜杆可以为“\\”(Windows系统中路径标识),也可以为“/”(跨平台)。制定路径之下创建的文件对象,不代表着该路径之下有这个文件,也就是说File对象无关实际文件的位置。可以通过File.exists()方法来确定指定文件路径下创建的文件对象是否真实存在,若不存在,通过file2.createNewFile();语
2014-11-21 15:38:36
686
原创 数据库事务的隔离级别简单总结
数据库中事务的隔离级别有四种,级别由低到高分别为:Read uncommitted、Read committed、 Repeatable read和Serializable 四种。这四个级别可以逐个解决脏读、不可重复读、幻读这几个问题。
2014-11-19 17:39:08
955
原创 Powerdesigner设计的PDM导出的数据库中不能体现出外码约束的解决方法
很多人在设计数据库的过程中,通过设计CDM ---à 生成PDM --à 导入数据库的方式设计和生成所需要的数据库。但是事实上信息的人会发现,在导入数据库之后,打开SQL Server 2008中相关的表,点击打开查看相关的列,会发现,只有主码的列字段才会被标注出来(标注为PK),而本应该标注出来的外码却没有标注出来(正确的情况下应该标注为FK)。如下图:
2014-09-03 21:31:50
2244
原创 设置SQL Server 2008数据库int类型主码为自增类型
有三种解决方法:1. 直接在SQL Server 2008数据库中设置。数据类型设置为numeric(18,0),这时打开该表下的列选项,右键点击主码,选择“属性”,会发现“标识”值变为“True”,“标识种子”变为“1”(该主码起始值),以及“标识增量”变为“1”(每新增一个项时,主码自增的值),即可。注意,主码类型为numeric时,在Java编程中对应的数据类型为L
2014-09-01 16:49:50
5308
原创 自己总结的SSH编码步骤
本文为本人在学习编写SSH框架时,总结的步骤。由于在Web编程过程中,新手在使用Struts2+Spring+Hibernate框架组合下编写JSP后台时,容易出现步骤混乱,从而导致由于步骤混乱而出现的文件配置出错(或者忘了配置相关文件)而出现网页无法访问或者网页路径出错的问题。现在对本人在编程过程中总结出来的SSH编写步骤进行记录:1. 定义其实画面:包括页面布局、使用...
2014-09-01 09:29:43
776
原创 Java面试、笔试题
基础知识 1、string 是最基本的数据类型吗? 不是,java语言定义了4类共8种数据类型分别如下: 整型:byte、short、int、long 浮点型:float、double 逻辑型:boolean 字符型:char 2、int 和 integer 有什么区别 Java 提供两种不同的类型:引用类型和原始类型(或内置类型)。Int 是java
2014-08-30 11:06:47
565
原创 SQLSTATE 37000错误提醒及其解决方法
当我们尝试在Power Designer下将PDM生成的SQL文件运行并导入到SQL Server 2008数据库中时,极有可能会出现这种错误提示。首先解释一下错误提示“SQLSTATE = 37000”的意思,SQLSTATE ODBC API(驱动程序管理器)错误,37000 则为语法错误或违规访问。一般出现这种情况,可能是ODBC连接有问题或者数据库设置没有设置好(比如说PDM创建时
2014-08-12 11:26:12
16783
原创 SQL Server数据库中表的属性出现中括号
在通过PowerDesigner将数据库的物理设计图转化为实际的数据库时,有时候导入数据库成功后,打开一些表查看时,会发现一些属性名称被系统自动地添加上了中括号“[ ]”。这是因为这些属性的命名刚好是相关数据库中的关键字,这样虽然也能成功建库,但是有可能在使用代码(如运用Java代码在Hibernate框架下访问数据库时)访问数据库时会发生错误,同样,如果数据库名刚好是叫“User”、刚好是关
2014-08-12 10:57:15
3062
原创 The Struts dispatcher cannot be found异常的解决方法
系统错误:HTTP Status 500异常信息:The Struts dispatcher cannot be found. This is usually caused by using Struts tagswithout the associated filter. Struts tags are only usable when the request haspassed thro
2014-07-23 11:45:54
23083
原创 安装MyEclipse时,双击安装包后出现“could not find main class”的错误提示的解决方法
安装MyEclipse时,双击安装包后出现“could not find main class”的错误提示解决方法,在c:/windows/temp目录下,找到唯一一个.exe文件,双击运行它,然后在进行安装。
2014-07-23 00:53:39
1632
原创 no setter found for property(spring xml文件property标签中)错误的解决方法
如下: <bean id="checkFinanceAction" class="action.checkFinanceAction" scope="prototype"> 在property name=”cfs”处会提示no setter found for property出错。解决方法:在该bean指向的文件中(如本文中的"action.chec
2014-07-21 15:51:57
9090
2
原创 SQL Server数据库sa用户无法登陆解决方法
使用sa账号登陆SQLServer2008数据库时,有可能会出现无法登陆的情况,数据库系统提示为类似于“无法打开用户默认数据库,登录失败”。这种情况的出现多半为用户之前在相关登陆名中设置了默认的数据库,但是在后来的操作中不小心把相关的数据库删除掉了。解决方法:使用“Windows身份验证”方法登陆数据库,打开“安全性”——“登录名”——右键点击你要修改默认数据库的相关登录名——点击“属性”
2014-07-17 20:17:07
1378
转载 Android中GestureDetector类及其用法(转自网上的笔记)
当用户触摸屏幕的时候,会产生许多手势,例如down,up,scroll,filing等等。一般情况下,我们知道View类有个View.OnTouchListener内部接口,通过重写他的onTouch(View v, MotionEvent event)方法,我们可以处理一些touch事件,但是这个方法太过简单,如果需要处理一些复杂的手势,用这个接口就会很麻烦(因为我们要自己根据用户触摸的轨迹
2014-06-18 21:56:15
795
操作系统综合性实验
2014-04-12
8605 删数问题
2013-12-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人