
大数据-Hive
rong_code
这个作者很懒,什么都没留下…
展开
-
大数据Hive 09- -CentOS 6.8中安装mysql
卸载掉原有mysql查看该操作系统上是否已经安装了mysql数据库:rpm -qa | grep mysql若有则卸载:rpm -e mysql // 普通删除模式或者:rpm -e --nodeps mysql // 强力删除模式,如果使用上面命令删除时,提示有依赖的其它文件,则用该命令可以对其进行强力删除 通过yum来进行mysql的安装查看yum上提供的m...原创 2019-01-03 19:09:35 · 160 阅读 · 0 评论 -
大数据11-Hive运行机制与使用
hive介绍hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 hive的运行机制图示假设我在hive命令行客户端使...原创 2019-01-04 17:46:23 · 457 阅读 · 0 评论 -
10大数据-hive 环境搭建
1、将apache-hive-1.2.1-bin.tar.gz上传到以下目录(这个目录可以自定义,我惯用这个)/opt/modules/app2、解压到当前目录,并且重命名为hivetar -xzvf apache-hive-1.2.1-bin.tar.gz3、配置环境变量进入环境变量配置文件:vi /etc/profile追加以下内容:export H...原创 2019-01-10 19:36:23 · 218 阅读 · 0 评论 -
大数据012-Hive的分桶详解
Hive分桶通俗点来说就是将表(或者分区,也就是hdfs上的目录而真正的数据是存储在该目录下的文件)中文件分成几个文件去存储。比如表buck(目录,里面存放了某个文件如sz.data)文件中本来是1000000条数据,由于在处理大规模数据集时,在开发和修改查询的阶段,如果能在数据集的一小部分数据上试运行查询,会带来很多方便,所以我们可以分4个文件去存储。下面记录了从头到尾以及出现问题的操作进...原创 2019-01-07 18:14:50 · 1119 阅读 · 0 评论 -
大数据13-Hive中sql的使用
1、创建表建表语法CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_c...原创 2019-01-07 18:33:31 · 226 阅读 · 0 评论 -
大数据 hive 15--hive日志分析案例
1.1 项目来源本次实践的目的就在于通过对该技术论坛网站的tomcat access log日志进行分析,计算该论坛的一些关键指标,供运营者进行决策时参考。PS:开发该系统的目的是为了获取一些业务相关的指标,这些指标在第三方工具中无法获得的;1.2 数据情况该论坛数据有两部分:(1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29之前,日志文件都...原创 2019-01-09 18:39:28 · 3716 阅读 · 0 评论