- 博客(82)
- 资源 (5)
- 收藏
- 关注
原创 c++指针实现2数交换
#include #include void main(){ /*int a, *b; b = &a; int hj = 10; int *p; p = &hj; printf("%d", p);*/ int a, b; scanf("%d%d",&a, &b); printf("%d ,%d",a, b); int *p1 = &a; int *p2 = &b; i
2016-11-11 07:36:46
618
1
原创 写一个函数求2个数的之和,要求在函数体内不得使用+-*/
写一个函数求2个数的之和,要求在函数体内不得使用+-*/int sum = a^b;int jinwei = (a & b) reutrn add(sum, jinwei);
2016-10-19 00:34:51
567
原创 C语言中反码和补码
unsigned char a1 = 129; char a = 129; char b = 128; char c = -1; printf("\n,%d,%d,%d,%d", a, b,c,a1 ); printf("\n"); printf("\n%x, %x, %x",&a, &b,&c); getchar();输出结果:-127, -128, -1,
2016-10-18 23:38:00
899
原创 C语言常量和变量
c语言中常量和变量在内存中存放:常量就是计算机内存中不变的数据变量就是计算机内存里需要并且经常改变的数据%x 按照16进制%d按照10进制定义常量2种:1、#define Pai 3.142、const float pai 3.14
2016-10-15 15:50:16
563
原创 day83-透彻讲解使用Java方式实战Spark Streaming开发
import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Function2;import org.apache.spark.api.
2016-09-11 16:11:47
6174
原创 HBase 实现二级索引
MapReduce方式创建二级索引使用整合MapReduce的方式创建hbase索引。主要的流程如下:1.1扫描输入表,使用hbase继承类TableMapper1.2获取rowkey和指定字段名称和字段值1.3创建Put实例, value=rowkey, rowkey=columnName +"_" +columnValue1.4使用IdentityTableReducer将
2016-09-06 18:08:10
2008
原创 day80sparkSQL网站搜索综合实例
目的:找出搜索平台上用户明天搜索排名前五名的产品1、原始的ETL过滤数据后产生目标数据广播的原理,过滤是发生在work2、对过滤后的目标数据进行指定条件的查询,查询条件又可能非常复杂(进行广播(广播过滤条件)),进行RDD的filter的算子;3、对于商品时分为种类的,我们在得出最终结果之前,首先会基于商品UV(对于用户访问商品的PV) 此时我们要对商品进行UV计算的话,必须
2016-08-30 01:06:10
633
原创 day84:StreamContext、DStream、receiver
一下内容来源于DT大数据梦工厂:StreamingContext * AJava-friendly version of[[org.apache.spark.streaming.StreamingContext]]which is the main* entry point for Spark Streaming functionality. It provides m
2016-06-10 16:54:51
928
原创 day71:Spark SQL窗口函数解密与实战
Spark SQL窗口函数解密与实战sparkSQL 窗口函数解析sparkSQL窗口函数实战package cn.db.scala.sparksqlimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.hive.HiveContext/** * Created by ptbx on
2016-06-05 23:35:35
600
原创 day70:Spark SQL内置函数解密与实战
Spark on hive:将hive的元数据当作一个数据源Hive on spark:(未来一个趋势)Hive 本来的计算框架是mr,换成spark 来计算目前企业及大数据spark开发的时候绝大多数情况下采用hive 作为数据仓库的;spark提供了Hive的支持功能,spark通过hiveContext 可以直接操作hive 的数据;基于HiveContextk可以使用s
2016-06-05 17:19:06
1259
原创 day65-Spark SQL下Parquet深入进阶
DT大数据梦工厂联系方式:新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark博客:http://.blog.sina.com.cn/ilovepains SparkSQL 下的Parquet 序列化SparkSql 下的Parquet源码解读SparkSql下Parquet总结 Parquet下的Bolck块,Cloun
2016-05-16 06:43:43
973
原创 day64 Spark SQL下Parquet的数据切分和压缩内幕详解
DT大数据梦工厂联系方式:新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark博客:http://.blog.sina.com.cn/ilovepains Parquest类的操作 ParquestRelation源码: public class ParquetOutputFormatextends FileOutputFor
2016-05-16 06:42:13
1383
原创 day63-Spark SQL下Parquet内幕深度解密
DT大数据梦工厂联系方式:新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark博客:http://.blog.sina.com.cn/ilovepains一:sparkSQL 下的Parquet意义再思考存储空间包括:内存和磁盘,计算方面如果说HDFS是大数据时代分布式文件系统存储的事实标准的话,parquet则是整个大数据时代文件存储格式的事实标准。1、 速度
2016-05-08 13:40:33
1429
原创 day62-Spark SQL下的Parquet使用最佳实践和代码实战
一下内容来源于DT大数据梦工厂:DT大数据梦工厂联系方式:新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark博客:http://.blog.sina.com.cn/ilovepainsSparkSQL下的Parquet的使用、实践一、 Spark SQL下的parquest最佳实践1、过去整个业界对大
2016-05-08 13:34:46
1472
原创 day61-Spark SQL数据加载和保存内幕深度解密实战
Spark SQL加载数据SparkSQl 数据输入输入输出主要是DataFrame,DataFrame提供了一些通用的load和save操作。通过load可以创建出DataFrame;通过save可以将DataFrame数据保存到文件中或者说以具体的格式来指明要读取的文件是什么格式或者输出的数据是什么格式;直接读取 文件的指定类型: SQLContext源码:load 和sa
2016-05-08 13:13:32
1761
原创 使用Java实战RDD与Dataframe动态转换
import java.util.ArrayList;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.sp
2016-05-07 22:49:29
9538
1
原创 day56-Spark SQL和DataFrame的本质
以下内容来源于DT大数据梦工厂:SparkSQL 于DtaFrameDataFrame与RDD企业实践一、 SparkSql于DataFramesparkSql之所以是出了spark core以外最大的和最受欢迎组件原因是:1、处理各种存储介质和各种格式的数据(可以方便扩展sparkSQL的功能来支持更多类型的数据例如kudu)2、sparkSQL把数
2016-05-01 15:37:53
506
原创 day55-hive实战:
一下内容来源于:DT大数据梦工厂联系方式:新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark博客:http://.blog.sina.com.cn/ilovepains
2016-04-30 23:18:32
339
原创 day60:sparkSql
以下内容来源于DT大数据梦工厂:一:SparkSQL 与DataFrame1、 sparksql之所以是除了spark core以外最大的和最受关注的组件,原因是:a) 处理一切存储介质和各种格式的数据(同时可以方便的扩展sparksql的功能来支持更多类型的数据例如:kudu)b) spark SQL把数据仓库的设计推向了新的高度,不仅仅是无敌的计算速度(spark
2016-03-12 21:45:05
390
原创 day31:Driver在Cluster模式下的启动、两种不同的资源调度方式源码彻底解析、资源调度
以下内容整理来源于DT大数据梦工厂:http://.blog.sina.com.cn/ilovepainsDT大数据梦工厂联系方式:微信公众号:DT_SparkTEL:18610086859Email:18610086859@vip.126.com
2016-03-12 15:10:33
321
原创 day25:Spark Sort-Based Shuffle内幕工作机制、案例实战、源码剖析、优缺点及改进方式
以下博客整理来源于DT大数据梦工厂:一:为什么需要Sort-Based shuffle1、shuffle 一般包含2个阶段任务:第一部分,产生Shuffle数据的阶段(Map阶段,需要实现ShuffleManager 中的getWriter来写数据,可以通过blockManager将数据写入、Memory,Disk,Tachyon都可以,也可以写副本(例如想非常快的shuffle此时可以考
2016-03-06 22:43:18
696
原创 day50:性能优化6--Shufffle
一下内容整理来源于DT大数据梦工厂:一:shuffle 性能优化1、问题: Shuffle output file lost? 真正的原因是GC导致的!!默认时间间隔5秒可以调大。spark.shuffle.file.bufferspark.shuffle.io.maxRetriesspark.shuffle.file.buffer内存管理和二进制处理:借助应用的
2016-03-03 21:15:52
452
原创 day26:Spark Runtime(Driver、Masster、Worker、Executor)内幕
以下内容整理来源于DT大数据梦工厂:新浪微博:www.weibo.com/ilovepains/DT大数据梦工厂新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark博客:http://.blog.sina.com.cn/ilovepainsTEL:18610086859
2016-03-02 23:15:33
1060
原创 day49:性能优化5
以下内容来源于DT大数据梦工厂:1、数据本地性2、RDD自定义一、性能优化之数据本地性数据本地性是对分布式系统是一件 最为重要的事情(之一),程序包含代码和数据2部分,单机版本一般情况下很少数据本地性的问题(因为数据在本地)。但是由于数据本地有PROCESS_LOCAL和NODE_LOCAL之分。所以我们还是尽量的让数据处于PROCESS_LOCAL。例如PHP 现在都
2016-03-02 20:20:50
355
原创 day24:park Hash Shuffle内幕彻底解密
一下内容和资源整理来源于DT大数据梦工厂DT大数据梦工厂联系方式:新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark博客:http://.blog.sina.com.cn/ilovepainsTEL:18610086859Email:18610086859@vip.126.com
2016-03-01 07:45:43
519
原创 Day8:IDEA 开发spark
本内容整理来源于DT大数据梦工厂。在bin 目录下执行:./spark-submit --class cn.tan.spark.dt.WordCount --master spark://node11:7077 /home/word.jarspark jobHistory 配置:Caused by: java.lang.IllegalArgumentException:
2016-02-29 22:59:13
584
原创 day47:DT大数据梦工厂性能优化day47
以下内容整理来源于DT大数据梦工厂,微博地址:优化数据结构:减少内存1、java 对象是16个字节(例如指向对象的指针等元数据信息),如果对象中只有一个int的property,则此时会占据20个字节,也就是说对象的原数据占用了大部分的空间,所有在封装数据的时候尽量不要使用对象!例如说明使用JSON格式来封装数据2、Java中的基本数据类型会自动的封箱操作,例如int会
2016-02-26 14:26:08
344
原创 day17:RDD案例(join、cogroup、reduceByKey、groupByKey, join cogroup
本文内容来源于DT大数据梦工厂整理,微博地址:
2016-02-24 17:32:32
1413
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人