
一步一步学习Spark
jim_cainiaoxiaolang
我热爱大数据开发,希望大家多交流
展开
-
spark streaming原理与实践
原理部分:1.概述许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用,训练机器学习模型的应用,还有自动检测异常的应用。spark streaming是spark为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的API来编写流式计算应用,这样就可以大量重用批处理应用的技术甚至代码。Spark streaming使用离散化流(discretized原创 2016-04-15 09:14:03 · 976 阅读 · 0 评论 -
Spark入门学习交流—编程模型及SparkShell实战
1.yarn1)hadoop MapReduce框架的局限性 JobTracker单点瓶颈。MapReduce中的JobTracker负责作业的分发,管理和调度,同时还必须和集群中所有的节点保持heartbeat通信,了解机器的运行状态和资源情况。很明显JobTracker负责了太多的任务,如果集群的数量和提交job的数量不断增加,那么jobTracker的任务量也会随之原创 2016-04-14 19:43:34 · 545 阅读 · 0 评论 -
Spark入门学习交流—Spark生态圈
spark运行时的架构 在分布式的环境下,spark集群采用的是主/从结构。在一个spark集群中,有一个节点负责中央协调,调度各个分布式工作节点。这个中央协调节点被称为驱动器节点,与之对应的工作节点被称为执行器节点。驱动器节点可以和大量的执行器节点进行通信,它们也都作为独立的java进程运行。驱动器节点和所有的执行器节点一起被称为一个spark应用。spark应用通过一个叫做集群管理器(原创 2016-04-14 10:21:14 · 827 阅读 · 0 评论 -
Spark入门学习交流—Spark环境搭建
1.所需要的软件资源: 1)vmaware11 2)centos(3台虚拟环境,其中两台做slave,一台做master) 3)hadoop2.6 4)spark1.6.1原创 2016-03-19 19:39:14 · 594 阅读 · 0 评论 -
Spark实例学习(1)
1.开启hadoop环境,启动其HDFS和yarn。2.接着开启Spark环境。实例1:(Spark自带例子)计算的值 (感兴趣的可以研究一下源码)(1)java版(2)Python版实例2:wordcount1.安装idea,在命令行终端中,进入$IDEA_HOME/bin目录,输入./idea.sh进行原创 2016-12-04 20:54:02 · 544 阅读 · 0 评论 -
Spark实例学习
Spark实例学习许明杰1.开启hadoop环境,启动其HDFS和yarn。 2.接着开启Spark环境。 实例1:(Spark自带例子)计算的值 (感兴趣的可以研究一下源码)(1)java版 (2)python版 实例2:wordcount1.安装idea,在命令行终端中,进入$IDEA_HOME/bin目录,输入./idea.sh原创 2016-12-04 20:39:01 · 283 阅读 · 0 评论 -
Apache Spark 2.0正式版发布下载
我们很荣幸地宣布,自7月26日起Databricks开始提供Apache Spark2.0的下载,这个版本是基于社区在过去两年的经验总结而成,不但加入了用户喜爱的功能,也修复了之前的痛点。 本文总结了Spark 2.0的三大主题:更简单、更快速、更智能,另有Spark 2.0内容的文章汇总介绍了更多细节。 两个月前,Databricks发布了Apache Spark原创 2016-11-14 20:46:41 · 1032 阅读 · 0 评论 -
MLlib算法简介
之前Mahout或者自己写的MR来解决复杂的机器学习,导致效率低,spark特别适合迭代式的计算,这正是机器学习算法训练所需要的,MLlib是基于spark之上算法组件,基于spark平台来实现。主要的机器学习的算法目前在MLlib中都已经提供了,分类回归、聚类、关联规则、推荐、降维、优化、特征抽取筛选、用于特征预处理的数理统计方法、以及算法的评测。以上是目前spark1.3支转载 2016-11-17 19:32:02 · 1377 阅读 · 0 评论 -
spark中的SparkContext实例的textFile使用的小技巧
网上很多例子,包括官网的例子,都是用textFile来加载一个文件创建RDD,类似sc.textFile("hdfs://n1:8020/user/hdfs/input")textFile的参数是一个path,这个path可以是:1. 一个文件路径,这时候只装载指定的文件2. 一个目录路径,这时候只装载指定目录下面的所有文件(不包括子目录下面的文件)3. 通过通配符的形式加载多个文转载 2016-11-16 19:18:33 · 845 阅读 · 0 评论 -
基于centos的Spark环境搭建过程详解
百度经验:http://jingyan.baidu.com/article/7e440953308f122fc0e2ef81.htmlHadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS: http://www.powerxing.com/install-hadoop-cluster/原创 2016-10-09 11:35:45 · 2802 阅读 · 0 评论 -
Spark的数据存储
Spark数据存储的核心是弹性分布式数据集(RDD)。RDD可以被抽象地理解为一个大的数组(Array),但是这个数组是分布在集群上的。逻辑上RDD的每个分区叫一个Partition。在Spark的执行过程中,RDD经历了一个个的Transformation算子后,最后通过Action算子进行触发操作。逻辑上每经历一次变换,就会将RDD转换成为一个新的RDD,RDD之间通过Lineage产原创 2016-05-16 12:32:31 · 906 阅读 · 0 评论 -
Hadoop-2.6.0+Zookeeper-3.4.6+Spark-1.5.0+Hbase-1.1.2+Hive-1.2.0集群搭建
前言本博客目的在于跟大家分享大数据平台搭建过程,是笔者半年的结晶。在大数据搭建过程中,希望能给大家提过一些帮助,这也是本博客的价值所在。 博客内容分为将五个部分,具体如下:第一部分 集群平台搭建 第二部分 SSH登录和JDK安装 第三部分 Hadoop-2.6.0+zookeeper-3.4.6集群搭建 第四部分 Spark集群搭建 第五部分 Hive集群转载 2016-08-08 11:18:27 · 156 阅读 · 0 评论 -
配置spark开发环境过程详解
(希望通过写文章的方式记录下学习历程,也希望在将来与学习spark的小伙伴多交流交流。)所需要的软件资源: 1)vmaware11 2)centos(3台虚拟环境,其中两台做slave,一台做master) 3)hadoop2.6(下载地址) 4)spark1.6.1原创 2016-03-24 21:07:49 · 256 阅读 · 0 评论 -
海量数据下的分布式存储与计算
存储从理论角度提到大数据存储nosql是不得不提的一个部分,CAP,BASE,ACID这些原理在过去的一些年对其有着一定的指导作用(近年来随着各种实时计算模型的发展,CAP也被渐渐打破)CAP:(Consistency-Availability-Partition Tolerance数据一致性(C): 等同于所有节点访问同一份最新的数据副本;对数据更新具备高可用性(A): 在可转载 2017-07-03 19:46:03 · 1231 阅读 · 0 评论