Hive on Spark: Spark 1.6.0 包含Hadoop 2配置指南

下载需积分: 10 | TGZ格式 | 184.27MB | 更新于2025-01-04 | 142 浏览量 | 举报

该压缩包是通过执行./make-distribution.sh脚本，配合特定的参数编译而成的，这些参数包括"--name"，"hadoop2-without-hive"，以及"--tgz"，后面跟着的是一系列的特性组合"-Pyarn,hadoop-provided,hadoop-2.4,parquet-provided"。" 知识点： 1. Apache Spark概述： Apache Spark是一个开源的大数据处理框架，由加州大学伯克利分校的AMP实验室开发。它提供了一个快速的通用计算系统，并且具有优雅的开发API，支持Java、Scala、Python和R语言。Spark的核心是一个强大的分布式计算引擎，提供了一个快速的执行模型，特别适合于迭代算法和交互式数据分析。 2. Spark版本1.6.0特点： Spark 1.6.0版本，作为该框架的一个重要版本，提供了许多关键的改进和新特性。这包括了对Spark SQL的支持、新的数据帧API、改进的性能以及对机器学习库MLlib的增强等。在该版本中，开发者可以更有效地进行数据处理和分析，尤其在处理大规模数据集时能表现出较高的性能。 3. Hadoop环境的支持：该压缩包是专为Hadoop 2.x环境设计的，这意味着它可以利用Hadoop生态系统中的工具和特性，如HDFS（Hadoop Distributed File System）和YARN（Yet Another Resource Negotiator）。但是，由于它是"hadoop2-without-hive"版本，所以不包括对Hive的支持。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供SQL查询功能。 4. 编译参数说明：在描述中提到了编译时使用的参数，这些参数定义了该Spark构建版的具体配置。具体参数如下： - "--name"后面跟的是包的名称，这里为"hadoop2-without-hive"。 - "--tgz"后面跟的是一组特性标记，它们指定了在编译过程中需要包含的模块和组件。具体来说，参数"Pyarn"表示启用YARN支持，"hadoop-provided"指定了使用Hadoop提供的依赖，"hadoop-2.4"指定了版本兼容性，而"parquet-provided"表示Parquet格式的支持。 Parquet是一种面向分析型应用的列式存储格式，通常用于大数据场景。它能够有效地减少数据的存储空间并提高查询效率，是数据仓库和数据湖中常用的存储格式之一。 5. 文件名称列表说明：压缩包的文件名称为"spark-1.6.0-bin-hadoop2-without-hive"，从名称中可以直观地看出，这是Apache Spark 1.6.0版本的预编译二进制包，专为不包含Hive的Hadoop 2.x环境设计。 6. Hive on Spark：标签中提到了"hive on spark"，这表示Hive可以与Spark集成使用，这种集成使得Hive能够利用Spark的快速计算引擎，从而提升数据处理和分析的速度。然而，由于这个特定版本的Spark包不包含Hive，如果需要Hive on Spark的功能，用户可能需要安装Hive单独的包，并确保它与该Spark版本兼容。 7. Spark的Hadoop版本兼容性：虽然这个特定的版本是为Hadoop 2.x设计的，但Spark具有很好的Hadoop版本兼容性。用户可以根据实际使用的Hadoop版本，选择合适的Spark版本来确保两者之间能够无缝协作。 8. 使用场景：由于该Spark包不包含Hive支持，它主要适合于那些不需要使用Hive的场景，或者当用户希望使用其他数据仓库解决方案时。同时，这也适用于需要利用YARN进行资源管理，以及需要处理Parquet格式数据的情况。总结而言，该压缩包是一个针对特定环境优化过的Spark 1.6.0版本的预编译二进制包，旨在为在Hadoop 2.x环境下运行的用户提供快速且高效的数据处理能力。尽管它不包含Hive支持，但依然可以通过与其他Hadoop生态系统组件结合使用，来实现复杂的数据分析任务。

资源目录

收起资源包目录

Hive on Spark: Spark 1.6.0 包含Hadoop 2配置指南（573个子文件）

JavaVectorSlicerExample.java 3KB

JavaAFTSurvivalRegressionExample.java 3KB

JavaRecommendationExample.java 4KB

_metadata 743B

.part-r-00007.gz.parquet.crc 12B

JavaSimpleTextClassificationPipeline.java 4KB

JavaHdfsLR.java 5KB

beeline 1KB

JavaLogisticRegressionSummaryExample.java 3KB

layout.html 207B

JavaNaiveBayesExample.java 3KB

_common_metadata 210B

.part-r-00005.gz.parquet.crc 12B

load-spark-env.cmd 2KB

JavaDecisionTreeClassificationExample.java 4KB

_SUCCESS 0B

JavaRandomForestRegressorExample.java 4KB

JavaOneHotEncoderExample.java 3KB

pyspark2.cmd 1KB

JavaKafkaWordCount.java 4KB

JavaLDAExample.java 3KB

sample_tree_data.csv 113KB

spark-class.cmd 1010B

pyspark.css 2KB

spark-assembly-1.6.0-hadoop2.4.0.jar 101.53MB

JavaALS.java 3KB

JavaStatusTrackerDemo.java 3KB

JavaNGramExample.java 3KB

user.avsc 185B

JavaRandomForestClassificationExample.java 4KB

JavaGradientBoostedTreeClassifierExample.java 4KB

JavaKMeansExample.java 3KB

spark-submit.cmd 1010B

JavaCustomReceiver.java 6KB

make.bat 193B

JavaTrainValidationSplitExample.java 3KB

sparkR2.cmd 1010B

JavaIsotonicRegressionExample.java 4KB

JavaMulticlassClassificationMetricsExample.java 4KB

.part-r-00008.gz.parquet.crc 12B

JavaGradientBoostingClassificationExample.java 4KB

JavaLR.java 3KB

JavaSqlNetworkWordCount.java 5KB

spark-shell2.cmd 1KB

lpsa.data 10KB

JavaDecisionTreeClassificationExample.java 4KB

spark-1.6.0-yarn-shuffle.jar 6.56MB

JavaTokenizerExample.java 3KB

.part-r-00002.gz.parquet.crc 12B

JavaKMeans.java 3KB

users.avro 334B

JavaFlumeEventCount.java 3KB

spark-examples-1.6.0-hadoop2.4.0.jar 95.74MB

JavaDecisionTreeRegressionExample.java 4KB

.part-r-00000-829af031-b970-49d6-ad39-30460a0be2c8.orc.crc 12B

JavaRegressionMetricsExample.java 3KB

spark-shell.cmd 1008B

JavaLDAExample.java 3KB

JavaMultilayerPerceptronClassifierExample.java 3KB

JavaDecisionTreeRegressionExample.java 4KB

test.data 128B

.part-r-00000-829af031-b970-49d6-ad39-30460a0be2c8.orc.crc 12B

JavaNetworkWordCount.java 4KB

JavaDirectKafkaWordCount.java 4KB

JavaCrossValidatorExample.java 5KB

JavaElementwiseProductExample.java 3KB

JavaGradientBoostingRegressionExample.java 4KB

spark-class2.cmd 2KB

JavaBinaryClassificationMetricsExample.java 4KB

JavaQueueStream.java 3KB

JavaStatefulNetworkWordCount.java 4KB

.gitignore 49B

JavaRandomForestRegressionExample.java 4KB

JavaIndexToStringExample.java 3KB

JavaRankingMetricsExample.java 7KB

spark-submit2.cmd 1KB

JavaMultiLabelClassificationMetricsExample.java 3KB

sparkR.cmd 998B

full_user.avsc 240B

JavaTC.java 4KB

_SUCCESS 0B

beeline.cmd 932B

JavaGradientBoostedTreeRegressorExample.java 4KB

JavaOneVsRestExample.java 8KB

run-example2.cmd 3KB

pyspark.cmd 1000B

JavaLBFGSExample.java 4KB

run-example.cmd 1012B

JavaSparkSQL.java 7KB

JavaTfIdfExample.java 3KB

JavaPageRank.java 5KB

JavaDeveloperApiExample.java 9KB

JavaRandomForestClassifierExample.java 4KB

random.data 41KB

.part-r-00004.gz.parquet.crc 12B

JavaSimpleParamsExample.java 5KB

JavaRecoverableNetworkWordCount.java 6KB

JavaChiSqSelectorExample.java 3KB

JavaLogQuery.java 5KB

make2.bat 6KB

共 573 条

Ahuuua

粉丝: 146

Hive on Spark: Spark 1.6.0 包含Hadoop 2配置指南

spark-1.6.3-bin-hadoop2.4.tgz

spark-1.4.0-bin-hadoop1.tgz

spark-2.0.2-bin-hadoop2.4.tgz

spark-1.6.0-bin-hadoop2.6.tgz

spark-1.6.0-bin-hadoop2.4.tgz

【DT-BigData】Spark-1.6.0.tgz

apache-kyuubi-1.6.0-incubating-bin.tgz

spark-1.6.0.zip.002

spark-1.6.0.zip.001

spark-1.6.0.zip

最新资源