- 博客(6)
- 收藏
- 关注
转载 Hadoop学习路线
大数据学习路线java(Java se,javaweb)Linux(shell,高并发架构,lucene,solr)Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,...
2018-07-22 18:36:15
499
转载 hadoop伪分布式安装
因为hadoop伪分布式我已在本地搭建并且运行成功。为了加快学习不足同时分享搭建。直接将不足贴出来,如有不同意见还忘评价共同提升。Hadoop 伪分布模式 HDFS+YARN另外补充下: hadoop2.0之后不包含MapReduce;环境搭建准备: 1,VMwa...
2018-07-22 17:37:03
281
原创 HDFS基础
HDFS的功能当我们将在下一个HDFS教程博客中探索HDFS体系结构时,我们将详细了解这些功能。但是,现在让我们来看看HDFS的特性:成本: 一般来说,HDFS部署在商用硬件上,例如您每天使用的台式机/笔记本电脑。所以,在项目的拥有成本方面是非常经济的。因为我们使用的是低成本的商品硬件,所以您无需花费大量资金来扩展Hadoop集群。换句话说,增加更多的节点到你的HDFS是成本效益的。数...
2018-07-21 16:21:49
285
原创 HDFS优点
HDFS的优点:1、分布式存储 可以将一个100TB的大文件村部存储在100台机器上,当从hadoop集群的任何一台机器上登陆都可以访问到这100TB的文件。2、分布式并行计算 例如一台机器计算100TB数据需要100分钟,即计算1TB需要一分钟,如果把这100TB分配到100台机器上一分钟就可以计算完。3、水平可伸缩 即向现有集...
2018-07-14 16:33:14
2050
原创 HDFS基础学习
HDFS背景介绍 随着数据量越来越大,在一个操作系统中存不下,那么就把数据分配到更多的操作系统管理的磁盘中,但是这样不方便管理和维护,因此需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。 分布式文件系统是一种允许文件通过网络在多台机器上分享的文件系统,可让多机器上的多用户分享文件和存储空间。分布式文件管理系统很多,HDFS只是其中一种,适用...
2018-07-14 16:25:02
498
原创 初始Hadoop
1、什么是Hadoop hadoop是一个开源软件框架(面向大数据处理),可编写和运行分布式应用处理大规模数据,hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的的性能,擅长离线数据分析(不是在生产系统上对数据进行实时处理,比如:把生产线上的数据导入到专门的数据存储环境)。 hadoop就是一个分布式计算的...
2018-07-14 15:21:16
270
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人