
大数据
rong_code
这个作者很懒,什么都没留下…
展开
-
hadoop部分:hadoop生态圈的理解(HDFS,MapReduce,HBASE,zookeeper,hive,sqoop,flume,kafka,yarn,spark)
一、简介Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。二、核心 Hadoop对应于Google三驾马车:HDFS对应于GFS,即分布式文件系统,MapReduce即并行计算框架,...原创 2019-03-09 16:19:42 · 2607 阅读 · 0 评论 -
flume+kafka+sparkstreaming+mysql+ssm+高德地图热力图项目
一、概述本篇文章主要介绍如何使用Sparkingtreaming+ flume + Kafka 实现实时数据的计算,并且使用高德地图API实现热力图的展示。背景知识:在有些场合,我们需要了解当前人口的流动情况,比如,需要实时监控一些旅游景点旅客的密集程度,这时可以使用GPS定位系统将该区域内旅客的IP数据进行计算,但是GPS定位系统也有一定的缺点,不是每个旅客都会GPS功能,这时可以使...原创 2019-03-12 13:18:40 · 591 阅读 · 0 评论 -
java--jsoup教程
jsoup是一款Java的HTML解析器,主要用来对HTML解析。官网中文文档在爬虫的时候,当我们用HttpClient之类的框架,获取到网页源码之后,需要从网页源码中取出我们想要的内容,就可以使用jsoup这类HTML解析器了。可以非常轻松的实现。虽然jsoup也支持从某个地址直接去爬取网页源码,但是只支持HTTP,HTTPS协议,支持不够丰富。所以,主要还是用来对HTML进行...原创 2019-03-13 18:32:34 · 867 阅读 · 0 评论