大数据笔记

csdnfan_

已于 2022-06-27 21:13:38 修改

阅读量64

点赞数

文章标签： spark

于 2022-06-17 21:36:54 首次发布

本文链接：https://blog.csdn.net/csdnfan_/article/details/125340472

版权

26个大写字母

( 65+Random.nextInt(26) ).asInstanceOf[Char] ==varl c:Char

spark 设置窗口必须写两个不然他会走上面的批次时间 ,不会走后面的滑动步长

//时间要设置两个
val winDS: DStream[sj] = mapDS.window(Minutes(2),Minutes(2))

大数据常见端口汇总：

Hadoop:

50070：HDFS WEB UI端口

8020 ：高可用的HDFS RPC端口

9000 ：非高可用的HDFS RPC端口

8088 ： Yarn 的WEB UI 接口

8485 ： JournalNode 的RPC端口

8019 ： ZKFC端口

19888：jobhistory WEB UI端口

Zookeeper:

2181 ：客户端连接zookeeper的端口

2888 ： zookeeper集群内通讯使用，Leader监听此端口

3888 ： zookeeper端口用于选举leader

Hbase:

60010：Hbase的master的WEB UI端口（旧的）新的是16010

60030：Hbase的regionServer的WEB UI 管理端口

Hive:

9083 : metastore服务默认监听端口

10000：Hive 的JDBC端口

Spark：

7077 ： spark 的master与worker进行通讯的端口 standalone集群提交Application的端口

8080 ： master的WEB UI端口资源调度

8081 ： worker的WEB UI 端口资源调度

4040 ： Driver的WEB UI 端口任务调度

18080：Spark History Server的WEB UI 端口

Kafka：

9092： Kafka集群节点之间通信的RPC端口

Redis：

6379： Redis服务端口

CDH：

7180： Cloudera Manager WebUI端口

7182： Cloudera Manager Server 与 Agent 通讯端口

HUE：

8888： Hue WebUI 端口

kibanna

5601：UI 端口

3.flink 打包运行的 standalone 端口 8081

yarn 端口 8088

4.spark 读取文件

文件必须是流写入的 path只能写目录

  val conf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCount")
  val ssc = new StreamingContext(conf, Seconds(10))
  ssc.sparkContext.setLogLevel("WARN")

//  Source.fromFile("")


  val value: DStream[String] = ssc.textFileStream("data")
  val writer = new PrintWriter("data/a.txt")
  writer.write("aaaaaaa")
  writer.close()

读取hdfs

必须是目录,然后文件在运行时使用 hadoop fs -put 把文件上传上