
大数据
文章平均质量分 82
邵奈一
全栈工程师、市场洞察者、微信:shaonaiyi888
展开
-
可再生能源工厂系统 (REPS) - 项目源码
传感器收集、整理并发送有关生产系统健康状况的数据,如每小时的能源产量,而摄像头则记录并发送视频到服务器控制室,展示工厂内发生的事情,如人员的流动和运输方式(用于监控活动)或卡车装载物资的交换。数据:为了收集太阳能、风能和水能的数据,我们建议使用如 Fingrid.fi 这样的资源,它提供了关于能源生产和消费的全面数据。这包括检测各种类型的错误,并可能向用户提供清晰的指导,说明如何纠正它们。发电厂必须可靠、可持续且成本效益高。注意:确保遵循 Scala 风格指南,并使用适当的命名约定为变量、函数和类命名。原创 2024-07-20 17:38:38 · 1062 阅读 · 0 评论 -
使用Docker安装Redis并运行
这是使用Mac中安装Redis的教程,其实也可以用在Linux上。使用Docker安装MySQL5和MySQL8并同时运行邵奈一原创不易,如转载请标明出处,教育是一生的事业。原创 2024-03-11 23:00:32 · 603 阅读 · 0 评论 -
SpringCloud报错解决:Can‘t assign requested address: /192.168.215.0:9004
但现在的问题是,如果我关掉OrbStack,那么我Docker中的Redis、MySQL都没法使用了!而且项目的报错也因为我启动OrbStack而有所改变,由此可知就是OrbStack引起的。目前是SpringCloud项目,前端使用Vue,之前还行,但是突然有一天启动报错了。最后经过排查,发现原因是我开启了OrbStack导致的。将负载均衡,直接指定成ip地址访问即可!原创 2024-03-11 22:59:14 · 783 阅读 · 0 评论 -
大数据环境准备与配置说明文档
1、世人称我为:被代码耽误的诗人、没天赋的书法家、五音不全的歌手、专业跑龙套演员、不合格的运动员…2、这几年,我整理了很多IT技术相关的教程给大家,爱生活、爱分享。原创 2023-12-27 23:44:29 · 1051 阅读 · 0 评论 -
大数据HCIE成神之路之数学(1)——基础数学
基础数学知识在数据挖掘领域有着大量的应用,尤其是在算法设计和数值处理方面。本章节的主要目的就是基于Python语言和相应的基础数学模块,实现一些常用的数学基础算法,为进入数据挖掘的学习提供基础支持。本章节使用到的框架主要包括math库,numpy库和scipy库。math库是Python的标准库,提供一些常用的数学函数;numpy库是Python的一个数值计算拓展库,主要用于处理线性代数,随机数生成,傅里叶变换等问题;scipy库主要用于统计,优化,插值,积分等问题的处理。原创 2023-11-17 23:20:32 · 463 阅读 · 0 评论 -
拿到别人提供的虚拟机需要做的几件事情
拿到别人提供的虚拟机需要做的几件事情原创 2022-12-09 11:34:21 · 2893 阅读 · 0 评论 -
配置Sqoop1.4.7支持Hadoop3
解决Hadoop3无法使用Sqoop的问题原创 2022-12-08 14:23:12 · 2797 阅读 · 0 评论 -
Kettle执行报错:DOS format was specified but only a single line feed character was found, not 2
解决kettle常见报错问题原创 2022-11-19 21:38:42 · 1373 阅读 · 0 评论 -
报错解决:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.yarn.exceptions.InvalidResourceRequestE
给NodeManager配置的内存是1024MB,而默认MapReduce作业所需的最小内存是1536。解决:设置任务的MapReduce作业所需的最小内存设置为1024M。原创 2022-11-02 14:43:02 · 2614 阅读 · 0 评论 -
错误解决:HBase执行程序报Exception in thread “main“ java.lang.NoClassDefFoundError
HBase程序打包到集群报错原创 2022-11-02 11:50:09 · 1039 阅读 · 0 评论 -
问题解决:MapReduce输出结果乱码(Eclipse)
所以,最简单的办法其实还是将需要统计文件的编码格式改成UTF-8,这样我们就不需要改代码了,否则,你需要指定输入文件的编码格式,不然就会像开头的统计结果一样,只有三行,而且是乱码的。...原创 2022-07-28 13:41:15 · 1462 阅读 · 0 评论 -
基于Hadoop分布式存储的网盘系统实现(简易粗糙版)
基于Hadoop分布式存储网盘的实现原创 2022-05-20 15:41:08 · 5685 阅读 · 19 评论 -
MapReduce基础编程之按日期统计及按日期排序
大家好,我是邵奈一,一个不务正业的程序猿、正儿八经的斜杠青年。1、世人称我为:被代码耽误的诗人、没天赋的书法家、五音不全的歌手、专业跑龙套演员、不合格的运动员…2、这几年,我整理了很多IT技术相关的教程给大家,爱生活、爱分享。3、如果您觉得文章有用,请收藏,转发,评论,并关注我,谢谢!博客导航跳转(请收藏):邵奈一的技术博客导航| 公众号 | 微信 | CSDN | 掘金 | 51CTO | 简书 | 微博 |教程目录0x00 教程内容0x01 项目准备1. 新建Maven项目2. 需求.原创 2022-05-17 21:59:37 · 2255 阅读 · 0 评论 -
报错解决:Flume实现多节点Avro Source报错
实操背景:其实很简单,就是想要使用 Avro Source ,在 master 上启动 Flume 的 Agent ,然后让 slave1 节点发送信息过来,让 master 采集到。有小伙伴报了以下错误:org.apache.flume.FlumeException: Failed to set up server socket at org.apache.flume.source.AvroSource.start(AvroSource.java:248) at org.apache.flume.原创 2022-02-25 18:01:06 · 2125 阅读 · 0 评论 -
人工智能、大数据、数据挖掘、机器学习-数据集来源
一、有很多小伙伴说学习大数据和人工智能,需要用到数据,但是又不知道数据去哪里拿,这里我分享一下之前收藏过的一些网站给大家。二、先来回答大家两个问题:问题1:博客里所所涉及到的数据在哪里拿?后台总是有很多小伙伴想问我拿我博客的数据,关于经常被问到的,我都放在公众号匹配词汇中了,只需要回复就可以拿到下载链接。问题2:想学习机器学习,不知道数据怎么来?要问数据可以从哪里来的话,公司里面的数据是肯定拿不到的了,所以主要有公开的数据、学习框架里都有内置的数据、实验室的数据、还有各种比赛也会提供各种脱敏的数据原创 2022-01-13 17:58:32 · 2215 阅读 · 0 评论 -
MongoDB的安装与配置(简单版本、Win7)
大家好,我是邵奈一,一个不务正业的程序猿、正儿八经的斜杠青年。1、世人称我为:被代码耽误的诗人、没天赋的书法家、五音不全的歌手、专业跑龙套演员、不合格的运动员…2、这几年,我整理了很多IT技术相关的教程给大家,爱生活、爱分享。3、如果您觉得文章有用,请收藏,转发,评论,并关注我,谢谢!博客导航跳转(请收藏):邵奈一的技术博客导航| 公众号 | 微信 | CSDN | 掘金 | 51CTO | 简书 | 微博 |教程目录0x00 教程内容0x01 下载与解压1. 下载2. 解压0x02 配.原创 2021-12-21 18:20:26 · 2885 阅读 · 0 评论 -
网站用户行为分析项目之会话切割(六)=> 参数配置化
大家好,我是邵奈一,一个不务正业的程序猿、正儿八经的斜杠青年。1、世人称我为:被代码耽误的诗人、没天赋的书法家、五音不全的歌手、专业跑龙套演员、不合格的运动员…2、这几年,我整理了很多IT技术相关的教程给大家,主要是大数据教程,帮助了很多小伙伴入坑大数据行业。3、如果您觉得文章有用,请收藏,转发,评论,并关注我,谢谢!博客导航跳转(请收藏):邵奈一的技术博客导航| 公众号 | 微信 | 微博 | CSDN | 简书 |教程目录0x00 教程内容0x01 运行模式配置化0x02 路径配置化0.原创 2020-10-31 09:51:36 · 620 阅读 · 0 评论 -
报错:org.apache.kafka.common.errors.TimeoutException: Expiring 1 record(s) for mySecondTopic-2:
大家好,我是邵奈一,一个不务正业的程序猿、正儿八经的斜杠青年。1、世人称我为:被代码耽误的诗人、没天赋的书法家、五音不全的歌手、专业跑龙套演员、不合格的运动员…2、这几年,我整理了很多IT技术相关的教程给大家,主要是大数据教程,帮助了很多小伙伴入坑大数据行业。3、如果您觉得文章有用,请收藏,转发,评论,并关注我,谢谢!博客导航跳转(请收藏):邵奈一的技术博客导航| 公众号 | 微信 | 微博 | CSDN | 简书 |报错如下:java.util.concurrent.ExecutionE.原创 2020-10-19 17:11:18 · 5634 阅读 · 4 评论 -
Spark GraphX 快速入门
教程目录0x00 教程内容0x01 Spark GraphX 图计算1. GraphX 介绍2. GraphX 的使用场景0x02 GraphX 理论基础1. GraphX 的使用2. 属性图3. 属性图编程示例0xFF 总结0x00 教程内容0x01 Spark GraphX 图计算1. GraphX 介绍GraphX 是 Spark 四大核心组件之一,它也是使用 Spark 作为计算引擎的,GraphX 是用于图形和图形并行计算的组件,实现了大规模图计算的功能。GraphX 的出现使 S原创 2020-09-21 09:19:31 · 3108 阅读 · 0 评论 -
Spark Streaming 快速入门(实操)
教程目录0x00 教程内容0x01 Spark Streaming 编程1. 启动Spark Shell2. 创建 StreamingContext 对象3. 创建 DStream 对象4. 对 DStream 进行操作5. 输出数据0x02 校验结果并删除测试数据1. 查看统计结果2. 删除测试数据0xFF 总结0x00 教程内容Spark Streaming 编程校验结果并删除测试数据本案例是在官方文档上做了一定的修改,实现的过程非常简单:开启一个 Spark Streaming 应用,实原创 2020-09-01 14:11:06 · 1343 阅读 · 0 评论 -
Spark Streaming 快速入门(理论)
教程目录0x00 教程内容0x01 Spark Streaming 相关概念1. Spark Streaming 介绍2. DStream 介绍0x021.2.0xFF 总结0x00 教程内容0x01 Spark Streaming 相关概念1. Spark Streaming 介绍Spark Streaming 是在 Spark 上建立的可扩展的、高吞吐量的、实时处理流数据的框架,数据可以来自于多种不同的源,例如 Kafka、Flume、HDFS/S3、Twitter、ZeroMQ 或者原创 2020-08-31 23:08:39 · 637 阅读 · 0 评论 -
Spark SQL快速入门(进阶)
教程目录0x00 教程内容0x011.0xFF 总结缺图0xFF 总结0x00 教程内容0x011.a.b.c.0xFF 总结现在我们学完了 spark 利用 spark SQL 进行结构化和半结构化数据处理的方式。很多时候,我们会把 SQL 语言和其它编程语言结合起来使用,以充分利用 SQL 的简洁性和编程语言擅长表达复杂逻辑的优点。因此在spark进行数据处理的过程中,我们依然可以利用 spark SQL 对数据查询进行优化。实验知识点Spark SQL 简介Spar原创 2020-08-30 16:39:11 · 1177 阅读 · 0 评论 -
Spark SQL快速入门(基础)
教程目录0x00 教程内容0x01 Spark SQL相关概念1. Spark SQL介绍2. DataFrame介绍0x02 Spark SQL 实战入门1. 数据准备2. 编程缺图0xFF 总结0x00 教程内容0x01 Spark SQL相关概念1. Spark SQL介绍Spark SQL 作为 Spark 四大核心组件之一,主要用于处理结构化数据或半结构化数据,它支持在Spark 中使用 SQL 对数据进行查询,还可以从各种外部数据源中导入数据并将其进行处理。它会提供底层的优化操作原创 2020-08-26 10:41:40 · 1442 阅读 · 0 评论 -
Spark综合小案例之莎士比亚诗文集词频统计
教程目录0x00 教程内容0x011.2.0x021.2.0xFF 总结0x00 教程内容实验知识点Spark 编程模型词频统计算法Scala 语言开发 Spark 应用编译打包提交到集群执行主要针对 RDD 进行各种操作,程序中的步骤:提取数据到 RDD 中,在本实验中我们将莎士比亚文集和停词表文件转换成 RDD。转换(transformations)操作,将已存在的数据集转换成新的数据集,例如 map。转换是惰性的,不会立刻计算结果,仅仅记录转换操作应用的目标数据集,当动原创 2020-08-13 00:57:52 · 1560 阅读 · 0 评论 -
Spark RDD算子进阶(转换算子、行动算子、缓存、持久化)
0x00 教程内容0x01 进阶算子操作1. 创建RDD2. 转换算子3. 行动算子0x02 RDD的缓存与持久化1. 缓存与持久化的意义2. 缓存3. 持久化原创 2020-07-10 15:07:13 · 991 阅读 · 0 评论 -
Spark RDD高级应用(传参、闭包、共享变量)
教程目录0x00 教程内容0x01 向Spark传递参数的方式1. 匿名函数2. 传入静态方法和传入方法的引用0x02 闭包1. 闭包的概念2. 闭包实操3. 打印 RDD 的元素0x03 共享变量1. 广播变量0xFF 总结0x00 教程内容0x01 向Spark传递参数的方式Spark 中的大部分操作都依赖于用户传递的函数,主要有两种方式:方式一:匿名函数方式二:传入静态方法和传入方法的引用1. 匿名函数在前面的教程中,我们用到了很多次这种方式,如这句:val wordRDD =原创 2020-07-09 21:52:18 · 1576 阅读 · 0 评论 -
Spark RDD的实操教程(二)
教程目录0x00 教程内容0x01 RDD 的算子操作1. 算子介绍a. 两种算子类型b. 举个例子c. 总结2. 转化算子(transformations算子)3. 行动算子(actions算子)0x021.2.0xFF 总结0x00 教程内容上一篇教程:Spark RDD的实操教程(一) 我们已经对RDD有了基本的认识,接下来我们继续学习各种各样的算子。0x01 RDD 的算子操作1. 算子介绍RDD 支持两种算子操作,分别是转换(transformations)算子和行动(actio原创 2020-07-09 00:53:03 · 716 阅读 · 0 评论 -
Spark RDD的实操教程(一)
教程目录0x00 教程内容0x01 RDD 概念1. RDD 简介2. RDD 特点0x02 RDD 的创建方式1. 环境准备2. 三种创建方式2.0xFF 总结0x00 教程内容实验知识点RDD 简介连接并初始化 SparkSpark RDD 数据源RDD 的转化操作RDD 的行动操作0x01 RDD 概念1. RDD 简介RDD(Resilient Distributed Databases),即弹性分布式数据集,它是 Spark 对数据的核心抽象,也就是 Spark 对于数原创 2020-07-08 10:04:22 · 1532 阅读 · 3 评论 -
Spark Shell入门教程
教程目录0x00 教程内容0x011.0x021.2.0xFF 总结0x00 教程内容学习前提:有一定的Scala基础、基本的 Linux 基础,对Spark有一定的概念,并且安装好了Spark环境。其他参考教程:1、分布式集群环境之Scala的安装与配置(Centos7)2、分布式集群环境之Spark的安装与配置(Centos7)0x011.Spark-Shell是 Spark 自带的一个 Scala 交互 Shell ,可以以脚本方式进行交互式执行,类似直接用 Python 及其原创 2020-07-07 10:07:29 · 11292 阅读 · 0 评论 -
网站用户行为分析项目之会话切割(五)=> 切割会话代码重构
文章目录0x00 文章内容0x01 实现切割会话代码的重构1. 抽离切割会话代码成方法2. 抽离切割会话方法成接口3. 校验结果0x021.0xFF 总结0x00 文章内容当前情况回顾,上一篇文章中我们已经实现了将输出代码重构成了一个接口组件,以达到可以选择输出TextFile格式文件或者Parquet格式文件。现在,我们回去看一下OneUserTrackerLogsProcesso...原创 2020-03-18 15:34:19 · 841 阅读 · 0 评论 -
Scala常规操作之数组、List、Tuple、Set、Map
本文会进行数组、List、元组的实操数组可以是val类型,但是数据里面的具体值也是可以变的,但其实数组本身是没有变的。一、数组1、创建数组有两种方式:第一种,new出来val arr = new Array[String](3)arr(0) = "hello"第二种,直接赋值val a = Array("nihao", "hello", "hi")2、定义可变长数组(需要先引...原创 2020-01-02 09:08:31 · 678 阅读 · 0 评论 -
IntelliJ IDEA编写Scala代码(安装Scala插件)
文章目录0x00 文章内容0x01 未安装Scala插件情况1. 无法引入Scala SDK2. 无法编写Scala代码0x02 安装Scala插件1. 自动下载安装Scala插件2. 手动下载安装Scala插件0xFF 总结0x00 文章内容未安装Scala插件情况安装Scala插件PS:IntelliJ IDEA想要编写Scala代码,需要安装Scala插件0x01 未安装Sca...原创 2019-12-31 17:01:50 · 1953 阅读 · 0 评论 -
网站用户行为分析项目之会话切割(四)=> 代码重构
文章目录0x00 文章内容0x01 实现输出代码的重构1. 抽离输出代码2. 重构输出路径3. 重构输出文件类型0x021.0xFF 总结0x00 文章内容0x01 实现输出代码的重构1. 抽离输出代码a. 因为SessionCutETL里的main方法写了比较多的代码,此时我们可以将第6步骤的输出代码进行抽离,全选,选中Refactor=>Extract=>Metho...原创 2019-12-31 00:09:15 · 551 阅读 · 0 评论 -
通过CombineTextInputFormat实现小文件优化(调优技能)
文章目录0x00 文章内容0x01 未修改前情况1. 当前文件情况2. 执行未修改前作业3. 查看结果0x02 CombineTextInputFormat实现小文件优化1. 修改代码2. 执行修改后作业3. 查看结果0xFF 总结0x00 文章内容未修改前情况CombineTextInputFormat实现小文件优化说明:本文章在MapReduce编程例子之Combiner与Part...原创 2019-12-30 17:58:51 · 951 阅读 · 0 评论 -
通过SequenceFile实现合并小文件(调优技能)
文章目录0x00 文章内容0x01 通过SequenceFile合并小文件1. 准备工作2. 完整代码0x02 检验结果1. 启动HDFS和YARN2. 执行作业3. 查看执行结果0xFF 总结0x00 文章内容通过SequenceFile合并小文件检验结果说明:Hadoop集群中,元数据是交由NameNode来管理的,每个小文件就是一个split,会有自己相对应的元数据,如果小文件很...原创 2019-12-30 17:36:31 · 2234 阅读 · 0 评论 -
VirtualBox安装教程及使用(Windows)
virtualbox安装详解VirtualBox+CentOS7安装教程原创 2019-12-30 15:08:29 · 82721 阅读 · 0 评论 -
Hadoop支持的文件格式之SequenceFile
文章目录0x00 文章内容0x01 SequenceFile格式概念1. SequenceFile是啥0x02 编码实现1. 写文件完整代码2. 读文件完整代码3. 写文件完整代码(HDFS)4. 读文件完整代码(HDFS)0x03 校验结果1. 启动集群2. 执行写SequenceFile文件格式代码3. 执行读SequenceFile文件格式代码4. 执行写SequenceFile文件格式代码...原创 2019-12-20 14:24:02 · 1098 阅读 · 0 评论 -
Hadoop支持的文件格式之Parquet
文章目录0x00 文章内容0x01 行存储与列存储1. Avro与Parquet0x02 编码实现Parquet格式的读写1. 编码实现读写Parquet文件2. 查看读写Parquet文件结果3. 编码实现读写Parquet文件(HDFS)4. 查看读写Parquet文件(HDFS)结果0x03 彩蛋0xFF 总结0x00 文章内容行存储与列存储编码实现Parquet格式的读写彩蛋...原创 2019-12-18 11:20:06 · 4521 阅读 · 0 评论 -
网站用户行为分析项目之会话切割(三)
文章目录0x00 文章内容0x01 配置Kryo序列化机制1. 情形解析0x02 调整控制台日志级别1. 编写log4j.properties文件0xFF 总结0x00 文章内容配置Kryo序列化机制调整控制台日志级别说明:本篇文章主要是对用户行为分析项目的小小调优及完善,后期还会进行代码的重构以及Debug过程。0x01 配置Kryo序列化机制1. 情形解析a. 回顾第一篇文章...原创 2019-12-17 23:14:03 · 641 阅读 · 0 评论 -
Hadoop支持的文件格式之Avro
文章目录0x00 文章内容0x01 行存储与列存储1. 行存储2. 列存储2. Avro与Parquet0x02 编码实现Avro格式的读写1. 编码实现读写Avro文件2. 查看读写Avro文件结果3. 编码实现读写Avro文件到HDFS4. 查看读写Avro文件结果(HDFS)0xFF 总结0x00 文章内容行存储与列存储编码实现Avro格式的读写0x01 行存储与列存储比如现在...原创 2019-12-17 17:44:39 · 1707 阅读 · 0 评论