- 博客(13)
- 资源 (1)
- 收藏
- 关注
原创 大数据_flink交易监控_Flink+ML
Flink是一个开源的,专为高吞吐、低延迟的连续数据处理而设计。它的独特之处在于将批处理视为流处理的特例,提供统一的编程模型。
2025-04-15 15:37:31
985
原创 大数据_spark金融交易监测-随机森林算法
机器学习算法不能直接处理原始的表格数据,需要将多个特征列合并为一个"特征向量"。这就是的作用。【转换前】| 金额 | 时间 | 风险分 |【转换后】// 使用随机森林算法这里选择了随机森林算法来区分正常交易和欺诈交易。随机森林是一种集成学习算法,由多棵决策树组成。就像一片"森林"中有很多"树"一样,每棵树独立投票,最终取多数票作为结果。每位专家(决策树)只看部分资料(特征子集)每位专家有不同专长(随机性)最终通过"投票"做出集体决策(集成学习)
2025-04-15 15:36:50
726
原创 大数据_hive电商数据分析
依赖关系: Hive依赖MapReduce进行底层计算抽象层次: Hive是高层抽象,屏蔽了MapReduce复杂性面向用户: Hive面向SQL用户,MapReduce面向Java开发者执行模式: Hive查询最终会转换为一个或多个MapReduce作业执行当使用Hive执行查询时,实际上是在间接使用MapReduce进行数据处理。这就是为什么理解MapReduce原理对于优化Hive查询也很重要。
2025-04-15 15:35:08
968
原创 大数据计算资源基础知识,以及5个核心技术讲解(hadoop、mapreduce、hive、spark、flink)
大数据处理面临的主要挑战是数据量太大,无法在单台机器上高效处理。因此,需要分布式系统将数据和计算任务分散到多台机器上协同完成。根据处理方式和应用场景的不同,发展出了不同类型的计算资源。
2025-04-15 15:31:18
1203
原创 什么是数据血缘?以及具体案例解析
数据血缘是指数据从产生到消亡的整个生命周期中,记录数据流转、变化和影响关系的一种方法。简单来说,它就像是数据的"家谱",清晰展示数据从哪里来,经过哪些转换,最终去向何处。
2025-03-31 11:13:15
672
原创 MySql8.0windows无法启动服务解决方案can‘t creat test file
mysql8.0报错,can’t creat test file
2022-09-08 13:52:17
1197
原创 XSS-Challenge详解(内含知识点
XSS-Challenge笔记1随便输入 <> 下方回显No result for “<>” 可以猜测输入框没有对敏感字符进行过滤‘题目要求:Inject the following JavaScript command: alert(document.domain);构造shellcode<script>alert(document.domain)</script>2????绕过标签构造shellcode<script>a
2022-02-06 17:06:23
2263
原创 sqllabs详解与知识点汇总(内含代码审计)
sqllabs闯关记录关于注释符的详解SQL注入注释符(#、-- 、/**/)使用条件及其他注释方式的探索 - impulse- - 博客园 (cnblogs.com)HTTP请求方法------GET 对比 POSTHTTP 方法:GET 对比 POST | 菜鸟教程 (runoob.com)来自知乎的绕过SQL注入:各种绕过检测的姿势 - 知乎 (zhihu.com)Less-1~4@读题-------------get方式提交@Error based—报错注入@Single quo
2022-02-03 16:52:48
5989
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人