30岁老阿姨-CSDN博客

原创机器学习---决策树和随机森林代码

【代码】机器学习---决策树和随机森林代码。

2023-12-20 08:52:51 660

就是可以将某些列作为分类条件划分邮件数的类别，再取邮件数的平均数，这样可以使用决策树来预测大概值的范围。随机森林中的决策树生成过程是对样本数据进行行采样和列采样，可以指定随机森林中的树的个数和属性个数，这样当训练集很大的时候，随机选取数据集的一部分，生成一棵树，重复上面过程，可以生成一堆形态各异的树，这些决策树构成随机森林。决策树对训练集有很好的分类能力，但是对于未知的测试集未必有好的分类能力，导致模型的泛化能力弱，可能发生过拟合问题，为了防止过拟合问题的出现，可以对决策树进行剪枝。

2023-12-20 08:51:43 604

原创机器学习---决策树

决策树和随机森林都是非线性有监督的分类模型。决策树是一种树形结构，树内部每个节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶子节点代表一个分类类别。通过训练数据构建决策树，可以对未知数据进行分类，随机森林是由多个决策树组成，随机森林中每一棵决策树之间没有关联，在得到一个随机森林后，当有新的样本进入的时候，随机森林中的每一棵决策树分别进行判断，分析出该样本属于哪一类，然后最后看哪一类被选择最多，就预测该样本属于这一类。

2023-12-19 09:05:57 826

原创机器学习---推荐系统案例（二）

dubbo介绍参照文档：dubbo.doc。

2023-12-19 08:52:11 573

原创机器学习---推荐系统案例（一）

推荐系统数据处理首先是将Hive中的用户app历史下载表与app浏览信息表按照设备id进行关联，然后将关联数据使用python文件进行处理，将数据预处理为label和feature两列的临时数据，后期经过处理转换成逻辑回归模型的训练集，进而得到模型文件。

2023-12-18 09:35:51 1106

原创机器学习---App推荐系统案例

个性化商品营销和信息过载是推荐系统产生的根本原因。app推荐的最根本就是根据用户历史下载的App去找到与这个App相似的app，推荐给该用户。如何找到与此App相似的app?这就需要基于所有用户的下载历史计算挖掘出基于物品相似的矩阵。app推荐系统是基于用户的隐式转换数据和基于商品的协同过滤来实现app个性化推荐。当用户登录应用商店时，根据之前用户的行为信息来推荐对应感兴趣的app。思考：假设自己实现一个商品推荐系统需要什么样的数据？商品的基本信息、用户商品购买记录、用户对购买商品的评价。

2023-12-18 08:52:39 1308

原创机器学习---协同过滤

基于商品的协同过滤：跟你喜欢的东西类似的东西你也可能喜欢。用户A喜欢商品A和C，用户B喜欢商品A,B,C。从所有用户的历史喜好中假设商品A与商品C比较类似，也就是喜欢商品A的都喜欢商品C，那么基于这个结论我们可以将商品C推荐给用户C。用户C喜欢商品A,C,D。协同过滤（Collaborative Filtering）技术，是推荐系统中应用最为广泛的技术之一，协同过滤算法主要有两种，一种是基于用户的协同过滤算法(UserBaseCF)，另一种是基于物品的协同过滤算法(ItemBaseCF）。

2023-12-17 09:15:47 455

原创机器学习---模型评估

如：拿到第一个样本，该样本真实类别是p,Score=0.9，将0.9看成分类阈值threshold，那么该样本预测是正例，TPR=1/10,FPR=0/10=0，拿到第二个样本，该样本真实类别是p,Score=0.8,将0.8作为threshold,该样本预测是正例，TPR=2/10,FPR=0/10=0 …预测错误的样本标号为：3,7。下图中，如果ROC的图像是通过（0,0）点和（1.1）点的一条直线也就是①线，那么当前模型的预测能力是0.5，即：模型在预测样本时，预测对一次，预测错一次，会形成①曲线。

2023-12-17 09:14:51 938

原创机器学习---道路拥堵案例

2）、预测道路的拥堵情况受当前道路附近道路拥堵的情况，受这几个道路过去几分钟道路拥堵的情况。预测道路拥堵情况可以根据附近每条道路和当前道路前3分钟道路拥堵的情况来预测。如果模型针对一条本来数据“畅通”分类的数据预测错了，那么预测结果错的情况下就不是只有“拥堵”这个情况，有可能是其他三类的一种，也有一定的概率预测分类为“比较畅通”，那么就相当于提高了模型的抗干扰能力。每条道路的拥堵情况不仅和当前道路前一个时间点拥堵情况有关系，还和与这条道路临近的其他道路的拥堵情况有关。5）、使用模型预测道路的拥堵情况。

2023-12-15 17:34:20 1513

原创机器学习---音乐分类案例

频域分析：对一个信号来说，在对其进行分析时，分析信号和频率有关的部分，而不是和时间相关的部分，和时域相对。即正弦波是对频域的描述，因为时域中的任何波形都可用正弦波合成。傅里叶变换是贯穿时域和频域的方法之一，傅里叶变换就是将难以处理的时域信号转换成了易于分析的频域信号。时域分析：对一个信号来说，信号强度随时间的变化的规律就是时域特性，例如一个信号的时域波形可以表达信号随着时间的变化。傅里叶原理：任何连续测量的时序信号，都可以表示为不同频率的正弦波信号的无限叠加。2）、读入以上7类特征向量数据作为训练集。

2023-12-15 17:33:58 773

原创机器学习---逻辑回归算法

线性回归要求因变量必须是连续性的数据变量，逻辑回归要求因变量必须是分类变量，可以是二分类或者多分类(多分类都可以归结到二分类问题)，逻辑回归的输出是0~1之间的概率。图中E点的z值远大于C点的z值，反映到S形函数中，E点属于I类的概率比C点属于I类的概率要大的多。=0.5，将A,B两点划分为I类和II类都可以，假设我们规定当z>=0属于I类，z<0属于II类，那么A,B属于I类。两个维度的数据，现要使用逻辑回归对五个点分成两类：I和II类，A点和B点都在直线上，对应的z值是0，那么逻辑回归结果。

2023-12-14 09:10:55 601

原创机器学习---微博聚类案例

要实现广告的精准投放，需要使用聚类找出兴趣一致的用户群体，这样就需要对用户进行聚类找出行为一致的用户，当对所有用户完成聚类之后，再使用关键词分析找出每个聚类群体中的用户的讨论主题，如果主题符合广告内容或者和广告内容相关，那么当前广告就可以推荐给当前用户群体，实现精准投放广告。

2023-12-14 09:10:31 628

原创机器学习---TF-IDF算法

通常某个词语的IDF可以由语料库中文件的总数量除以包含该词语的文件数目，再将得到的商取对数决定。，即某一个文件中高频出现的词条，以及该词条在整个语料库文件中低频出现的现象，就可以产生高权重的TF-IDF,因此，TF-IDF倾向过滤掉常见的词语，保留重要的词语。这样当一个词语在语料库少数文章中出现，该词语对应的IDF值越大，当一个词语在大多数文章中都出现，那么该词语对应的IDF值会越小。一个词语在一篇文章中出现的次数越多，同时在所有文章中出现的次数越少，越能够代表该文章的中心意思，这就是TF-IDF的含义。

2023-12-13 10:03:41 506

原创机器学习---数字聚类案例

对于分类结果，可以抽样数据使用matplotlib检验数据的分布情况。

2023-12-13 10:03:17 1135

原创机器学习---K-Means聚类算法

机器学习中有两类的大问题，一个是分类，一个是聚类。分类是监督学习，原始数据有标签，可以根据原始数据建立模型，确定新来的数据属于哪一类。聚类是一种无监督学习，聚类是指事先没有“标签”，在数据中发现数据对象之间的关系，将数据进行分组，一个分组也叫做“一个簇”，组内的相似性越大，组间的差别越大，则聚类效果越好，也就是簇内对象有较高的相似度，簇之间的对象相似度比较低，则聚类效果越好。K-means就是一个聚类算法。

2023-12-12 08:43:06 1011

原创机器学习---KNN案例

【代码】机器学习---KNN案例。

2023-12-12 08:42:44 900

原创机器学习---KNN最近邻算法

K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一，有监督算法。该方法的思路是：如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法由你的邻居来推断出你的类别，KNN算法就是用距离来衡量样本之间的相似度。如果K = 3，绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形，少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于红色的三角形一类。

2023-12-11 14:31:19 1553

原创机器学习---垃圾邮件分类案例

依次需要使用pip命令安装numpy、scipy、skikit_learn、matplotlib模块。

2023-12-11 11:35:49 1462

原创机器学习---朴素贝叶斯算法

朴素贝叶斯（Naive Bayes ,NB）算法是基于贝叶斯定理与特征条件独立假设的分类方法，该算法是有监督的学习算法，解决的是分类问题，是将一个未知样本分到几个预先已知类别的过程。朴素贝叶斯的思想就是根据某些个先验概率计算Y变量属于某个类别的后验概率，也就是根据先前事件的有关数据估计未来某个事件发生的概率。1、举例：一个学校内有60%的学生是男生，40%的学生是女生。根据统计，男生总是穿长裤，女生则有一半穿长裤，一半穿裙子。问题：假设在校园中随机抽取一个穿长裤的学生，推断该学生是女生的概率？

2023-12-07 10:40:59 1589

原创机器学习---线性回归案例

训练模型都会将数据集分为两部分，一般会将0.8比例的数据集作为训练集，将0.2比例的数据集作为测试集，来训练模型。模型过拟合就是训练出来的模型在训练集上表现很好，但是在测试集上表现较差的一种现象，也就是模型对已有的训练集数据拟合的非常好（误差值等于0），对于测试集数据拟合的非常差，模型的泛化能力比较差。训练出模型后，可以在训练集中测试下模型的正确率，在测试集中测试下模型的正确率，如果两者差别很大（测试集正确率小，训练集正确率大），那么模型就有可能发生了过拟合。

2023-12-07 10:29:04 789

原创机器学习---线性回归算法

1、什么是回归？从大量的函数结果和自变量反推回函数表达式的过程就是回归。线性回归是利用数理统计中回归分析来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。2、一元线性回归3、多元线性回归如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。公式：对于一元线性回归来说，如果现在有很多呈线性关系离散的点，假设现在需要找到一个线性回归公式来表示这些点自变量和因变量的关系，每两个点之间都能确定一条直线，如何找到一条直线来表示这

2023-12-06 09:09:32 790

原创机器学习---pySpark案例

【代码】机器学习---pySpark案例。

2023-12-06 08:51:55 1098

原创机器学习---环境准备

window安装python，配置python环境变量。安装python后,在环境变量path中加入安装的路径，cmd中输入python，检验python是否安装成功。注意：如果使用的是anaconda安装的python环境，建议安装python3.5.x版本，这个版本和spark1.6兼容。如何在anaconda中安装python3.5.x版本的python环境？参考文档：“Anaconda安装及使用.docx”

2023-12-03 21:33:28 939

原创机器学习---pySpark代码开发

使用python api编写pyspark代码提交运行时，为了不破坏spark原有的运行架构，会将写好的代码首先在python解析器中运行(cpython)，Spark代码归根结底是运行在JVM中的，这里python借助Py4j实现Python和Java的交互,即通过Py4j将pyspark代码“解析”到JVM中去运行。会导致与指定的python解析器的python版本不一致。这时需要在环境变量中指定下PYSPARK_PYTHON环境变量即可，值为指定的python3.5.x python解析器路径。

2023-12-03 21:33:09 606

原创 Spark---DataFrame存储、Spark UDF函数、UDAF函数

可以自定义类实现UDFX接口/***/@Override});/*** 根据UDF函数参数的个数来决定是实现哪一个UDF UDF1，UDF2。。。。7.10.})UserDefinedAggregateFunction类。

2023-12-01 10:05:49 842

原创 Spark---Spark on Hive

在Spark2.0+版本中之后，建议使用SparkSession对象，读取Hive中的数据需要开启Hive支持。配置hive的metastore路径。

2023-12-01 10:05:33 901

原创 Spark---创建DataFrame的方式

5、DataFrame是一个Row类型的RDD，df.rdd()/df.javaRdd()。3、DataFrame原生API可以操作DataFrame。4、注册成临时表时，表中的列默认按ascii顺序显示列。2、df.show()默认显示前20行数据。ErrorIfExists：如果存在就报错。1、可以两种方式读取json格式的文件。两种方式创建DataFrame。Ignore：如果存在就忽略。Overwrite：覆盖。

2023-11-30 09:36:05 2122

原创 Spark---SparkSQL介绍

Hive是Shark的前身，Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制。SparkSQL支持查询原生的RDD。RDD是Spark平台的核心概念，是Spark能够高效的处理大数据的各种场景的基础。能够在Scala中写SQL语句。支持简单的SQL语法检查，能够在Scala中写Hive语句访问Hive数据，并将结果取回作为RDD使用。

2023-11-30 09:35:34 1135

原创 Spark---SparkCore(五)

MapOutputTracker是Spark架构中的一个模块，是一个主从架构。管理磁盘小文件的地址。存在于Driver中存在于Excutor中。

2023-11-29 09:31:19 1085

原创 Spark---SparkCore（四）

map task的计算结果会根据分区器（默认是hashPartitioner）来决定写入到哪一个磁盘小文件中去。ReduceTask会去Map端拉取相应的磁盘小文件。.产生的磁盘小文件的个数：M（map task的个数）*R（reduce task的个数）产生磁盘小文件的个数：C(core的个数)*R（reduce的个数）产生磁盘小文件的个数： 2*M（map task的个数）

2023-11-29 09:30:06 1110

原创 Spark---SparkCore（三）

可以指定提交Application的名称。

2023-11-28 10:10:49 549

原创 Spark---资源、任务调度

例如：要找出网站活跃的前10名用户，活跃用户的评测标准就是用户在当前季度中登录网站的天数最多，如果某些用户在当前季度登录网站的天数相同，那么再比较这些用户的当前登录网站的时长进行排序，找出活跃用户。1、默认情况每个worker为当前的Application启动一个Executor，这个Executor使用集群中所有的cores和1G内存。2、在workr上启动多个Executor,设置--executor-cores参数指定每个executor使用的core数量。3、内存不足的情况下启动core的情况。

2023-11-28 10:10:27 1776

原创 Spark---Master启动及Submit任务提交

Spark集群启动之后，首先调用$SPARK_HOME/sbin/start-all.sh，start-all.sh脚本中调用了“start-master.sh”脚本和“start-slaves.sh”脚本，在start-master.sh脚本中可以看到启动Master角色的主类：“org.apache.spark.deploy.master.Master”。每个角色启动之前首先向NettyRpcEnv环境中注册对应的Endpoint，然后启动。

2023-11-27 09:30:59 1787

原创 Spark---SparkCore（二）

PV（page view）即页面浏览量或点击量，是衡量一个网站或网页用户访问量。具体的说，PV值就是所有访问者在24小时（0点到24点）内看了某个网站多少个页面或某个网页多少次。PV是指页面刷新的次数，每一次页面刷新，就算做一次PV流量。度量方法就是从浏览器发出一个对网络服务器的请求（Request），网络服务器接到这个请求后，会将该请求对应的一个网页（Page）发送给浏览器，从而产生了一个PV。那么在这里只要是这个请求发送给了浏览器，无论这个页面是否完全打开（下载完成），那么都是应当计为1个PV。

2023-11-27 09:30:37 1038

原创 Spark---SparkCore（一）

1、Master(standalone):资源管理的主节点（进程）2、Cluster Manager:在集群上获取资源的外部服务(例如：standalone,Mesos,Yarn)3、Worker Node(standalone):资源管理的从节点(进程)或者说管理本机资源的进程4、Driver Program:用于连接工作进程(Worker)的程序。

2023-11-24 09:42:58 1462

原创 Spark---补充算子

作用在K，V格式的RDD上。根据K进行连接，对（K，V）join（K，W）返回（K，（V，W））join后的分区数与父RDD分区数多的那一个相同。

2023-11-24 09:09:03 1046

原创 Spark---基于Yarn模式提交任务

Yarn-client模式同样是适用于测试，因为Driver运行在本地，Driver会与yarn集群中的Executor进行大量的通信，会造成客户机网卡流量的大量增加.为当前的Application申请资源给NameNode发送消息启动Executor。注意：ApplicationMaster有launchExecutor和申请资源的功能，并没有作业调度的功能。

2023-11-23 14:55:00 1048

原创 Spark---基于Standalone模式提交任务

client模式适用于测试调试程序。Driver进程是在客户端启动的，这里的客户端就是指提交应用程序的当前节点。在Driver端可以看到task执行的情况。生产环境下不能使用client模式，是因为：假设要提交100个application到集群运行，Driver每次都会在client端启动，那么就会导致客户端100次网卡流量暴增的问题。client模式适用于程序测试，不适用于生产环境，在客户端可以看到task的执行和结果二、Standalone-cluster提交任务方式。

2023-11-23 14:09:49 1111

原创 Spark---集群搭建

Standalone集群是Spark自带的资源调度框架，支持分布式搭建，这里建议搭建Standalone节点数为3台，1台master节点，2台worker节点，这虚拟机中每台节点的内存至少给2G和2个core，这样才能保证后期Spark基于Standalone的正常运行。

2023-11-22 10:51:59 1022

原创 Spark---转换算子、行动算子、持久化算子

Transformations类算子是一类算子（函数）叫做转换算子，如map、flatMap、reduceByKey等。Transformations算子是延迟执行，也叫懒加载执行。

2023-11-22 10:16:13 1159

java实现websocket的wss协议，netty做服务端支持ssl协议

基于netty的websocket服务，配置阿里云ssl证书，实现正式服务器的wss访问；适用于JAVA服务器部署访问；对应生成博客地址https://mp.csdn.net/mp_blog/creation/editor/130410613

2023-04-27

微服务 java jar包windows服务器部署去掉黑框开机自启动

WinSW-64.exe及相关xml文件下载，亲测有效。描述：java开发多个微服务系统，jar包方式运行，windows服务器部署，去除小黑框，改为log日志输出，设置开机自动启动。相关技术文档：https://blog.csdn.net/yaya_jn/article/details/126873764?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22126873764%22%2C%22source%22%3A%22yaya_jn%22%7D

2022-09-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

java实现websocket的wss协议，netty做服务端支持ssl协议

微服务 java jar包windows服务器部署去掉黑框开机自启动

自然语言处理--人工智能--ROS、Stage、TLD算法--机器人编程示例

阿里云OSS+七牛云和文件存储本地+FastDFS的文件存储代码

云原生-Docker 及 Docker Compose微服务部署示例

微信公众号获取用户信息.zip

git配置库使用手册.docx

空空如也