自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 机器学习中遇到的值得思考的问题(持续更新)

1.监督学习1.1为什么机器学习必须满足独立同分布这一先决条件呢?机器学习模型是根据已有数据train_data训练所得,我们希望模型能够学习到数据中的绝大部分的信息,从而能够很好地对未知的数据做出最准确的预测和判断.也就是训练数据与实际满足独立同分布可以使模型拥有更好的泛化性能。如果所用训练数据偏向于空间的某一处很可能导致模型泛化性能大大降低,这也是过拟合的一个原因。机器学习并不总是要求数据同分布。在不少问题中要求样本(数据)采样自同一个分布是因为希望用训练数据集训练得到的模型可以合理用于测试集,使

2020-06-16 00:12:43 270

原创 机器学习— 聚类(2)K-means聚类

1.kkk 均值聚类kkk 均值聚类是基于样本集合划分的聚类算法。 kkk 均值聚类将样本集合划分为 kkk 个 子集,构成 kkk 个类, 将 nnn 个样本分到 kkk 个类中,每个样本到其所属类的中心的距离最 小。每个样本只能属于一个类, 所以 kkk 均值聚类是硬聚类。下面分别介绍 kkk 均值聚类 的模型、策略、算法, 讨论算法的特性及相关问题。1.1 模型给定 nnn 个样本的集合 X={x1,x2,⋯ ,xn},X=\left\{x_{1}, x_{2}, \cdots, x_{n}\r

2020-11-07 01:37:48 367 1

原创 KNN(K近邻算法)

1.kkk 近邻算法:给定一个训练数据集,对新的输入实例,在训练数据集中 找到与该实例最邻近的 kkk 个实例,这 kkk 个实例的多数属于某个类,就把该输入实例分为这个类。1.1k 近邻法输入: 训练数据集T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}T={(x1​,y1​),(

2020-11-07 01:12:57 586 2

原创 监督学习之感知机

1.感知机模型感知机模型是一种线性分类模型,属于判别模型。感知机模型的假设空间是定义在特征空间中的所有线性分类模型或线性分类器。即函数集合{f | f(x) = w*x+b}对于线性方程 w*x + b = 0 对应于特征空间中的一个超平面,将特征空间分为两部分,这两部分分别为正负两类。模型通过数据习得参数w,b。对于输入的实例给出对应的分类类别。1.2感知机学习策略1.21数据集的线性可分性1.22感知机学习策略假设数据集是线性可分的,感知机学习的目标就是求得一个能够完全分离数据

2020-09-03 01:14:35 639 5

原创 机器学习—聚类(一)(L—P范数/闽可夫斯基距离/马氏距离/相关系数/夹角余弦)

机器学习中用样本之间的距离/相似度来表示样本差异,下面介绍几种常用的距离/相似度,顺便介绍一下L—P范数。1.闽可夫斯基距离L—P范数与闽可夫斯基距离的定义一样:Lp=(∑1nxip)1p,x=(x1,x2,⋯ ,xn)Lp=({\sum\limits_{1}^n x_i^p})^{\frac{1}{p}},x=(x_1,x_2,\cdots,x_n)Lp=(1∑n​xip​)p1​,x=(x1​,x2​,⋯,xn​)当p=1p=1p=1时,称为曼哈顿距离当p=2p=2p=2时,称为欧氏距离

2020-07-01 21:52:44 1600

原创 统计学习方法——模型测试与评估

1.评估方法对数据集进行适当的处理将其划分为测试集和训练集1.1留出法对于数据的划分方法,设D为数据全集,S为训练数据集,T为测试数据集。对于数据集的划分,如果S太多,则会导致训练出来的模型更接近D训练出来的模型,此时T也就是测试数据集会相对较小,评估结果不够稳定准确。但如果S太少,则训练出的模型与D训练出的模型差别又太大,从而降低了评估结果的保真性。所以训练集的样本划分要保持数据分布的一致性,避免因数据划分过程引入的额外误差,类比于分层采样。一般情况下留出1/5~1/3的数据作为测试数据集来测试模

2020-06-22 00:49:52 1588

原创 统计学习方法——策略之损失函数和风险函数

1.统计学习常用损失函数统计学习需要考虑的是按照什么样的准则学习或选择最优的模型。统计学习的目标在于从假设空间中选取最优模型。监督学习使用损失函数或者代价函数来度量预测错误的程度。(1)0-1损失函数(2)平方损失函数(3)绝对损失函数(4)对数损失函数损失函数越小,模型就越好。由于模型的输入,输出是随机变量,遵循联合分布P(X,Y),所以损失函数的期望是:这是理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失,称为风险损失函数或者期望损失。关于这个病态问题,使得机

2020-06-22 00:33:09 814

转载 机器学习——强化学习概述

强化学习中,一般用智能体Agent作为动作的发出者,通过与环境Environment的交互获得奖励Reward,那么强化学习考虑的问题就是智能体Agent和环境Environment之间交互的任务。比如一个智能体要走到桌子旁边,那么这个智能体所全部能接收感知的信息周围就是环境,而智能体所能接收到的环境信息称之为观察Observation,而观察的集合就是智能体所处的状态,称之为State。当智能体发出一个动作后,相应的环境和接收到的环境也会发生改变,而环境带给你的反馈就是Reward。假如智能体现在向前走了

2020-06-20 22:52:41 552

原创 强化学习之马尔科夫过程与马尔科夫链(附py代码,因为是自己打的,没完成的功能慢慢打)

1.马尔可夫过程1.1马尔可夫性或无后效性马尔可夫过程最显著的特点是:如果在已知目前过程状态的条件下,过程未来的演变不依赖于它以往的演变。即当随机过程时刻 ti 的状态已知的情况下,过程在t >ti所处的状态与过程在时刻 ti 以前的状态无关,而仅与过程在t时刻的状态有关。如果X(t)满足了这个条件,则X(t)满足马尔可夫性1.2马尔科夫过程的分类2.马尔科夫链的转移概率及性质2.1转移概率2.2转移概率矩阵同理可得n步转移概率矩阵:2.3切普曼-柯尔莫哥洛夫方程(C

2020-06-17 10:47:01 2007

原创 统计学习方法分类

1.统计学习方法分类统计学习方法主要分为无监督学习,监督学习,强化学习三个部分。1.1监督学习监督学习是指从标注数据中学习预测模型的机器学习问题。标注数据标注数据表示输入与输出的对应关系预测模型对给定的输入产生响应的输出。监督学习的本质是学习输入到输出的映射的统计规律。——《统计学习方法 李航》监督学习可以看成输入到输出的抽象函数映射:y = f(x),f表示抽象的模型,这个模型的集合,称为假设空间,学习的目的就在于找到最好的一个模型。而输入与输出所有可能取值的集合称为输入空间与输出空间。监督

2020-06-16 00:19:48 663

原创 无监督学习之关联规则分析(二):Apriori算法原理

关联规则分析(二):在上篇博客中介绍了关联规则分析的一些基本知识,将在接下来这几篇中总结一些关联规则的算法。这篇总结的是最经典的求关联规则的算法:Apriori算法。1.求出频繁项集:因为直接解释比较抽象,所以用例子来理解算法会更容易理解,假设某人在某超市连着几天的购买事务如下:天数事务/项集1{方便面,火腿肠,面包}2{火腿肠,矿泉水}3{火腿肠,可乐}4{方便面,火腿肠,矿泉水}5{方便面,可乐}6{火腿肠,可乐}7{方便面

2020-06-10 02:58:54 865

原创 无监督学习之关联规则分析(—):基本概念总结

一、关联规则分析(一) 关联规则分析也称为购物篮分析,早期是为了发现超市销售数据中不同商品的关联关系,可以帮助超市了解客户的购买模式和习惯,以便于制定更好的销售计划。可以求出当a数据出现时b数据出现的可能性。常用的算法有Apriori,FP-Tree,Eclat,灰色关联算法,本篇主要介绍关联规则的一些基本概念和参数。1.首先介绍一些基本概念1.1项: 超市用户购买数据库中所保存的所购买的产品称之为项,例如面包,矿泉水,都属于项。1.2项集: 一次所购买东西的总和叫做项集,例如我今天去超市买

2020-06-10 00:58:15 2857 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除