自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

转载 【Seaborn常见绘图总结】

以前粗略的学习过Matplotlib绘图、Pandas绘图(这里是pandas的常见绘图总结),但是都未深入的去学习过,一遇到问题就翻文档,效率低下。听“他们”说matplotlib中的seaborn绘图很好看而且实用,所以,这里系统的总结一下seaborn常见的图形绘制。其目的也是...

2021-11-29 14:53:43 1152

原创 [机器学习实战]支持向量机III

[机器学习实战]支持向量机IIIPreferenceQuestion & ConclusionPreference支持向量机(SVM)是一个功能强大的机器学习模型,能够执行分类SVC :线性SVM分类(硬间隔、软间隔),非线性SVM分类(核函数:多项式核、高斯RBF核函数)[机器学习]解决支持向量机线性不可分问题——核函数II;回归SVR: SVM回归,控制街道宽度 ε\varepsilonε限制间隔违例。工作原理:[机器学习]支持向量机 IQuestion & Conclu

2021-11-29 11:22:46 976

原创 [机器学习]模型评估方法

[机器学习]模型评估方法评估方法留出法交叉验证法留一法自助法评估方法当进行模型选择时,理想方案是对候选模型的泛化误差进行评估,选择泛化误差最小的模型。但我们却无法直接获得泛化误差,而训练误差又由于过拟合现象的存在不适合作为标准。为此,我们课可通过实验测试来对学习器的泛化误差进行评估并进而做出选择。需使用一个“测试集”测试学习器对新样本的判别能力,以测试集上的“测试误差”作为泛化误差的近似。通常假设测试样本也是从样本真实分布中独立同分布采样而得,但注意测试集应该尽可能与训练集互斥。留出法留出法(h

2021-11-22 15:39:53 2355

原创 [SQL]找出每个学校GPA最低的同学

限定条件:gpa最低,看似min(gpa),但是要留意,是每个学校里的最低,不是全局最低。min(gpa)的时候对应同学的ID丢了,直接干是拿不到最低gpa对应的同学ID的。所以一般就利用 rank() 遴选。每个学校最低:用group by把学校分组,然后计算得到每个学校最低gpa,再去找这个学校里和这个gpa相等的同学ID。注意这样如果最低gpa对应多个同学,都会输出,题目没有明确此种情况,心理明白就行。select device_id,university,gpafrom ( se.

2021-11-22 13:35:16 1969

原创 [机器学习实战]训练模型

[机器学习实战]训练模型PreferenceQuestion & ConclusionPreference以线性回归模型为例,以下介绍两种训练模型的方法:闭式方程:直接计算出最适合训练集的模型参数,即使训练集上成本函数最小化的模型参数迭代优化(梯度下降GD):逐渐调整模型参数直至训练集上的成本函数调至最低,最终趋同于第一种方法计算出来的模型参数。梯度下降有几种变体(批量梯度下降、小批量梯度下降、随机梯度下降)梯度下降以学习曲线分辨训练数据是否过拟合;正则化技巧(岭回归、lasso回归)

2021-11-18 15:08:02 1459

原创 [机器学习]降维之主成分分析

降维之主成分分析问题引入主成分分析1.最近重构性2.最大可分性求解小结核主成分分析Reference问题引入在高维情形下常出现样本稀疏、距离计算困难等问题,这是所有机器学习方法共同面临的问题,称为维数灾难。为了缓解维数灾难一个重要途径就是“降维”。通过某种数学变换将原始高维属性空间转变为一个低维子空间,在该子空间中样本密度大幅提高,距离计算也变得更加容易。主成分分析主成分分析(Principal Component Analysis)PCA是最常用的一种降维方法。若存在一个超平面能够对所有样本进行

2021-11-17 12:44:12 925

原创 [机器学习]集成学习

[机器学习]集成学习集成学习数学验证集成学习的分类BoostingBagging随机森林结合策略集成学习集成学习(ensemble learning):构建并结合多个学习器来完成学习任务。集成学习通过将多个学习器结合,常可获得比单一学习器显著优越的泛化性能。但想获得好的集成,个体学习器应“好而不同”,即准确性、多样性。数学验证考虑二分类问题 y∈{−1,+1}y\in\left \{-1,+1 \right \}y∈{−1,+1} 和真实函数 fff,假设基分类器错误率为 ϵ\epsilonϵ,

2021-11-16 12:12:47 605

原创 [机器学习]贝叶斯分类器I

贝叶斯分类器I贝叶斯决策论问题:朴素贝叶斯分类器目标函数求解补充半朴素贝叶斯分类器独依赖估计(ODE)贝叶斯决策论贝叶斯决策论实在概率框架下实施决策得基本方法。对分类任务来说,在所有相关概率都已知得理想情况下,贝叶斯决策论考虑如何基于这些概率和误判损失选择最优得类别标记。问题:假设有NNN种可能得类别标记,即 y={c1,c2,⋯ ,cN}y=\left \{ c_1,c_2,\cdots,c_N \right \}y={c1​,c2​,⋯,cN​},λij\lambda_{ij}λij​为将一个

2021-11-13 21:54:28 628

原创 [机器学习]解决支持向量机线性不可分问题——核函数II

问题之前在 支持向量机I 中介绍支持向量机通过在样本空间找到一个划分超平面实现将样本分类。但现实任务中,原始样本空间可能不存在一个能正确划分两类样本的超平面。对于这种问题,可将样本从原始空间映射到一个更高维特征空间,使样本在该特征空间线性可分。关键准则: 若原始空间是有限维,即属性数有限,那么一定存在一个高维特征空间使样本可分。目标函数划分超平面模型:f(x)=wTϕ(x)+bf(x)=w^T\phi (x)+bf(x)=wTϕ(x)+b目标函数:minw,b12∥w∥2s.t.yi(wT

2021-11-13 18:44:17 1745

原创 [机器学习]支持向量机 I

[机器学习]支持向量机 I问题引入目标函数SMO算法问题引入在训练集D={(x1,y1),(x2,y2),⋯ ,(xm,ym)},yi∈{−1,+1}D=\left \{ (x_1,y_1),(x_2,y_2),\cdots,(x_m,y_m) \right \} ,y_i\in \left \{ -1,+1 \right \}D={(x1​,y1​),(x2​,y2​),⋯,(xm​,ym​)},yi​∈{−1,+1}的分类问题中,最基本的思路就是基于训练集在样本空间中找到一个划分超平面,将不同类别的

2021-11-13 12:42:51 540

原创 [深度学习]深度学习基本思想

基础思想典型的深度学习模型就是很深层的神经网络,通过以下两种方式可以实现增加模型复杂度的目的。增加隐层数目增加隐层神经元数目从增加模型复杂度的角度来看,增加隐层数目显然比增加隐层神经元数目更有效。因为增加隐层数不仅增加了拥有激活函数的神经元数目,还增加了激活函数的嵌套层数。但多隐层神经网络难以用经典的标准BP算法进行训练,因为误差在多隐层内逆传播时,往往会发散而不能收敛到稳定状态。训练模型手段无监督逐层训练:预训练 :每次训练一层隐结点,将上一层隐结点的输出作为输入,本层隐结点的输出作

2021-11-13 10:58:17 2282

原创 [机器学习]全局最小与局部最小

机器学习中很多任务最终都会转化为优化任务,基于梯度的搜索是使用最广泛的参数寻优方法。梯度法:从某些初始解出发,迭代寻找最优参数值。每次迭代计算误差函数在当前点的梯度,然后根据梯度确定搜索方向:负梯度方向是函数值下降最快的方向,因此梯度下降法就是沿着负梯度方向搜索最优解。若误差函数在当前点梯度为0,则以达到局部最小,参数迭代将停止,显然若误差函数有多个局部最小我们很难保证他就是全局最小。策略:从多个不同的初始点开始搜索,得到可能陷入不同的局部最小,从中选择更接近全局最小的结果。模拟退火(simu

2021-11-13 10:15:01 1512

原创 [机器学习]神经网络

神经网络神经元模型感知机与神经网络感知机神经网络功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入神经元模型定义:神经网络是由具有适应性的简单单元组成的广泛并行互连的网络。M-P神经元模型在该模型中,神经元接收到来自n个其

2021-11-12 12:40:06 468

原创 [机器学习]梯度下降

[机器学习]——梯度下降梯度下降是一种非常通用的优化算法,能够为大范围问题找到最优解。梯度下降的中心思想就是迭代地调整参数从而使成本函数最小化。基本思想:确定步长:梯度下降的一个重要参数就是每一步的步长,这取决于超参数的学习率。学习率太低,算法需要经过大量迭代才能收敛;学习率太高,可能无法收敛到最优。局部最优与全局最优特征值缩放:应用梯度下降时,需要保证所有特征值的大小比例都差不多,否则收敛时间会很长。以下皆以线性模型为例批量梯度下降线性回归的MSE成本函数:MSE(X,hθ)=1m

2021-11-09 09:25:21 419

原创 [深度学习]逻辑回归

[深度学习]——逻辑回归前言推断过程模型训练方法梯度下降法逻辑回归的优劣优势前言逻辑回归可进行多特征融合。它将推荐系统看成一个分类问题,通过预测正样本的概率对物品进行排序。因此,逻辑回归模型将推荐问题转换成一个CTR(click through rate)预估问题。推断过程将特征向量x=(x1,x2,...,xn)x=(x_1,x_2,...,x_n)x=(x1​,x2​,...,xn​)作为模型输入为各特征赋予相应权重(w1,w2,...,wn)(w_1,w_2,...,w_n)(w1​,w2

2021-09-22 16:54:38 236

原创 [R语言基础]——循环结构、条件结构、自编函数

[R语言基础]——循环结构、条件结构、自编函数控制流一、循环结构二、条件结构自编函数语法规则switch()结构控制流一、循环结构for结构for (var in seq) statementwhile结构while (cond) statement二、条件结构if-else结构if (cond) statementif (cond) statement1 else statement2ifelse结构ifelse(cond,statement1,statement2)swi

2021-09-22 12:22:26 519 1

原创 [R语言基础]——数据处理实例

[R语言基础]——数据处理实例前言问题Step1:建立数据框Step2:计算综合得分Step3:对学生进行评分Step4:根据姓氏和名字排序完整代码前言之前我们已经学习了R对数据预处理的一些方法,接下来将结合函数利用R对一个实际案例进行简单的数据处理。问题有一组学生各科成绩数据,为了给所有学生建立一个单一的成绩衡量指标,需要将这些各科成绩组合起来,并以此根据判定成绩等级,最后按字母顺序对学生排序。Step1:建立数据框options(digits=2)student<-c("John

2021-09-22 11:04:22 5708 1

原创 [R语言基础]——基本数据管理

[R语言基础]——基本数据管理一、数据管理1. 创建新变量2.变量重编码3.变量重命名4.缺失值5.日期值6.类型转换7.数据排序8.数据集选取二、使用SQL语句操作数据框一、数据管理1. 创建新变量将两个新变量整合到原始的数据框中:#方法一mydata<-data.frame(x1=c(2,2,6,4),x2=c(3,4,2,8))mydata$sumx<-mydata$x1+mydata$x2mydata$meanx<-(mydata$x1+mydata$x2)/2#方

2021-09-21 18:39:23 516

原创 [R语言基础]——图形初阶

[R语言基础]——图形初阶前言一、制图步骤1. 使用图形2. 存储图形3.图形参数4. 添加文本、自定义坐标轴和图例二、图形的组合1.par()2.layout(mat)3.图形布局的精细控制前言一、制图步骤1. 使用图形attach(mtcars)plot(wt,mpg)abline(lm(mpg~wt))title("Regression of MPG on Weught")detach(mtcars)2. 存储图形通过代码保存图形pdf("mygraph.pdf") #还

2021-09-21 16:19:29 266

原创 [R语言基础]——数据的输入

[R语言基础]——数据的输入一、从带分隔符的文本文件导入数据函数read.table()的选项二、导入Excel数据三、导入SPSS数据四、导入SAS数据总结一、从带分隔符的文本文件导入数据read.table()此函数可读入一个表格形式的文件并将其保存为一个数据框。mydataframe<-read.table(file,options)#file是一个带分隔符的AScII文本文件,options是控制如何处理数据的选项函数read.table()的选项选项描述h

2021-09-21 12:16:02 1022

原创 [R语言]——数据结构

[R语言]——数据结构一、向量新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入一、向量向量是可用于存储数值型、字符型、逻辑型数据的一维数组,使用 “c()” 创建向量。注意:单个向量中的数据必须有相同的类型或模式(数

2021-09-21 10:40:53 201

原创 爬虫基础——正则爬虫、Beautifulsoup爬虫、Lxml爬虫对比

一、正则爬虫1.一些基础:(1)(.*?)其中“()”表示括号的内容作为返回结果,“.*?”是非贪心算法,匹配任意字符(2)re模块re模块使Python拥有全部正则表达式功能,若想通过正则爬虫,首先就需要导入这个模块:import re这里介绍利用re模块正则爬虫常用的一个函数:findall(),其语法规则是findall(正则表达式,字符串)。findall()函数能匹配所有符合规律的内容,并以列表的形式返回结果。(3)补充知识点re.S 使匹配包括换行符在...

2021-09-19 16:20:12 760

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除