预测算法模型系列(三)

本文介绍了数据分析中的数据分类(自变量与因变量)、定类与定量的区别,强调了在相关性分析中根据不同类型选择合适的统计方法(如卡方、T检验、逻辑回归等),并着重指出正态分布对方差检验的重要性。还提到了使用图表展示数据关系以及处理非正态分布数据的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据相关性分析

在做数据分析之前,先做一件事情,那就是将数据分类。

从数学公式角度来看,数据可分为两类,自变量和因变量。y=x+1 这个一次函数中,x是自变量,y是因变量,也就是说y随着x的取值变化而变化的。那么我们在做预测模型的时候,预测的y就是因变量,用来计算预测结果的数据x就是自变量。

  • 举个例子,性别、年龄、血压、患病,这四项数据中,患病就是因变量,也是我们要预测的结果,性别、年龄、血压就是自变量,利用这三项数据的变化预测是否患病。

另外从数据的本身内容来看,还可以分为定类、定序、定距、定比四种类型(可能也有别的叫法)。这四种再归类可分为定类、定量两种类型。

  • 定类数据是离散型的,例如性别、颜色、学历、种类等等。
  • 定量数据是连续型的,例如年龄、身高、温度、价格等等。

那么在做数据相关性分析的时候就要根据这些分类来决定使用哪种分析方法,见表格:

关系 自变量 因变量 方法
差异 定类 定类 卡方
差异 定类(2类) 定量 T检验
差异 定类(3类以上) 定量 方差
影响 定量 定类(2类)</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值