数据相关性分析
在做数据分析之前,先做一件事情,那就是将数据分类。
从数学公式角度来看,数据可分为两类,自变量和因变量。y=x+1 这个一次函数中,x是自变量,y是因变量,也就是说y随着x的取值变化而变化的。那么我们在做预测模型的时候,预测的y就是因变量,用来计算预测结果的数据x就是自变量。
- 举个例子,性别、年龄、血压、患病,这四项数据中,患病就是因变量,也是我们要预测的结果,性别、年龄、血压就是自变量,利用这三项数据的变化预测是否患病。
另外从数据的本身内容来看,还可以分为定类、定序、定距、定比四种类型(可能也有别的叫法)。这四种再归类可分为定类、定量两种类型。
- 定类数据是离散型的,例如性别、颜色、学历、种类等等。
- 定量数据是连续型的,例如年龄、身高、温度、价格等等。
那么在做数据相关性分析的时候就要根据这些分类来决定使用哪种分析方法,见表格:
关系 | 自变量 | 因变量 | 方法 |
---|---|---|---|
差异 | 定类 | 定类 | 卡方 |
差异 | 定类(2类) | 定量 | T检验 |
差异 | 定类(3类以上) | 定量 | 方差 |
影响 | 定量 | 定类(2类)</ |