机器学习第十二讲：特征选择 → 选最重要的考试科目做录取判断

kovlistudio

已于 2025-05-15 10:10:46 修改

阅读量676

点赞数 17

分类专栏：机器学习人工智能技术文章标签：机器学习人工智能

于 2025-05-15 10:09:04 首次发布

本文链接：https://blog.csdn.net/kovlistudio/article/details/147976170

版权

技术同时被 3 个专栏收录

87 篇文章

订阅专栏

机器学习

38 篇文章

订阅专栏

人工智能

38 篇文章

订阅专栏

机器学习第十二讲：特征选择 → 选最重要的考试科目做录取判断

资料取自《零基础学机器学习》。
查看总目录：学习大纲

关于DeepSeek本地部署指南可以看下我之前写的文章：DeepSeek R1本地与线上满血版部署：超详细手把手指南

一、学霸选科法则 📚（特征选择基础逻辑，材料2的3.章节2-3

比喻：某大学要从200科成绩中选出关键指标：

通过计算发现：数学与录取结果相关系数0.85(强相关)，书法课仅0.07（可忽略）[2]

二、教务主任三把尺 📏（特征选择方法，材料2+6综合[2-3][6-4.6.2]

相关性筛选 → 用成绩关联表

科目与录取的相关系数
数学 ▶▶▶ 0.92
语文 ▶▶ 0.78
生物 ▶ 0.32
保留前30%高关联科目（材料6的4.6.2优化思路）[6-4.6.2]
决策树评估 → 看科目权重

美术科信息增益≤5%可剔除（材料2的特征工程原则）2-3
主成分萃取 → 提炼超级科目
数学→逻辑能力因子
语文→理解能力因子
合并相关科目降维（类似材料6的MNIST像素压缩）[6-4载入MNIST数据集]

科目	与录取的相关系数
数学	▶▶▶ 0.92
语文	▶▶ 0.78
生物	▶ 0.32
保留前30%高关联科目（材料6的4.6.2优化思路）[6-4.6.2]

三、典型陷阱警示 ⚠️（材料4的过拟合问题[4-4.6.2]

某中学过分关注奥林匹克竞赛得分导致：

这就是典型的过拟合（材料4的过拟合图示）[4-4.6.2]，需平衡特征数量

四、招生办实操手册 📋（材料5混淆矩阵应用[5]

经过特征选择后的录取模型验证：

from sklearn.feature_selection import SelectKBest
from sklearn.metrics import confusion_matrix

# 选择数学语文两科（k=2）
selector = SelectKBest(k=2) 
X_new = selector.fit_transform(X_scores, y_admission)

# 混淆矩阵显示效果提升
print(confusion_matrix(y_true, y_pred))
"""
标准化前：[[70 30]
          [25 75]] 
精选后： [[85 15]
         [10 90]]
"""