宏观上把握sklearn,看这个还不错

本文详细介绍了使用sklearn库进行机器学习的一般流程,包括数据获取、预处理、模型选择、超参数调整及模型评估等关键步骤。通过实例演示了如何使用K折交叉验证方法寻找最优超参数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

感谢这位博主的总结,说的还是挺清楚的,尤其sklearn体系结构部分。

https://blog.csdn.net/u014248127/article/category/7189276

做一些总结和补充,利用sklearn库选择合适的模型和算法进行机器学习的一般流程是这样的:

1、拿到数据。

2、进行学习。

3、预测数据。

其中:

一、拿到数据

1、数据可以来自sklearn自带的一些供学习使用的数据集,还可以来自现实中获取的数据集,也可以来自利用sklearn构造的数据。

2、拿数据进行学习之前可以将数据进行预处理,可以提高学习的效率。

二、学习过程

每个机器学习的模型或者方法,会有一些在学习之前就要设置好的参数,它们称之为“超参”,它们的值跟模型最终学习结果的好坏是直接相关的,因此在学习过程中要进行调参的工作。

找到合适的超参是通过超参取某个值时评估模型的学习效果来实现的。评估的方法有很多,K折验证方法还不错,示例如下:

(这个评估的方法相当于是在拿到的训练集中使用k折验证法,即再分出训练集的部分和验证集的部分) 

 

​
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsClassifier
from matplotlib import pyplot as plt
#1、拿到数据.
thedata=datasets.load_iris()
x=thedata.data
y=thedata.target

#2、进行学习.
x_train,x_test,y_train,y_test=train_test_split(x,y,train_size=0.7)  #留出法分割训练集和测试集。
# 初始化超参和最佳评分
best_pram=1
best_score=0
#利用K折验证法,找出超参取值为1-35,最好的模型超参。
for pram in range(1,36):
    clf=KNeighborsClassifier(n_neighbors=pram)
    scores=cross_val_score(clf,x_train,y_train,cv=10,scoring='accuracy')
    if pram==1:
        best_score=scores.mean()  #将每次验证所得的分数取平均值作为对应超参下模型评估所得分数。
    else:
        if scores.mean()>best_score:
            best_score=scores.mean()
            best_pram=pram

​

三、模型的使用

构建的机器学习模型还不错,可以保存起来,下次直接拿出来用。方法见上面链接里,博主有叙述。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值