自然语言处理(NLP): 03 tfidf 特征抽取&n-gram 扩展 + 朴素贝叶斯模型

该博客介绍了如何使用TF-IDF和n-gram结合朴素贝叶斯模型进行文本分类。内容包括TF-IDF的概念、sklearn中的TfidfVectorizer实现、数据预处理、特征工程、模型训练、以及模型在不同类别新闻的预测案例。经过交叉验证,模型平均得分0.8947,测试集f1-score为0.907060,表现出色。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本章节研究内容: tfidf 特征抽取&n-gram 扩展 + 朴素贝叶斯模型
经过交叉验证,模型平均得分为0.8947。
最后在测试集上的f1-score指标平均为0.907060,这个分类模型较优秀,能够投入实际应用。

Label Precision Recall F1 Support
entertainment 0.901968 0.924083 0.912891 11012
technology 0.833637 0.896196 0.863785 7649
sports 0.947450 0.928812 0.938039 9201
military 0.947098 0.880473 0.912571 4819
car 0.940442 0.852045 0.894064 3447
总体 0.908775 0.90669
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

艾文教编程

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值