自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 新华网爬取,聚类及可视化,含源码和实验报告

轮廓系数(Silhouette Coefficient)是一种评估聚类效果的指标,它结合了聚类的凝聚度(cohesion)和分离度(separation),用于衡量聚类结果的质量。分离度越高,表示不同聚类之间的样本差异越大,聚类效果越好。:TF-IDF能够有效地捕捉单词在文档中的重要性,并排除掉在所有文档中普遍出现的词语,从而突出关键特征。凝聚度越高,表示聚类中的样本越相似,聚类效果越好。:Word2Vec能够捕捉词语之间的语义相似性,适用于对文本的语义进行聚类。:词语的大小通常表示其在文本中出现的频率。

2025-03-28 16:56:32 1371

原创 爬取新华网新闻,使用三种编码方式并用k_mean进行聚类并分析

先爬取标题的url进入每个url读取新闻正文信息先运行上面代码再运行下面的。

2025-03-28 16:35:02 1675

原创 连上wife后却打不开网页,显示代理服务器可能有问题

进入设置->网络和iinternet->代理->手动设置代理,关闭代理。可能是连接外网下了一个插件后,没有关代理服务器导致的。最后,欢迎大家一起交流与讨论。

2024-10-18 17:23:48 495 1

原创 python之b站top100视频的分类爬取

分析是什么因素是的他热度较高和top前100视频哪个类别的视频较多。可以总结出做哪一类视频更容易火和大众更喜欢哪一类的视频。最后一步,打开我们的查看高级系统设置,点击环境变量,打开系统变量里面的path环境。添加我们的驱动路径进去。安装chrome和chromedriver:需要注意的是版本问题,不然后面运行时会报错。

2024-10-09 19:46:24 745

新华网爬取,聚类及可视化,含源码和实验报告

新华网爬取,聚类及可视化,含源码和实验报告

2025-03-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除