- 博客(4)
- 收藏
- 关注
原创 新华网爬取,聚类及可视化,含源码和实验报告
轮廓系数(Silhouette Coefficient)是一种评估聚类效果的指标,它结合了聚类的凝聚度(cohesion)和分离度(separation),用于衡量聚类结果的质量。分离度越高,表示不同聚类之间的样本差异越大,聚类效果越好。:TF-IDF能够有效地捕捉单词在文档中的重要性,并排除掉在所有文档中普遍出现的词语,从而突出关键特征。凝聚度越高,表示聚类中的样本越相似,聚类效果越好。:Word2Vec能够捕捉词语之间的语义相似性,适用于对文本的语义进行聚类。:词语的大小通常表示其在文本中出现的频率。
2025-03-28 16:56:32
1371
原创 连上wife后却打不开网页,显示代理服务器可能有问题
进入设置->网络和iinternet->代理->手动设置代理,关闭代理。可能是连接外网下了一个插件后,没有关代理服务器导致的。最后,欢迎大家一起交流与讨论。
2024-10-18 17:23:48
495
1
原创 python之b站top100视频的分类爬取
分析是什么因素是的他热度较高和top前100视频哪个类别的视频较多。可以总结出做哪一类视频更容易火和大众更喜欢哪一类的视频。最后一步,打开我们的查看高级系统设置,点击环境变量,打开系统变量里面的path环境。添加我们的驱动路径进去。安装chrome和chromedriver:需要注意的是版本问题,不然后面运行时会报错。
2024-10-09 19:46:24
745
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人