
爬虫
数据采集+数据分析
Demonslzh6
这个作者很懒,什么都没留下…
展开
-
python爬取网易新闻,并使用tf-idf词向量进行文本分类
文章目录一、爬虫部分1、目标网站:[网易新闻](https://news.163.com/)2、分析网址3、构造URL4、解析页面5、保存数据二、文本分类1、数据清洗、分词2、tf-idf词向量,构建朴素贝叶斯模型3、模型评估一、爬虫部分1、目标网站:网易新闻首先我们看到最上方绿色方框圈中的部分,这就是我们要爬取的分类。在这里我一共选择了国内、国际、军事、航空、科技这五个分类进行爬取接下来我们以打开国内的新闻为例进行分析2、分析网址我们打开开发者工具,来寻找我们的数据选择network,刷新原创 2020-06-18 18:14:15 · 3812 阅读 · 0 评论 -
Python爬虫+词频统计 爬取腾讯网的热点新闻文章 并进行词频统计
一、目标地址https://new.qq.com/ch/finance/我们以财经分栏为例,这里我们观察网页源码可以看到这些新闻的排布都是放在一个无序列表中,每一条新闻都是一个li,那么我们只要获取了所有的li(即li对应的ul)就能进一步解析。所以我们通过beautfulsoup来解析源码。那么获取所有li就很简单了,一行代码 uls=soup.find_all('ul')二、首...原创 2020-04-06 12:17:31 · 5801 阅读 · 1 评论 -
Python框架爬虫——Scrapy爬取当当网选定店铺的全部信息。保存至本地(csv、MongoDB )
文章目录一、创建项目二、爬取子页面链接三、设置每本书要爬取的Item(Items.py)四、爬虫解析页面(spider.py)五、将爬取内存保存至本地(piplines.py)1、保存数据到MongoDB2、保存到csv六、查看、清洗数据,开始数据分析一、创建项目开始之前我们先建立项目1、命令行输入scrapy startproject dangdang创建dangdang项目文件夹2、命...原创 2020-02-25 19:05:49 · 1341 阅读 · 0 评论