有手就会的Python爬虫入门——用Python爬取《西游记》全文

codingexpert404

于 2024-10-24 00:02:41 发布

阅读量671

点赞数 6

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/codingexpert404/article/details/143196830

版权

大家好！今天我要带大家一起用Python写一个简单的爬虫，爬取《西游记》全文。这是一个适合初学者的入门教程，如果你对爬虫感兴趣，跟着这个教程一步一步学习吧。我们会使用Python的基本库来完成这个任务，不需要复杂的环境配置，一起来体验爬虫的乐趣！

一、准备工作

首先，我们需要安装一些必要的Python库。我们主要会用到两个库：

requests：用来发送HTTP请求，获取网页的HTML内容。
BeautifulSoup：用来解析HTML，方便我们提取需要的内容。

你可以在命令行中运行以下命令来安装这两个库：

pip install requests
pip install beautifulsoup4

二、分析网页结构

在编写爬虫之前，我们需要先分析一下目标网页的结构。我们这次要爬取的是《西游记》的全文。打开这个链接，我们可以看到这是一本古典小说的页面，其中每一章都有一个单独的章节页面。

我们的目标是：

获取小说目录，找到每个章节的链接。
进入每个章节的页面，爬取章节的标题和内容。

通过检查页面的HTML结构，我们发现：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

codingexpert404

关注关注

6
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

python+tkinter实现图书管理系统(首发)

qq_65898266的博客

08-11

2202

本文将用tkinter模块来写一个图书管理系统，将用户分为管理员和普通用户，用户都有首页，首页展示天气预报并有公告栏。管理员有权限对用户、图书进行添加、修改、删除等操作。普通用户只有搜索图书的功能。本文几乎涉tkinter的所有组件，适合新手练习tkinter，欢迎大家的订阅。编译器:PyCharm 2021.2.1 解释器:Anaconda 3.8 温馨提示，最好是在本文所要求环境运行，避免程序可能出现报错。数据操作是对数据进行操作，如增删改查，用户在界面上的操作实际就是对数据的操作，只不过用户看到

【Python 多线程vs协程】爬取西游记

fangqileo的博客

11-23

859

为了有效的学习和加深对于线程和协程的认知，将同一个任务用不同思路呈现很有帮助。这里通过使用多线程以及协程两种方式对西游记的篇章内容进行爬取，来对比一下两者的耗时差异。首先，多线程爬取。这里没有限制并发量，在主函数中的for循环遍历pair，因为有100个p，因此实际上开辟了100个线程。 import threading import requests import os import json url = 'http://dushu.baidu.com/api/pc/getCata

参与评论您还未登录，请先登录后发表或查看评论

爬虫--用协程爬取西游记

qq_57346203的博客

06-25

936

【代码】爬虫--用协程爬取西游记。

bs4爬取西游记文本

weixin_46289100的博客

08-15

1134

1.查看网页爬取西游记的网址：https://www.shicimingju.com/book/xiyouji.html 我们可以发现每个标题所存在的标签和class名字，观察之后方便我们写bs4语句。 2.爬取过程详细代码 import requests from bs4 import BeautifulSoup if __name__ == '__main__': url='https://www.shicimingju.com/book/xiyouji.html' header

python异步协程爬取百度小说之西游记

weixin_45631151的博客

09-05

3800

爬虫百度小说之西游记 参考文章链接：https://blog.csdn.net/weixin_45788900/article/details/119539952 一、百度小说之西游记网址：小说网址二、爬取源代码： # -*- coding = utf-8 -*- # @Time : 2021/9/1 10:55 # @Software : PyCharm # url = 'http://dushu.baidu.com/api/pc/getCatalog?data={"book_id":"43060635

python3.9爬取诗词名句网西游记小说，可将每章节小说分别保存一个单独文件，也可将全部小说爬到一个文件里面分段落保存

km2955的博客

10-24

1507

具体代码详看代码块现只说几点注意事项一、首先寻找诗词名句网站有两个： www.shicimingju.com/ http://mathfunc.com/ 第1个网址存在反爬机制，多次访问后将会禁止同一ip访问，第2个还行（建议使用第2个）二、代码中写了两种遍历循环保存储正文方法，其中一种我注释了，各位可按需选择其中一种进行存储正文方法（注意：选了其中一种之后要把另外一种方法注释掉） # -*- coding:utf-8 -*- import requests from bs4 import B

Python11 使用爬虫实现图书250排行榜信息爬取

Argulo的博客

06-20

1233

1.什么是网络爬虫 Python爬虫是使用Python编程语言编写的程序，它能自动从互联网上抓取数据。这类程序一般利用网络请求来访问网站，解析网站的HTML或其他格式的内容，提取出有用的数据，有时还会进行后续的数据处理或存储。 Python爬虫的用途包括：数据收集：对于数据分析师和研究人员来说，爬虫可以帮助从各种网站上自动化收集数据，如社交媒体数据、金融市场数据、商品信息等。监控网站：爬虫可以用来监控网站的变化，比如价格变动、新闻更新、股票市场动态等，对于商业智能和市场分析尤

requests+正则表达式爬取豆瓣读书top250

懒懒的书虫

12-29

4350

简单的python联手项目，通过rquests库请求得到豆瓣top250网页源代码，并通过正则表达式匹配得到对应信息-书名，作者信息，评分以及简介。网站的URL为’https://book.douban.com/top250?start=0’,但我们拉到底部发现250本读书的信息被分成了10页，这就需要我们首先对URL的规律进行分析得到所有页面的URL信息传递给get（）方法中请求源代码。点击...

爬取《西游记》小说所有章节内容

lilinfengzzz的博客

12-20

1530

爬取《西游记》小说所有章节内容

【异步爬虫】圆我四大名著《西游记》之梦

风口IT猪的成长录

07-20

1174

名著《西游记》爬虫实战前言前言一直想

Python统计西游记主要人物出场次数（使用jieba分词）.zip

12-12

#Python统计西游记主要人物出场次数（使用jieba分词） 1. 建立西游记主要人物表及其别名； 2. 读入西游记原文txt文件并使用jieba分词； 3. 统计所有分词中出现各人名的次数。

【python爬虫】重温西游——异步获取名著《西游记》思路，代码及优化

最新发布

2201_75577630的博客

08-22

1785

《西游记》这一强大文化IP，国风元素满满。本篇文章将通过异步操作获取《西游记》的全部内容，在练习代码的同时，我们可以借助阅读重温这部名著的文化精髓。本篇内容介绍了异步爬取的相关知识，并深入讲解了异步爬取《西游记》完整内容的思路、操作步骤、及代码优化。

异步爬虫实战——爬取西游记小说

什么时候才不是菜鸟....

01-02

807

异步爬虫；爬取西游记小说内容

Python爬虫网络小说

m0_49362035的博客

04-10

255

python爬虫学习，仅供学习使用，不涉及任何商业用途，如有侵权，联系立删

【爬虫】利用协程爬取百度小说中的西游记

weixin_45788900的博客

08-09

1759

网址如下：http://dushu.baidu.com/pc/detail?gid=4306063500 小说采用异步加载的方式，返回的数据格式为json import requests import asyncio import aiohttp import os async def getPage(title, cid): url = 'http://dushu.baidu.com/api/pc/getChapterContent?data={"book_id":"4306063500","

【第四章-2】Python爬虫教程（协程，多任务异步协程，aiohttp模块，异步爬虫实战：爬取《西游记》全部章节内容）

qq_43629945的博客

08-26

1445

协程，多任务异步协程，aiohttp模块，异步爬虫实战：爬取《西游记》全部章节内容

python小说爬虫实训报告_1.2Python网络爬虫实践（1）爬取89文学网小说

weixin_39804335的博客

12-10

744

import requestsfrom bs4 import BeautifulSoupimport timeimport os# 获取所有章节的链接def get_novel_chapters():url_root = "http://www.89wxw.cn/2/2665/"r = requests.get(url_root)r.encoding = 'gbk'soup = Beautiful...

爬虫案例—根据四大名著书名抓取并存储为文本文件

Liu_Bruce的博客

01-18

1348

目标：输入四大名著的书名，抓取名著的全部内容，包括书名，作者，年代及各章节内容。诗词名句网：https://www.shicimingju.com。

【python 文本统计】西游记用字统计

赖德发的博客

06-30

6437

1、数据 xyj.txt，《西游记》的文本，2.2MB 致敬吴承恩大师，4020行（段）2、目标统计《西游记》中： 1. 共出现了多少个不同的汉字； 2. 每个汉字出现了多少次； 3. 出现得最频繁的汉字有哪些。3、涉及内容： 1. 读文件； 2. 字典的使用； 3. 字典的排序； 4. 写文件4、效果5、源代码# coding:utf8impor