bs4与splinter爬取页面不行怎么办？

我在使用bs4与splinter爬取动态源码时，他爬的源码要不是上个页面的，就是下个页面的，有时候还一直是一个（已经上划了几个）。每次爬取时都先停了2秒（页面加载出来了且播放了）。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
码农阿豪@新空间 Java领域优质创作者 2024-03-21 22:56
关注
让阿豪来帮你解答，本回答参考chatgpt3.5编写提供，如果还有疑问可以评论或留言
这个问题可能是由动态加载的问题引起的。可能是在爬虫程序请求页面时，页面还没有完全加载出来，因此获取到的源码是不完整的。解决方法可以尝试以下几种：
使用wait_until_loaded方法等待页面加载完成再获取源码。例如：

browser = Browser() browser.visit('http://example.com') browser.is_element_present_by_css('#content', wait_time=10) html = browser.html

模拟下拉操作使页面完全加载出来再获取源码。例如：

browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")

使用phantomJS或Selenium控制浏览器来获取完整的动态页面。例如：

from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC driver = webdriver.PhantomJS() driver.get("http://example.com") wait = WebDriverWait(driver, 10) element = wait.until(EC.presence_of_element_located((By.ID, "content"))) html = driver.page_source

以上这些方法可以尝试一下，根据具体情况选择适合自己的方式解决。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

使用python爬取某药品网站药品说明
2020-02-29 06:06

绿绿峰的博客注释贼多，还有参考链接，有点编程基础都能瞅懂 –start– 之前jio得不加延时没有事；完事就估计情况不是对方的反制；而是没有延时整岔屁辽；遂小编加了一些sleep；亲测没事了；这个虫子就开始欻欻的跑； ...
浅谈Python网络爬虫
2021-01-20 17:18

平静愉悦的博客（4）splinter和selenium selenium(python)和splinter可以很好的模拟浏览器行为，二者通过加载浏览器驱动工作。在采集信息方面，降低了分析网络请求的麻烦,一般只需要知道数据页面对应的URL即可。由于要加载浏览器...
python常用的三方库
2024-06-03 10:40

我就是我是好孩子啊的博客 Matplotlib 是一个 Python 的 2D绘图库，它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。Matplotlib 可用于 Python 脚本...支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。
吐血整理！Python常用第三方库，码住！！！
2024-04-23 14:15

码农x马马的博客 Python作为一种编程语言近年来越来越受欢迎，它为什么这么火？其中一个重要原因就是因为Python的库丰富——Python语言提供超过15万个第三方库，Python库之间广泛联系、逐层封装。几乎覆盖信息技术所有领域，下面简单...
十年开发经验教你如何正确学习python第三方库和python装饰器
2022-05-05 13:47

测试界清流的博客目录 python第三方库一、数据分析和可视化二、网络爬虫三、自动化 ...几乎覆盖信息技术所有领域，下面简单介绍下数据分析与可视化、网络爬虫、自动化、WEB开发、机器学习常用的一些第三方库。一、
网络爬虫技术
2023-07-05 15:19

青青传媒的博客新建一个文件，编写我们的爬虫代码，文件的名字自己定义，内容示例在代码中，start_urls提供了需要爬取的页面，parse方法提供了从网页中提取信息的具体方式，对于提取信息的标准化，在items.py文件中进行定义通过...
哪些 Python 库让你相见恨晚？
2018-11-01 14:53

weixin_34239592的博客 – 一个可以分割，合并和转换 PDF 页面的库。 ReportLab – 快速创建富文本 PDF 文档。 Markdown Mistune – 快速并且功能齐全的纯 Python 实现的 Markdown 解析器。 Python-Markdown – John ...
四、Python复习教程（重点）-爬虫框架
2020-10-26 17:25

花开如雨的博客目录导航：文章目录目录导航：七、Python... 正则表达式中的常用函数3.1 compile()：3.2 match()3.3 search()3.4 findall()3.5 finditer()3.6 split()3.7 sub()3.8 subn()3.9 re.match与re.search与re.findall的区别
Python，开发爬虫的不二选择
2020-04-07 00:36

十点数据的博客 C++不仅拥有计算机高效运行的实用性特征，同时还致力于提高大规模程序的编程质量与程序设计语言的问题描述能力。C++运行效率较高，同时能够比较容易地建立大型软件，适合对效率要求高的软件。C++的内容非常复杂，...
周记录(第七周)
2020-08-25 19:12

weixin_44365784的博客爬虫网络爬虫概述 1．概述网络爬虫(Web Spider)又称网络蜘蛛、...（3）增量式网络爬虫:只爬取新产生的或者已经更新的页面信息。特点:耗费少，难度大（4）深层网络爬虫:通过提交一些关键字才能获取的Web页面，如登
常用的Python 爬虫框架
2019-10-15 18:08

原力动力的博客我是直接使用requests库 + bs4就解决了，再麻烦点就使用selenium解决js的异步加载问题。相对比较大型的需求才使用框架，主要是便于管理以及扩展等。一、爬虫技术库-urllib.request和requests库的使用（简单） 1...
python web 常用库
2019-03-04 17:40

一起学python吧的博客 [awesome-python](https://github.com/vinta/awesome-python) 是 vinta 发起维护的 Python 资源列表，内容包括：Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言...
Python 资源大全中文版
2019-09-25 13:05

datuan0188的博客 * fabricate：对任何语言自动找到依赖关系的构建工具。[官网](https://code.google.com/archive/p/fabricate) * PlatformIO：多平台命令行构建工具。[官网](https://github.com/platformio/platformio) * PyBuilder...
爬虫大全，爬虫工具汇总
2015-10-21 01:21

weixin_33725807的博客开发语言软件名称软件介绍许可证 Java Arachnid 微型爬虫框架，含有一个小型 HTML 解析器。是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月21日

bs4与splinter爬取页面不行怎么办？

1条回答 默认 最新

问题事件

1条回答默认最新