问下爬知乎的思路，后面凑字数

我用requests和selenium试了下，知乎好像做了什么处理。用chromedriver可以打开我要的网页。
但是打印出来的结果和打开的页面完全不一样。全是账号冻结什么的。感觉知乎的web开发者在和我开玩笑。
from bs4 import BeautifulSoup
from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.zhihu.com/search?type=content&q=ppp%E9%A3%8E%E9%99%A9%E6%8E%A7%E5%88%B6')

soup = BeautifulSoup(browser.page_source, 'lxml')
print(soup)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
你知我知皆知 2024-08-07 04:58
关注
以下回答参考 皆我百晓生、券券喵儿 等免费微信小程序相关内容作答，并由本人整理回复。

要解决这个问题，首先你需要了解如何使用Selenium和Python来抓取网页内容。下面是一个基本的步骤：

安装必要的库：确保你已经安装了selenium库，并且你的系统上安装了ChromeDriver（如果想模拟浏览器行为）。

导入所需的模块：

from selenium import webdriver from selenium.webdriver.common.keys import Keys

设置ChromeDriver路径：如果你还没有设置ChromeDriver，请先下载并安装它。然后，你可以将ChromeDriver路径添加到环境变量或配置文件中。

打开Chrome浏览器并访问目标URL：

driver = webdriver.Chrome('/path/to/chromedriver') driver.get('http://example.com')

这里替换 /path/to/chromedriver 为实际的ChromeDriver路径。

使用Selenium来获取HTML源码：

html = driver.page_source

解析HTML源码以提取所需信息：

soup = BeautifulSoup(html, 'html.parser') # 这里是根据你的需求解析HTML的内容 print(soup)

如果你想进一步处理数据，你可以使用BeautifulSoup或其他类似的库来实现这个功能。

for tag in soup.find_all("tag"): # 这里是处理每个标签的方法 pass

注意：上述代码仅为示例，实际操作时可能需要根据具体需求进行调整。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【Python】爬取知乎上的问答数据来汇总出有哪些免费的论文查重网站
2020-02-24 21:20

小赖同学的博客最终统计数据如下：上面大多数查重网站都有一定字数的免费查重，我们就可以利用这一点一段一段地自查，直到所有网站的免费字数都用完了，你的论文基本也改得差不多了，这个时候就可以去专业一点的网站花点钱复查，...
巧用Python爬取QQ空间好友信息,生成词云
2018-05-26 11:53

布衣芝士的博客前言随着大数据时代的到来，个人的日常生活总是会与各种各样的推送联系在一起。而这些符合你特性的推送正是对你以往的信息进行分析后得出的结论，因此爬虫变成了许多编程爱好...因此，爬完后就想写篇博客来给正在迷...
python代码画乌龟_python画乌龟
2020-11-28 20:17

weixin_39647458的博客效果展示 turtle库是python语言中一个很流行的绘制图像的函数库，想象一个小乌龟，在一个横轴为x、纵轴为y的坐标系原点，(0,0)位置开始，它根据一组函数指令的控制，在这个平面坐标系中移动，从而在它爬行的路径上...
python word2vec 移植_真实资讯语料下的Word2Vec的迁移实践：Tag2Vec
2020-12-11 11:55

weixin_39765697的博客前言互联网中，对一个内容实体的建模，如新闻，商品，通常有两个方向：1，content-based，如该文章属于哪个类别、文章标题、关键字、作者、新闻字数等等信息，这些属于从内容上描述文章信息；2，另一块是action-...
简明python指南（预览版）
2019-03-21 17:37

AI大玩家的博客本文作者：NTFS 因为，全文比较长，没有经过完整的校对，纰漏难免。当前最新版本的 pdf 在此 -> 关注公众号 “ 无知红 ” 回复 “简明...PS：全文两万六千余字，目前32页，因为字数限制，不能完整复制进来。...
python有趣的简单代码-python有趣代码
2020-10-30 23:12

weixin_37988176的博客前言本月将更新八篇python有趣系列文章。本系列通过多个有趣案例，讲解python的玩法，其中包含如下内容，一一推进讲解。爬虫数据分析机器学习项目背景最近知乎老是给我推送两个问答，一个是长得好看是种什么体验？...
【实战】用Python进行10w+QQ说说数据分析
2020-11-21 12:15

Sim1480的博客 Doctor| 作者知乎|来源https://zhuanlan.zhihu.com/p/27604277对编程没有兴趣的朋友可以直接看后面的数据分析结果。开发环境：win7下的py...
二维码生成原理及解析代码
2017-12-18 22:35

琦小虾的博客纠错块码字数(Error Correction Code Per Blocks)：每个块中的码字个数，即有多少个字节Bytes；表中最下面关于 (c,k,r) 的解释： c：码字总个数； k：数据码个数； r：纠错码容量注： c...
如何设置计划任务程序每6小时运行一次_如何用 Python 打造一个全自动赚钱的 YouTube 视频发布系统并月入过万（被动收益）
2020-10-25 07:21

weixin_40002336的博客前言这篇文章将告诉你如何通过Python打造一台全自动发布YouTube视频并专区美元收益的系统。目前我自己用的这套系统已基本稳定运行了三个月。其中一个YouTube频道从零起步到达到最低开通获利门槛，只花了一个月。前天...
CV好文推荐+迁移学习经验分享
2021-02-02 19:03

我爱计算机视觉的博客前几日，52CV分享了最近一本新出的书《深度学习500问》中迁移学习相关的内容：有故事、有实践，谈一谈深度迁移学习方法的基本思路，并举办了以“论文推荐+经验分享”赠送这本新书的活动，有8...
自然语言处理训练营NLP--笔记
2020-12-24 14:29

skysenlin的博客 len=len(sentence_clear_result) #从此位置查询5个字 index=0 segmentation=[] while index 1.1.2、后向最大匹配算法基本思路和前向分词法一样，只是分词从语句从后向前取词; 我们假设单词最大长度max_len=5; 再...
新闻推荐 task03
2020-12-01 03:08

晃晃我的半瓶水的博客如下图是多路召回的一个示意图，在多路召回中，每个策略之间毫不相关，所以一般可以写并发多线程同时进行，这样可以更加高效。上图只是一个多路召回的例子，也就是说可以使用多种不同的策略来获取用户
有哪些网站用爬虫爬取能得到很有价值的数据？
2019-05-05 17:47

BC_COM的博客 1、微信好友的爬虫，了解一下你的好友全国分布，男女比例，听起来似乎是一个不错的想法，当然你还可以识别一下你的好友有多少人是用自己照片作为头像的，详细的内容可以点击这里：Python对微信好友进行简单统计分析 ...
《Machine Learning in Action》—— 剖析支持向量机，单手狂撕线性SVM
2020-11-14 22:40

玩世不恭的Coder的博客《Machine Learning in Action...涉及到的数学公式太多了，也涉及到了许多陌声的名词，如：非线性约束条件下的最优化、KKT条件、拉格朗日对偶、最大间隔、最优下界、核函数等等，天书或许、可能、大概就是这样的吧。记
没有解决我的问题, 去提问

问下爬知乎的思路，后面凑字数

1条回答 默认 最新

1条回答默认最新