BeautifulSoup学习笔记

最新推荐文章于 2022-03-18 16:34:09 发布

SoraShim

最新推荐文章于 2022-03-18 16:34:09 发布

阅读量239

点赞数

分类专栏： python爬虫学习

本文链接：https://blog.csdn.net/Soraa/article/details/103661495

版权

python爬虫学习专栏收录该内容

5 篇文章

订阅专栏

BeautifulSoup学习笔记

安装

pip install beautifulsoup4 # 如果不加4 默认安装的版本是beautifulsoup3

使用

from bs4 import BeautifulSoup4

BeautifulSoup的基本类型：

基本元素	说明
Tag	标签，最基本的信息组织单元，分别用<>和</>标明开头和结尾
Name	标签的名字，<p>…</p>的名字是’p’,格式：<tag>.name
Attributes	标签的属性，字典形式组织，格式 <tag>.attrs
NavifableString	标签内非属性字符串，<>…</>中的字符串，格式：<tag>.string
Comment	标签内字符串的注释部分，一种特殊的Comment类型

例子

htm = """
<div>
    <ul>
        <li class="item-0 item-12" class="item-1"><a href="link1.html">first item</a></li>
        <li class="item-1"><a href="link2.html">second item</a></li>
        <li class="item-inactive"><a href="link3.html">third item</a></li>
        <li class="item-1"><a href="link4.html">fourth item</a></li>
        <li class="item-0"><a href="link5.html">fifth item</a></li>
        <li class="else-0">first item</li>
    </ul>
</div>
"""
soup = BeautifulSoup(htm,'lxml') # 第二个参数如果不填默认是html解析库 也可以设置为'html.parser'
ul = soup.ul # 会返回ul内的源代码，结果如下。如果有需要读取全部源代码时可以使用
#<ul> 
#<li class="item-0 item-12"><a href="link1.html">first item</a></li>
#<li class="item-1"><a href="link2.html">second item</a></li>
#<li class="item-inactive"><a href="link3.html">third item</a></li>
#<li class="item-1"><a href="link4.html">fourth item</a></li>
#<li class="item-0"><a href="link5.html">fifth item</a></li>
#<li class="else-0">first item</li>
#</ul>
# 其他的一些例子
li = soup.ul.li # 默认选取第一个
a = soup.ul.li.a
string = soup.ul.li.a.string
href = soup.ul.li.a['href']
href = soup.ul.li.a.get('href')
all_a = soup.find_all('a') # 返回所有的a标签
all_a = soup('a') # 与上面一行相同，简写
string = soup.find_all('a')[0].string
href = soup.find_all('a')[0].get('href')
a = soup(class_='item-0') # 找到所有属性class 为'item-0'的元素，由于class是python中的关键字，防止问题，所以加下划线
a = soup(class_=re.compile('item-')) # re.compile() 为正则表达式匹配对象，找到所有class为 item-开头的元素
text = soup.ul.get_text() # 取出ul里的所有文本，这个结果里包含\n和""，需要后续用split筛一下

~~beautifulsoup方法非常简洁，很好用~~