BeautifulSoup库介绍
1、BeautifulSoup是Python中的一个第三方库,其最主要的功能是处理HTML文档
⑴查找HTML文档中的指定标签
⑵获取HTML文档中指定标签的标签名、标签值、标签属性等
⑶修改HTML文档中指定标签
2、BeautifulSoup库将HTML文档解析为一个对象,使用该对象方法能很方便的获取HTML文档中的数据
3、BeautifulSoup库也可以用来处理XML文档。这里主要介绍使用BeautifulSoup库来处理HTML文档
4、BeautifulSoup库的官方解释如下:
⑴BeautifulSoup提供一些简单的、Python式的函数用来处理导航、搜索、修改分析树等功能
①它是一个工具箱,通过解析文档为用户提供需要抓取的数据
⑵BeautifulSoup自动将输入文档转换为Unicode编码,输出文档转换为UTF-8编码,不需要考虑编码方式
①除非文档没有指定一个编码方式,这时,BeautifulSoup就不能自动识别编码方式了。此时仅需要说明一下原始编码方式就可以了
⑶BeautifulSoup已成为和lxml、html6lib一样出色的Python库,为用户灵活地提供不同的解析策略或强劲的速度
安装BeautifulSoup库
1、BeautifulSoup3目前已经停止开发&