通过Python pypdf库轻松拆分大型PDF文件

本文介绍了pypdf库的历史、安装方法和应用案例,特别是如何通过pypdf拆分PDF文件,包括按页数和份数拆分的思路,适合Python初学者实践。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

pypdf的历史

pypdf最早可以追溯到2005年开源发布,最早名称是"pyPdf",中间的P是大写的,是一个纯python库,这个库一直持续到2010年的pyPdf1.13最后一个版本!

开源其实是一件非常吃力不讨好的事情,在没有商业化的手段,以及没有额外费用的支持下,很难一直靠爱发电。

2011到2016年之间,在此基础上又诞生了一个PyPDF2的分支,这个分支其实是真正走到大众面前的一个库,在很多优秀的python书籍中都能看到该库的身影。PyPDF2从2016年沉寂了几年后,2022年又被一个开发者接管并维护,并且增加了一些功能。

2018到2022年间又围绕PyPDF2陆续诞生了PyPDF3 和 PyPDF4 ,但相对PyPDF2几乎很少有人使用,自然也就没有什么新的发展,岁月的车轮终究碾碎了单纯的开发者!

好在开源的力量是无穷的,正所谓,天下大势,合久必分,分久必合,2023年pypdf回归本源,PyPDF2 被合并回 pypdf,现在的名称全部为小写,成为没有数字的pypdf!

最后,希望我们能看到PyPDF3 和 PyPDF4 的开发者也能加入到社区中,让pypdf这个库能有更好的发展和未来。

最后让我们一起,致敬开源,感恩开源,向优秀的开源开发者学习!

pypdf的安装

pypdf是一个纯python库,安装使用非常简单,只需要使用pip安装即可!

pip install pypdf

pypdf的应用案例

拆分pdf文档思路与分析

拆分一个多页的pdf文档有两种拆分思路:

  1. 按每个拆分的pdf包含多少页自动拆分

​ 这个拆分思路其实是规定了每个将要拆分的小pdf文件由多少页组成的一个方式,很好理解。

​ 计算公式:pdf总页数 / 每个pdf的页数 = 拆分的份数

  1. 按份数拆分

​ 这种就是直接指定将一个pdf拆分成多少份

​ 计算公式:pdf总页数 / 拆分的份数 = 每个pdf的页数

其实,看完这个计算公式之后我们就能发现,其实他们解决的是同一个问题,就是一个简单的除法运算!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值