【极简Python 自动化办公】专栏是介绍如何利用python办公,减少工作负荷。篇幅精炼,内容易懂,无论是否有编程基础,都非常适合。
在上次的文章中,我们从PDF中提取了文字和表格,这次我们需要提取图片。
还是先来看看我们上次的测试例子

这次我们要提取第一页的二维码图片。
fitz介绍
pymupdf是mupdf的Python绑定,而今天我们要使用的fitz是pymupdf的子模块。需要的时候,使用pip安装。
pip install pymupdf
导入的时使用import fitz导入模块。
更多信息可参考pymupdf的文档:
https://pymupdf.readthedocs.io/en/latest/intro/
提取图片
提取图片的思路是通过正则表达式找到图片对象,然后保存为图片格式。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
| #!/usr/bin/env python3
import fitz #pip install pymupdf import re import os
def find_imag(path,img_path):
checkXO = r"/Type(?= */XObject)" checkIM = r"/Subtype(?= */Image)"
pdf = fitz.open(path)
img_count = 0 len_XREF = pdf._getXrefLength()
print("文件名:{}, 页数: {}, 对象: {}".format(path, len(pdf), len_XREF - 1))
for i in range(1, len_XREF): text = pdf._getXrefString(i) isXObject = re.search(checkXO, text)
# 使用正则表达式查看是否是图片 isImage = re.search(checkIM, text)
# 如果不是对象也不是图片,则continue if not isXObject or not isImage: continue img_count += 1 # 根据索引生成图像 pix = fitz.Pixmap(pdf, i) new_name = path.replace('\\', '_') + "_img{}.png".format(img_count) new_name = new_name.replace(':', '')
# 如果pix.n<5,可以直接存为PNG if pix.n < 5: pix.writePNG(os.path.join(img_path, new_name)) else: pix0 = fitz.Pixmap(fitz.csRGB, pix) pix0.writePNG(os.path.join(img_path, new_name)) pix0 = None pix = None print("提取了{}张图片".format(img_count))
if __name__=='__main__': pdf_path = r'test.pdf' img_path = r'img' m = find_imag(pdf_path, img_path)
|
运行程序结果:
1 2 3
| [pdf] python3 pdf_img.py 文件名:test.pdf, 页数: 2, 对象: 115 提取了1张图片
|
在img目录中,已经存在了我们需要的文件

总结
pymupdf的使用,今天就简单介绍到这里。更多的功能请参考pymupdf文档。
下一篇,我们将带来pdf转换为图片的讨论。
人生苦短,我用python早下班。如果觉得不错,对你工作中有帮助,可以长按下列二维码关注我们的公众号。
