【极简Python 自动化办公】专栏是介绍如何利用python办公,减少工作负荷。篇幅精炼,内容易懂,无论是否有编程基础,都非常适合。

在上次的文章中,我们从PDF中提取了文字和表格,这次我们需要提取图片。

还是先来看看我们上次的测试例子

这次我们要提取第一页的二维码图片。

fitz介绍

pymupdf是mupdf的Python绑定,而今天我们要使用的fitz是pymupdf的子模块。需要的时候,使用pip安装。

pip install pymupdf

导入的时使用import fitz导入模块。

更多信息可参考pymupdf的文档:
https://pymupdf.readthedocs.io/en/latest/intro/

提取图片

提取图片的思路是通过正则表达式找到图片对象,然后保存为图片格式。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
#!/usr/bin/env python3

import fitz #pip install pymupdf
import re
import os

def find_imag(path,img_path):

checkXO = r"/Type(?= */XObject)"
checkIM = r"/Subtype(?= */Image)"

pdf = fitz.open(path)

img_count = 0
len_XREF = pdf._getXrefLength()

print("文件名:{}, 页数: {}, 对象: {}".format(path, len(pdf), len_XREF - 1))

for i in range(1, len_XREF):
text = pdf._getXrefString(i)
isXObject = re.search(checkXO, text)

# 使用正则表达式查看是否是图片
isImage = re.search(checkIM, text)

# 如果不是对象也不是图片,则continue
if not isXObject or not isImage:
continue
img_count += 1
# 根据索引生成图像
pix = fitz.Pixmap(pdf, i)

new_name = path.replace('\\', '_') + "_img{}.png".format(img_count)
new_name = new_name.replace(':', '')

# 如果pix.n<5,可以直接存为PNG
if pix.n < 5:
pix.writePNG(os.path.join(img_path, new_name))

else:
pix0 = fitz.Pixmap(fitz.csRGB, pix)
pix0.writePNG(os.path.join(img_path, new_name))
pix0 = None

pix = None

print("提取了{}张图片".format(img_count))


if __name__=='__main__':
pdf_path = r'test.pdf'
img_path = r'img'
m = find_imag(pdf_path, img_path)

运行程序结果:

1
2
3
[pdf] python3 pdf_img.py
文件名:test.pdf, 页数: 2, 对象: 115
提取了1张图片

在img目录中,已经存在了我们需要的文件

总结

pymupdf的使用,今天就简单介绍到这里。更多的功能请参考pymupdf文档。

下一篇,我们将带来pdf转换为图片的讨论。

人生苦短,我用python早下班。如果觉得不错,对你工作中有帮助,可以长按下列二维码关注我们的公众号。

flypython微信公众号