免费下载

批量提取PDF扫描件(图片版PDF)中指定区域的内容

做过数据录入工作的人应该都有体会,很多时候我们拿到的PDF并不是可以直接复制文字的那种,而是扫描生成的图片版PDF。这类文件看着像普通文档,但实际上里面的内容都是"死"的——选不了、复制不了、搜索不了。如果想要将里面的内容提取出来,就只能手工一个个的敲。少量的几份花点时间还能搞定,但是文件很多的时候,光靠人工一份一份去看、去敲就不太现实了。

举几个我自己和同事经常碰到的场景吧。做财务的同事每个月要处理几百张供应商发过来的扫描版发票,需要把发票号、金额、开票日期这些字段一个个手动录到Excel里;做物流的要从大量运单扫描件里提取收件人信息和单号;还有做合同管理的,几百份老合同都是当年扫描存档的,现在要统一整理合同编号、签约日期和甲方名称。这些场景有一个共同点:每份文件要提取的信息位置其实都差不多,但就是没法批量搞定。

很多人第一反应是用OCR工具,装个软件识别一下就行了。但实际用过就知道,大部分OCR工具要么只能整页识别,输出一大堆文字还得自己再去里面找需要的字段;要么不支持批量处理,一份一份打开、识别、导出,效率并没有提高多少。更别说有些工具识别准确率一般,碰到盖了章的区域或者表格线密集的地方,识别出来的内容错漏百出,还得人工核对。说白了,真正的需求不是"把整页文字识别出来",而是"从每份文件的固定位置,精准提取我要的那几个字段,然后批量导出"。

批量提取PDF扫描件中指定区域的内容效果预览

提取前

处理前,文件夹中有多个 PDF 文档

pdf扫描件内容提取处理前列表

这些 PDF 文档中的内容都是相同的结构,只是内容不相同,并且这些pdf文件中的内容是一张图片,不可以复制

pdf扫描件内容提取处理前内容


提取后

提取后,每个 PDF 文档中都是一条单独的数据,每条数据对应一个 PDF 文件内容。

pdf扫描件内容提取结果预览


操作步骤

1、打开「鹰迅OCR」,左侧选择「文档处理」,右侧选择「提取PDF指定区域内容」的功能。

pdf扫描件内容提取功能选择

2、选择需要进行数据提取的 PDF 文件,不管是文字版 pdf 还是 pdf 扫描件,这里都支持提取。

pdf扫描件内容提取文件选择

3、设置提取的规则。

pdf扫描件内容提取规则设置

刚进入页面时,是没有任何提取规则的,我们可以点击「设置提取规则」按钮会打开弹窗进行规则的设置。

pdf扫描件内容提取选区绘制界面

选区绘制后,效果如下。

pdf扫描件内容提取选区绘制

绘制好选区后,我们点击右下角的「完成选区标注」按钮即可。

4、设置输出目录。

pdf扫描件内容提取输出目录设置

4、PDF 指定区域内容提取完成。

pdf扫描件内容提取处理完成

就这样简单的几步,我们就将多个pdf扫描件中指定内容全部提取出来并汇总到一个 Excel 文件了。我们这时候可以打开输出目录检查一下提取的结果有没有问题。

整个操作下来,最直观的感受就是省时省力。以前处理200份扫描件,手动录入怎么也得大半天,现在框选好区域,批量跑一遍,几分钟就能拿到结果,直接导出成Excel表格。后面不管来多少份同类型的文件,都是一键处理的事。对于那些每天要跟大量扫描件打交道的岗位来说,这种批量、定点提取的方式,确实从根本上解决了重复劳动的问题,把时间留给更有价值的工作。

正文到此结束