批量提取PDF扫描件（图片版PDF）中指定区域的内容

做过数据录入工作的人应该都有体会，很多时候我们拿到的PDF并不是可以直接复制文字的那种，而是扫描生成的图片版PDF。这类文件看着像普通文档，但实际上里面的内容都是"死"的——选不了、复制不了、搜索不了。如果想要将里面的内容提取出来，就只能手工一个个的敲。少量的几份花点时间还能搞定，但是文件很多的时候，光靠人工一份一份去看、去敲就不太现实了。

举几个我自己和同事经常碰到的场景吧。做财务的同事每个月要处理几百张供应商发过来的扫描版发票，需要把发票号、金额、开票日期这些字段一个个手动录到Excel里；做物流的要从大量运单扫描件里提取收件人信息和单号；还有做合同管理的，几百份老合同都是当年扫描存档的，现在要统一整理合同编号、签约日期和甲方名称。这些场景有一个共同点：每份文件要提取的信息位置其实都差不多，但就是没法批量搞定。

很多人第一反应是用OCR工具，装个软件识别一下就行了。但实际用过就知道，大部分OCR工具要么只能整页识别，输出一大堆文字还得自己再去里面找需要的字段；要么不支持批量处理，一份一份打开、识别、导出，效率并没有提高多少。更别说有些工具识别准确率一般，碰到盖了章的区域或者表格线密集的地方，识别出来的内容错漏百出，还得人工核对。说白了，真正的需求不是"把整页文字识别出来"，而是"从每份文件的固定位置，精准提取我要的那几个字段，然后批量导出"。

批量提取PDF扫描件中指定区域的内容效果预览

提取前

处理前，文件夹中有多个 PDF 文档

pdf扫描件内容提取处理前列表

这些 PDF 文档中的内容都是相同的结构，只是内容不相同，并且这些pdf文件中的内容是一张图片，不可以复制

pdf扫描件内容提取处理前内容

提取后

提取后，每个 PDF 文档中都是一条单独的数据，每条数据对应一个 PDF 文件内容。

pdf扫描件内容提取结果预览

操作步骤

1、打开「鹰迅OCR」，左侧选择「文档处理」，右侧选择「提取PDF指定区域内容」的功能。

pdf扫描件内容提取功能选择

2、选择需要进行数据提取的 PDF 文件，不管是文字版 pdf 还是 pdf 扫描件，这里都支持提取。

pdf扫描件内容提取文件选择

3、设置提取的规则。

pdf扫描件内容提取规则设置

刚进入页面时，是没有任何提取规则的，我们可以点击「设置提取规则」按钮会打开弹窗进行规则的设置。

pdf扫描件内容提取选区绘制界面

在规则设置的界面中，默认会加载我们选择文件列表中的第一个 PDF 文档，当然也可以点击「重新选择」按钮选择其它的 PDF 文档。
在 PDF 预览区域，我们可以在需要提取的内容部分绘制选区，绘制的选区有起始坐标，最终软件就会根据这里绘制的选区坐标对每一个 PDF 文件进行内容的提取。
我们每绘制一个选区，都会弹窗需要输入「表头名称」，这也就是我们最终提取到 Excel 中显示的表头名称。还会需要我们选择提取的内容内容，目前支持文本和图片两种类型。
按住 Ctrl + 滚轮，在 PDF 预览区域内可以进行缩放，方便我们绘制更精准的选区。
当 PDF 文件有多页时，我们可以进行页面的切换，可以指定提取内容所在的页面。

选区绘制后，效果如下。

pdf扫描件内容提取选区绘制

绘制好选区后，我们点击右下角的「完成选区标注」按钮即可。

4、设置输出目录。

pdf扫描件内容提取输出目录设置

4、PDF 指定区域内容提取完成。

pdf扫描件内容提取处理完成

就这样简单的几步，我们就将多个pdf扫描件中指定内容全部提取出来并汇总到一个 Excel 文件了。我们这时候可以打开输出目录检查一下提取的结果有没有问题。

整个操作下来，最直观的感受就是省时省力。以前处理200份扫描件，手动录入怎么也得大半天，现在框选好区域，批量跑一遍，几分钟就能拿到结果，直接导出成Excel表格。后面不管来多少份同类型的文件，都是一键处理的事。对于那些每天要跟大量扫描件打交道的岗位来说，这种批量、定点提取的方式，确实从根本上解决了重复劳动的问题，把时间留给更有价值的工作。

批量提取PDF扫描件中指定区域的内容效果预览

提取前

提取后

操作步骤

1、打开「鹰迅OCR」，左侧选择「文档处理」，右侧选择「提取PDF指定区域内容」的功能。

2、选择需要进行数据提取的 PDF 文件，不管是文字版 pdf 还是 pdf 扫描件，这里都支持提取。

3、设置提取的规则。

4、设置输出目录。

4、PDF 指定区域内容提取完成。

相关文章

一键识别PDF文档中的内容，批量更改文件名

如何用PDF扫描件中的内容，批量重命名文档？

怎样批量提取多个PDF合同中的金额、日期、购买方等信息？支持扫描件提取！

最新文章

扫描件PDF有大量空白页？1分钟快速检测并批量删除，省时省力

如何批量删除多个Word文档中的英文字母及英文标点符号？

大量Word如何批量删除某个关键词/敏感词？docx、doc文档一键清除！

随机文章

如何给PPT演示文稿中的图片添加水印

批量将 PDF 文件转为 jpg 格式的图片

批量对多个word文档进行合并