工作中,合同管理是一项既重要又繁琐的工作。无论是采购合同、销售协议还是租赁合同,我们常常需要从大量PDF合同文件中提取关键信息,比如合同金额、签约日期、甲乙双方名称等。更麻烦的是,很多老合同都是扫描件,普通的复制粘贴根本行不通。今天我们就来一起聊聊这个问题,并分享专业的解决方法,帮助你一键高效搞定!
工作中,我们经常需要处理各类的pdf文档,假如我们有一堆pdf销售合同,想要批量提取合同中的购买方信息、金额、产品等信息,如果一个个复制出来就非常低效。之前也用过一些其他的PDF工具,但要么不支持扫描件识别,要么一次只能处理一个文件,效率根本上不去。
今天介绍的方法可以快速实现一键提取指定区域的内容,不需要一个个打开文件,就可以一键批量操作,想提取哪就提取哪,还支持提取pdf中的图片。自动用了这个方法,真的太香了,操作也非常简单,一起来看看吧!
批量提取多个PDF合同中的指定内容效果预览
提取前
处理前,文件夹中有多个 PDF 销售合同,合同的结构都是相同的,只是具体的购买方信息、金额等信息不同。

提取后
提取后,每个 PDF 合同都对应了Excel表格中单独的一条数据。

批量提取多个PDF合同中的指定内容操作步骤
1、打开「鹰迅OCR」,左侧选择「文档处理」,右侧选择「提取PDF指定区域内容」的功能。

2、选择需要提取内容的所有 PDF 合同文件。
不管是文字版 pdf 还是 pdf 扫描件,这里都支持提取。

3、设置提取的规则。

这里我们点击「设置提取规则」按钮会打开弹窗进行规则的设置。

这个页面非常重要。我们可以详细看一下这个页面的设置。
左侧分别有:
1、工具栏:分别移动工具和选区工具,我们可以对这个页面做调整,并进行提取区域的选区绘制,同时我们按住 Ctrl + 滚轮,可以在 PDF 预览区域内可以进行缩放,方便我们绘制更精准的选区。在绘制选区的时候,我们尽可能绘制的区域覆盖
2、文件管理栏:这里默认以我们上传的第一份文件为坐标进行选区绘制,我们也可以在这里重新选择文件,作为绘制区域的坐标文件,设置好之后,绘制的坐标将会应用到剩下所有的文件。
3、选区列表:每绘制一个区域,我们就可以看到具体的信息,每绘制一个选区,都会弹窗需要输入「表头名称」,来给这个提取的区域进行命名,导出来后就是Excel的表头名称。
4、绘制区域:整个右侧的就是我们具体绘制的pdf页面区域,这里支持图片和文字两种类型的内容提取。上侧有显示pdf文件的页码,当我们有多页的内容需要提取时,我们可以进行页面的切换。
选区绘制好后,点击「完成选区标注」,然后会进入到下一页页面,这里就有我们所有需要提取的内容,效果如下。

4、设置提取后的Excel表格保存的目录。

4、批量提取多个PDF合同中的指定内容处理完成。

有了这个方法,真的太实用了,而且它对扫描件的识别确实可以,识别非常精准。
几百份的pdf文件,只需要设置好要提取的区域,比如"合同编号""甲方""金额"这些,工具就会自动定位并提取,最后导出成Excel表格,直接就能用。
最后注意一点的是,多个pdf文件提取内容的时候,需要它的模板是相似的,否则提取的坐标就难以应用到其他的文件,赶紧来试试吧!