批量从多个pdf文件指定位置取值汇总到excel
我们在工作中经常会碰到需要从多个PDF文件中提取指定位置的数据并将其整理到Excel中的需求,面临的 PDF 文件动不动就是成百上千的,手动处理的工作量巨大且非常容易出错。
PDF文件经常被应用于合同、报表、发票、医疗记录等多个场景中,我们也经常会碰到需要从大量 PDF 文档中提取特定信息并进行汇总的需求。以下是几个常见的应用场景:
1、财务报表汇总:财务部门可能需要从大量的PDF格式的月度财务报表中,提取特定位置的数字数据(如总收入、支出等),并将其汇总到Excel中进行财务分析、预算编制或税务申报。
2、合同条款提取:法律部门常常需要从大量合同文件中提取特定条款(如合同金额、签署日期、付款条件等),并将这些信息整理到Excel中,便于合同的跟踪和管理。
3、医疗记录汇总:医院或医疗机构需要从多个病历或医疗报告PDF文件中提取关键数据(如患者姓名、检查结果、诊断信息等),并将其汇总到Excel表格中,以便进行分析、统计或医疗研究。
4、订单和发票汇总:企业可能需要从不同供应商的发票或订单PDF中提取重要的交易信息(如订单号、金额、货物描述等),然后将数据汇总到Excel文件中,方便财务核对和审计。
效果预览
提取前
处理前,文件夹中有多个 PDF 文档
这些 PDF 文档中的内容都是相同的结构,只是内容不相同
提取后
提取后,每个 PDF 文档中都是一条单独的数据,每条数据对应一个 PDF 文件内容。
操作步骤
1、打开「鹰迅批量处理工具箱」,左侧选择「PDF工具」,右侧在合并拆分分类中选择「提取 PDF 中的指定内容」的功能。
2、同时选择多个需要进行取值的 PDF 文档。
3、设置取值的规则。
刚进入页面时,是没有任何提取规则的,我们可以点击「设置提取规则」按钮会打开弹窗进行规则的设置。
进入规则设置界面后,我们可以看到左上角有个说明按钮,我们可以先查看一下说明,这里主要要注意两点:
1、不支持 OCR ,所以这里不支持提取扫描件中的文字。
2、按设置的选区坐标进行提取,默认以第一个 PDF 为样例文件进行选区绘制,绘制的选区坐标会应用到其它所有文件。
然后我们就可以在右侧PDF预览的区域进行选区的绘制。需要提取哪块的内容就通过选区进行标记。选区绘制后,效果如下。
这里我们可以看到不仅可以提取普通的文字,还可以提取图片。
绘制好选区后,我们点击右下角的「完成选区标注」按钮即可。
4、设置输出目录。
5、提取完成。
一会儿,数据提取就完成了,多个 PDF 中的内容都按照我们设置的规则被提取到 Excel 中了,这对我们后续的分析提供了很大的遍历。
这种提取方法通用性非常的强,不管什么类型的表格或者内容都能用这种方法提取。不管是一个 PDF 文档还是大量的 PDF 文档,都只需要一次操作就可以了。