• 2025-06-28 20:21:20

批量从多个pdf文件指定位置取值汇总到excel

我们在工作中经常会碰到需要从多个PDF文件中提取指定位置的数据并将其整理到Excel中的需求,面临的 PDF 文件动不动就是成百上千的,手动处理的工作量巨大且非常容易出错。

PDF文件经常被应用于合同、报表、发票、医疗记录等多个场景中,我们也经常会碰到需要从大量 PDF 文档中提取特定信息并进行汇总的需求。以下是几个常见的应用场景:

1、财务报表汇总:财务部门可能需要从大量的PDF格式的月度财务报表中,提取特定位置的数字数据(如总收入、支出等),并将其汇总到Excel中进行财务分析、预算编制或税务申报。

2、合同条款提取:法律部门常常需要从大量合同文件中提取特定条款(如合同金额、签署日期、付款条件等),并将这些信息整理到Excel中,便于合同的跟踪和管理。

3、医疗记录汇总:医院或医疗机构需要从多个病历或医疗报告PDF文件中提取关键数据(如患者姓名、检查结果、诊断信息等),并将其汇总到Excel表格中,以便进行分析、统计或医疗研究。

4、订单和发票汇总:企业可能需要从不同供应商的发票或订单PDF中提取重要的交易信息(如订单号、金额、货物描述等),然后将数据汇总到Excel文件中,方便财务核对和审计。

效果预览

提取前

处理前,文件夹中有多个 PDF 文档

从多个pdf取值到excel处理前列表

这些 PDF 文档中的内容都是相同的结构,只是内容不相同

从多个pdf取值到excel处理前内容


提取后

提取后,每个 PDF 文档中都是一条单独的数据,每条数据对应一个 PDF 文件内容。

从多个pdf取值到excel处理后效果

操作步骤

1、打开「鹰迅批量处理工具箱」,左侧选择「PDF工具」,右侧在合并拆分分类中选择提取 PDF 中的指定内容」的功能。

从多个pdf取值到excel功能选择

2、同时选择多个需要进行取值的 PDF 文档。

从多个pdf取值到excel文件选择

3、设置取值的规则。

从多个pdf取值到excel设置提取规则

刚进入页面时,是没有任何提取规则的,我们可以点击「设置提取规则」按钮会打开弹窗进行规则的设置。

从多个pdf取值到excel选区示例

进入规则设置界面后,我们可以看到左上角有个说明按钮,我们可以先查看一下说明,这里主要要注意两点:

1、不支持 OCR ,所以这里不支持提取扫描件中的文字。

2、按设置的选区坐标进行提取,默认以第一个 PDF 为样例文件进行选区绘制,绘制的选区坐标会应用到其它所有文件。

然后我们就可以在右侧PDF预览的区域进行选区的绘制。需要提取哪块的内容就通过选区进行标记。选区绘制后,效果如下。

从多个pdf取值到excel设置输出目录

这里我们可以看到不仅可以提取普通的文字,还可以提取图片。

绘制好选区后,我们点击右下角的「完成选区标注」按钮即可。

4、设置输出目录。

从多个pdf取值到excel提取完成

5、提取完成。

从多个pdf取值到excel处理前列表

一会儿,数据提取就完成了,多个 PDF 中的内容都按照我们设置的规则被提取到 Excel 中了,这对我们后续的分析提供了很大的遍历。

这种提取方法通用性非常的强,不管什么类型的表格或者内容都能用这种方法提取。不管是一个 PDF 文档还是大量的 PDF 文档,都只需要一次操作就可以了。


正文到此结束