批量提取多个pdf文件内的指定内容到excel

我们在工作中经常会接触到很多pdf格式的文件,当我们需要从多个文件中提取特定内容时是非常麻烦的,我们通常得写定制化的脚本来完成,但是很难有一种方法能应对各种提取pdf指定内容的场景。

在金融、法律、教育和医疗等领域中,PDF文件使用是非常广泛的。很多时候我们需要从这些PDF文件中提取关键数据,以便进行后续的数据分析、报告生成或数据迁移。常见的应用场景包括:

1、财务报表提取:公司需要从每月生成的财务报表中提取关键的财务数据,如收入、支出、利润等,将这些信息汇总到Excel中进行分析和计算。

2、合同数据提取:法律部门需要从一批合同文件中提取重要条款、签署日期、合同金额等信息,用于合同管理和跟踪。

3、医疗报告数据提取:医疗行业中的病历和报告文件通常是PDF格式,工作人员需要批量提取患者姓名、疾病类型、检查结果等信息到Excel中,以便进一步的统计分析。

效果预览

提取前

处理前,文件夹中有多个 PDF 文档

提取pdf指定内容到excel处理前列表

这些 PDF 文档中的内容都是相同的结构,只是内容不相同

提取pdf指定内容到excel处理前内容


提取后

提取后,每个 PDF 文档中都是一条单独的数据,每条数据对应一个 PDF 文件内容。

提取pdf指定内容到excel处理后效果

操作步骤

1、打开「鹰迅批量处理工具箱」,左侧选择「PDF工具」,右侧在合并拆分分类中选择提取 PDF 中的指定内容」的功能。

提取pdf指定内容到excel功能选择

2、选择多个需要进行数据提取的 PDF 文档。

提取pdf指定内容到excel文件选择

3、设置提取的规则。

提取pdf指定内容到excel设置提取规则

刚进入页面时,是没有任何提取规则的,我们可以点击「设置提取规则」按钮会打开弹窗进行规则的设置。

提取pdf指定内容到excel选区示例

选区绘制后,效果如下。

提取pdf指定内容到excel设置输出目录

绘制好选区后,我们点击右下角的「完成选区标注」按钮即可。

4、设置输出目录。

提取pdf指定内容到excel提取完成

5、提取完成。

提取pdf指定内容到excel处理前列表

简单几步操作过后,我们所有选的 pdf 文件的指定内容就都已经被提取汇总到一个 Excel 文件中了,我们可以进入输出目录打开提取后的 Excel 文件检查一下提取的结果。这时候我们再对这些数据进行存档、分析或者做后续其它的操作,就方便多了。


正文到此结束