• 2025-06-27 20:27:38

批量提取多个pdf文件内的指定内容到excel

我们在工作中经常会接触到很多pdf格式的文件,当我们需要从多个文件中提取特定内容时是非常麻烦的,我们通常得写定制化的脚本来完成,但是很难有一种方法能应对各种提取pdf指定内容的场景。

在金融、法律、教育和医疗等领域中,PDF文件使用是非常广泛的。很多时候我们需要从这些PDF文件中提取关键数据,以便进行后续的数据分析、报告生成或数据迁移。常见的应用场景包括:

1、财务报表提取:公司需要从每月生成的财务报表中提取关键的财务数据,如收入、支出、利润等,将这些信息汇总到Excel中进行分析和计算。

2、合同数据提取:法律部门需要从一批合同文件中提取重要条款、签署日期、合同金额等信息,用于合同管理和跟踪。

3、医疗报告数据提取:医疗行业中的病历和报告文件通常是PDF格式,工作人员需要批量提取患者姓名、疾病类型、检查结果等信息到Excel中,以便进一步的统计分析。

效果预览

提取前

处理前,文件夹中有多个 PDF 文档

提取pdf指定内容到excel处理前列表

这些 PDF 文档中的内容都是相同的结构,只是内容不相同

提取pdf指定内容到excel处理前内容


提取后

提取后,每个 PDF 文档中都是一条单独的数据,每条数据对应一个 PDF 文件内容。

提取pdf指定内容到excel处理后效果

操作步骤

1、打开「鹰迅批量处理工具箱」,左侧选择「PDF工具」,右侧在合并拆分分类中选择提取 PDF 中的指定内容」的功能。

提取pdf指定内容到excel功能选择

2、选择多个需要进行数据提取的 PDF 文档。

提取pdf指定内容到excel文件选择

3、设置提取的规则。

提取pdf指定内容到excel设置提取规则

刚进入页面时,是没有任何提取规则的,我们可以点击「设置提取规则」按钮会打开弹窗进行规则的设置。

提取pdf指定内容到excel选区示例

  • 在规则设置的界面中,默认会加载我们选择文件列表中的第一个 PDF 文档,当然也可以点击「重新选择」按钮选择其它的 PDF 文档。
  • 在 PDF 预览区域,我们可以在需要提取的内容部分绘制选区,绘制的选区有起始坐标,最终软件就会根据这里绘制的选区坐标对每一个 PDF 文件进行内容的提取。
  • 我们每绘制一个选区,都会弹窗需要输入「表头名称」,这也就是我们最终提取到 Excel 中显示的表头名称。
  • 这里支持图片,如果选区内既有文字也有图片,只会提取文字。如果选区内只有图片,则可以进行图片的提取,需要注意的是,图片必须完全在选区范围内,才能正确提取。
  • 按住 Ctrl + 滚轮,在 PDF 预览区域内可以进行缩放,方便我们绘制更精准的选区。
  • 当 PDF 文件有多页时,我们可以进行页面的切换,可以指定提取内容所在的页面。

选区绘制后,效果如下。

提取pdf指定内容到excel设置输出目录

绘制好选区后,我们点击右下角的「完成选区标注」按钮即可。

4、设置输出目录。

提取pdf指定内容到excel提取完成

5、提取完成。

提取pdf指定内容到excel处理前列表

简单几步操作过后,我们所有选的 pdf 文件的指定内容就都已经被提取汇总到一个 Excel 文件中了,我们可以进入输出目录打开提取后的 Excel 文件检查一下提取的结果。这时候我们再对这些数据进行存档、分析或者做后续其它的操作,就方便多了。


正文到此结束