UiPath PDF数据提取 - 从PDF文档中提取文本

后台-系统设置-扩展变量-手机广告位-内容正文顶部

UiPath PDF数据提取

PDF一直是存储数据最可靠的格式之一。从大型公司到小型企业,每个人都以这种格式存储各种数据。但是,想象一下,如果必须从这些PDF文档中提取原始数据。可以手动完成吗?好吧,简单的答案是否定的,因为这是一项相当繁琐的工作,但是,如果您熟悉自动化中的某些服务,那么您可以轻松地自动执行此过程。

这篇关于UiPath PDF数据提取的文章将向您简要介绍UiPath提供的从PDF中提取数据的所有方式,无论是原生文本格式还是扫描图像。
为了便于您理解,我将本文分为以下两个部分:

  • 提取大文本
  • 提取特定元素

在真正开始提取数据之前,需要确保的一件重要事情是从系统上安装Manage Packages部分获得UiPath.PDF.Activities选择软件包后,单击“保存”,软件包将开始安装。请参阅下图。

Manage Packages - UiPath PDF Data Extraction - Edureka

图1:管理包的快照 - UiPath PDF数据提取

在我们继续之前,如果您想学习使用UiPath从PDF中提取数据,可以参考以下视频。该视频将帮助您获得数据提取的实践经验。

UiPath PDF数据提取

 

Now, that you know which package has to be installed, let me quickly tell you how to extract large texts in PDF documents.

现在,您知道必须安装哪个软件包后,下面介绍如何在PDF文档中提取大型文本。

提取大文本

可能存在这样的情况:我们有一个完全充满文本的文档,或者文本和图像的混合。那么,提取大型文本属于这种文档,其中文档仅包含文本或文本和图像的混合。

UiPath主要提供两种选项来提取大型文本。分别是:

  • 阅读PDF文本
  • 阅读带有OCR的PDF

除此之外,我们还有屏幕抓取方式让我们从阅读PDF文本开始。

阅读PDF文本

Read PDF用于从包含Text 的PDF文件中提取数据因此,如果PDF中存在图像,则此活动将不是要选择的正确活动,因为它不会提取图像中存在的数据。

在此之前,您可以参考下面的图片,其中展示了我将用于此文章的示例PDF文件。在PDF文档中,上半部分是文本,引用的部分是图像。

Sample PDF - UiPath PDF Data Extraction - Edureka

现在,我将创建一个序列,在其中我将提到必须从中提取数据的PDF目录,并且我将在消息框中编写输出。

注意: 您可以将输出写入任何格式的文件,如写文本文件,写入行,写入单元格活动等。

第1步:创建一个序列并重命名。在这里,我将其重命名为Extract Text。

第2步:拖放“ 阅读PDF文本活动”在活动中,请提及必须从中提取数据的PDF文档的路径。

第3步:现在,在属性面板阅读PDF文本活动,提一个输出变量查看输出。要设置输出变量,请按CTRL + K,然后输入名称。这里我提到了输出。

步骤4:之后,在序列中拖放一个消息框,然后在其中提及输出变量。

 

完整序列和输出应分别如下面的图片所示。

Read PDF Text Activity - UiPath PDF Data Extraction - EdurekaFig 2: Snapshot of Read PDF Text Activity with 
图2:使用输出读取PDF文本活动的图片 - UiPath PDF数据提取

在这里,您可以清楚地看到我们图像中存在的文本未被提取,并且仅提取了样本PDF文档中存在的文本。那么,你们就可以使用“阅读PD​​F文本活动”。

现在,转到下一个活动,即使用OCR活动读取PDF。

阅读带有OCR活动的PDF

带有OCR活动的阅读PDF用于从包含文本和图像的PDF文档中提取数据因此,如果除文档中的文本外还有其他图像,此活动将从这些图像中提取数据并提供文本输出。

OCR Engine - UiPath PDF Data Extraction - Edureka

正如活动的名称所示,此活动使用光学字符识别来扫描PDF文档内的图像,并将所有文本输出为变量。所以它需要一个OCR引擎在“ 活动窗格”中如果搜索OCR引擎,您将获得已安装引擎的列表。请参阅上图。

现在,我将创建一个序列,在其中我将提到PDF的目录,从中提取数据,我将在消息框中写入输出。唯一的区别是,您将看到图像中的文本也被提取出来。

按照以下步骤,创建自动化以提取图像中存在的文本。

第1步:创建一个序列并重命名。在这里,我已将其重命名为使用OCR提取文本。

步骤2.1:拖放带有OCR活动的阅读PDF。在活动中,请提及必须从中提取数据的PDF文档的路径。

步骤2.2:现在,搜索OCR引擎,并根据安装的任何一个拖放OCR引擎。在这里,我使用了Google OCR Engine

步骤3:现在,在具有OCR活动阅读PDF属性窗格中,提及输出变量以查看输出。设置输出变量按CTRL + K,然后输入名称。这里我提到了输出。

步骤4:之后,在序列中拖放一个消息框,然后在其中提及输出变量。

您的完整序列和输出应分别如下面的图片所示。

Read PDF with OCR Activity - UiPath PDF Data Extraction - Edureka
图2:使用OCR活动和输出读取PDF的快照 - UiPath PDF数据提取

在这里,您可以清楚地看到示例文档图像中存在的文本已被提取。这就是如何使用带有OCR活动的阅读PDF的操作方式。

在我结束这一部分之前,我再提一些重要的点。阅读带有OCR活动的PDF

关键点

  1. 在“ 读取文本活动属性窗格 ” 和“ 使用OCR 活动读取PDF”中,我们有一个名为Range的参数此参数用于提及必须从中提取数据的页码范围(1,全部,2-10 10-All)。
  2. 上述两种活动都是独立的,即它们不需要打开其他应用程序。因此,即使您的PDF文档未在屏幕上打开,这些活动也可以执行您的任务。

现在,除了上述活动之外,还有另一种提取数据的方法,即使用“  设计”选项卡中的屏幕抓取向导

屏幕抓取向导

屏幕抓取向导是UiPath提供的一项功能,用于从多个平台中抓取数据。

要使用此向导,您可以通过保持PDF文档打开来执行以下步骤。

步骤1:单击屏幕抓取擦图标,然后选择要提取的PDF文档中的部分。

第2步:然后,您将被重定向到屏幕抓取向导,您可以使用提取的文本在下面看到。现在,在这里你可以选择抓取方法(原生/全文/ OCR)选择所需的方法,然后单击“ 完成”

Screen Scraper Wizard - UiPath PDF Data Extraction - Edureka
图3:
屏幕抓取向导快照 - UiPath PDF数据提取

第3步:单击完成后,Scraping Wizard将返回到您的序列。在这里添加一个消息框以查看输出并提及输出变量,该变量在返回序列中的“获取全文/获取OCR文本”活动提到这里的变量名是'AvlAvview',我在消息框中提到过。

您的完整序列和输出应如下图所示。

Screen Scraping with Output - UiPath PDF Data Extraction - Edureka

图4:屏幕抓取和输出的快照 - UiPath PDF数据提取

在这里,您可以清楚地看到示例文档图像中存在的文本被提取出来,以及文件中的文字。因此,您可以使用Screen Scraper Wizard来提取文本和图像。

现在,继续我们的下一部分,即提取特定元素

提取特定元素

通过提取特定元素,您可以在某些情况下提取特定元素,例如发票中的总计或简历中的联系人号码等。

UiPath主要提供两种选项来提取大型文本。这些方法是:

  • 获取文字活动
  • 锚定基础活动

获取文字活动

此活动只是指向您要提取的元素。使用此活动,可以提取文本,并可以使用输出变量。之后,您可以使用消息框或写文本文件活动并提及输出变量。

请参阅下面的图片以检查顺序和输出。在这里,我提取了总金额,然后在消息框中显示输出

Get Text Activity - UiPath PDF Data Extraction - Edureka
图5:获取文本活动和输出的图片 - UiPath PDF数据提取

这就是如何使用Get Text Action。现在,转到我们的下一个活动,即Anchor-Base Activity。

锚定活动

Anchor Base Activity用于提取文本和图像。此活动由两个操作组成,因为它执行与另一个固定元素或锚点相关的操作。

因此,典型的锚定活动主要有两个:

  • 查找元素/查找图像活动
  • 获取文字活动

查找元素/查找图像活动

查找元素/查找图像活动用于分别查找元素,即文本和图像。您可以根据需要使用这些活动。现在,由于Anchor Base活动是一个相对活动,您可以像我之前提到的那样使用Get Text Activity。

请参阅下面的图片。在这里,我使用了Anchor-Base 活动,以及Find Image ActivityGet Text Activity在“ 查找图像活动”中,我选择了“总计”,因此基本上会搜索“总计”,然后在“获取文本活动”中,由于选择了该值,因此将提取该值。

Anchor Based Activity - UiPath PDF Data Extraction - Edureka
图6:锚点基础活动的图片 - UiPath PDF数据提取

以上便是关于UiPath PDF数据提取的内容。

未经允许不得转载:RPA中国 | RPA全球生态 | 数字化劳动力 | RPA新闻 | 推动中国RPA生态发展 | 流 > UiPath PDF数据提取 - 从PDF文档中提取文本

后台-系统设置-扩展变量-手机广告位-内容正文底部