UiPath PDF数据提取

UiPath PDF数据提取

PDF一直是存储数据最可靠的格式之一。从大型公司到小型企业，每个人都以这种格式存储各种数据。但是，想象一下，如果必须从这些PDF文档中提取原始数据。可以手动完成吗？好吧，简单的答案是否定的，因为这是一项相当繁琐的工作，但是，如果您熟悉自动化中的某些服务，那么您可以轻松地自动执行此过程。

这篇关于UiPath PDF数据提取的文章将向您简要介绍UiPath提供的从PDF中提取数据的所有方式，无论是原生文本格式还是扫描图像。
为了便于您理解，我将本文分为以下两个部分：

提取大文本
提取特定元素

在真正开始提取数据之前，需要确保的一件重要事情是从系统上安装的Manage Packages部分获得UiPath.PDF.Activities。选择软件包后，单击“保存”，软件包将开始安装。请参阅下图。

Manage Packages - UiPath PDF Data Extraction - Edureka

图1：管理包的快照 - UiPath PDF数据提取

在我们继续之前，如果您想学习使用UiPath从PDF中提取数据，可以参考以下视频。该视频将帮助您获得数据提取的实践经验。

Now, that you know which package has to be installed, let me quickly tell you how to extract large texts in PDF documents.

现在，您知道必须安装哪个软件包后，下面介绍如何在PDF文档中提取大型文本。

提取大文本

可能存在这样的情况：我们有一个完全充满文本的文档，或者文本和图像的混合。那么，提取大型文本属于这种文档，其中文档仅包含文本或文本和图像的混合。

UiPath主要提供两种选项来提取大型文本。分别是：

阅读PDF文本
阅读带有OCR的PDF

除此之外，我们还有屏幕抓取方式。让我们从阅读PDF文本开始。

阅读PDF文本

Read PDF用于从仅包含Text 的PDF文件中提取数据。因此，如果PDF中存在图像，则此活动将不是要选择的正确活动，因为它不会提取图像中存在的数据。

在此之前，您可以参考下面的图片，其中展示了我将用于此文章的示例PDF文件。在PDF文档中，上半部分是文本，引用的部分是图像。

Sample PDF - UiPath PDF Data Extraction - Edureka

现在，我将创建一个序列，在其中我将提到必须从中提取数据的PDF目录，并且我将在消息框中编写输出。

注意： 您可以将输出写入任何格式的文件，如写文本文件，写入行，写入单元格活动等。

第1步：创建一个序列并重命名。在这里，我将其重命名为Extract Text。

第2步：拖放“ 阅读PDF文本活动”。在活动中，请提及必须从中提取数据的PDF文档的路径。

第3步：现在，在属性面板中阅读PDF文本活动，提一个输出变量查看输出。要设置输出变量，请按CTRL + K，然后输入名称。这里我提到了输出。

步骤4：之后，在序列中拖放一个消息框，然后在其中提及输出变量。

完整序列和输出应分别如下面的图片所示。

Read PDF Text Activity - UiPath PDF Data Extraction - Edureka Fig 2: Snapshot of Read PDF Text Activity with
图2：使用输出读取PDF文本活动的图片 - UiPath PDF数据提取

在这里，您可以清楚地看到我们图像中存在的文本未被提取，并且仅提取了样本PDF文档中存在的文本。那么，你们就可以使用“阅读PDF文本活动”。

现在，转到下一个活动，即使用OCR活动读取PDF。

阅读带有OCR活动的PDF

带有OCR活动的阅读PDF用于从包含文本和图像的PDF文档中提取数据。因此，如果除文档中的文本外还有其他图像，此活动将从这些图像中提取数据并提供文本输出。

OCR Engine - UiPath PDF Data Extraction - Edureka

正如活动的名称所示，此活动使用光学字符识别来扫描PDF文档内的图像，并将所有文本输出为变量。所以它需要一个OCR引擎。在“ 活动窗格”中，如果搜索OCR引擎，您将获得已安装引擎的列表。请参阅上图。

现在，我将创建一个序列，在其中我将提到PDF的目录，从中提取数据，我将在消息框中写入输出。唯一的区别是，您将看到图像中的文本也被提取出来。

按照以下步骤，创建自动化以提取图像中存在的文本。

第1步：创建一个序列并重命名。在这里，我已将其重命名为使用OCR提取文本。

步骤2.1：拖放带有OCR活动的阅读PDF。在活动中，请提及必须从中提取数据的PDF文档的路径。

步骤2.2：现在，搜索OCR引擎，并根据安装的任何一个拖放OCR引擎。在这里，我使用了Google OCR Engine。

步骤3：现在，在具有OCR活动的阅读PDF的属性窗格中，提及输出变量以查看输出。设置输出变量按CTRL + K，然后输入名称。这里我提到了输出。

步骤4：之后，在序列中拖放一个消息框，然后在其中提及输出变量。

您的完整序列和输出应分别如下面的图片所示。

Read PDF with OCR Activity - UiPath PDF Data Extraction - Edureka
图2：使用OCR活动和输出读取PDF的快照 - UiPath PDF数据提取

在这里，您可以清楚地看到示例文档图像中存在的文本已被提取。这就是如何使用带有OCR活动的阅读PDF的操作方式。

在我结束这一部分之前，我再提一些重要的点。阅读带有OCR活动的PDF

关键点

在“ 读取文本活动的属性窗格 ” 和“ 使用OCR 活动读取PDF”中，我们有一个名为Range的参数。此参数用于提及必须从中提取数据的页码范围（1，全部，2-10 10-All）。
上述两种活动都是独立的，即它们不需要打开其他应用程序。因此，即使您的PDF文档未在屏幕上打开，这些活动也可以执行您的任务。

现在，除了上述活动之外，还有另一种提取数据的方法，即使用“ 设计”选项卡中的屏幕抓取向导。

屏幕抓取向导

屏幕抓取向导是UiPath提供的一项功能，用于从多个平台中抓取数据。

要使用此向导，您可以通过保持PDF文档打开来执行以下步骤。

步骤1：单击屏幕抓取擦图标，然后选择要提取的PDF文档中的部分。

第2步：然后，您将被重定向到屏幕抓取向导，您可以使用提取的文本在下面看到。现在，在这里你可以选择抓取方法（原生/全文/ OCR）。选择所需的方法，然后单击“ 完成”。

图3：屏幕抓取向导快照 - UiPath PDF数据提取

第3步：单击完成后，Scraping Wizard将返回到您的序列。在这里添加一个消息框以查看输出并提及输出变量，该变量在返回序列中的“获取全文/获取OCR文本”活动中提到。这里的变量名是'AvlAvview'，我在消息框中提到过。

您的完整序列和输出应如下图所示。

Screen Scraping with Output - UiPath PDF Data Extraction - Edureka

图4：屏幕抓取和输出的快照 - UiPath PDF数据提取

在这里，您可以清楚地看到示例文档图像中存在的文本被提取出来，以及文件中的文字。因此，您可以使用Screen Scraper Wizard来提取文本和图像。

现在，继续我们的下一部分，即提取特定元素

提取特定元素

通过提取特定元素，您可以在某些情况下提取特定元素，例如发票中的总计或简历中的联系人号码等。

UiPath主要提供两种选项来提取大型文本。这些方法是：

获取文字活动
锚定基础活动

获取文字活动

此活动只是指向您要提取的元素。使用此活动，可以提取文本，并可以使用输出变量。之后，您可以使用消息框或写文本文件活动并提及输出变量。

请参阅下面的图片以检查顺序和输出。在这里，我提取了总金额，然后在消息框中显示输出。

Get Text Activity - UiPath PDF Data Extraction - Edureka
图5：获取文本活动和输出的图片 - UiPath PDF数据提取

这就是如何使用Get Text Action。现在，转到我们的下一个活动，即Anchor-Base Activity。

锚定活动

Anchor Base Activity用于提取文本和图像。此活动由两个操作组成，因为它执行与另一个固定元素或锚点相关的操作。

因此，典型的锚定活动主要有两个：

查找元素/查找图像活动
获取文字活动

查找元素/查找图像活动

查找元素/查找图像活动用于分别查找元素，即文本和图像。您可以根据需要使用这些活动。现在，由于Anchor Base活动是一个相对活动，您可以像我之前提到的那样使用Get Text Activity。

请参阅下面的图片。在这里，我使用了Anchor-Base 活动，以及Find Image Activity和Get Text Activity。在“ 查找图像活动”中，我选择了“总计”，因此基本上会搜索“总计”，然后在“获取文本活动”中，由于选择了该值，因此将提取该值。