基于GPT 能自动化任意 RPA 任务吗

后台-系统设置-扩展变量-手机广告位-内容正文顶部

01

当前 RPA 软件的运作方式

 

前一阵很多人都在玩 ChatGPT,很多人惊叹于这类Language Model的表现,也同时在搜寻着更多应用的场景,一个易于想到的应用就是与 RPA 软件的结合。
 



 

当前的 RPA 软件,一般是针对不同类型的任务制定了相应的工具包,用户在使用的时候,一般需要根据自己的业务逻辑定制自动化脚本,从而达到自动化重复任务的目的。要实现这个自动化主要需要两个部分:

  1. 标准任务包。
  2. 实现任务流程的自动化脚本。

 

第一部分任务包定义了常用的操作,作为定制化脚本的基础。例如针对网页上的操作和 Excel 界面的操作,会有各自的程序包。第二部分流程脚本,通常是基于具体的业务逻辑,在任务包的基础上编写的脚本。很多厂商也会提供低代码工具和 GUI 的设计器来辅助自动化脚本编写。
 
这些 RPA 脚本基于预先定义的规则,如果运行的环境有了变化,例如一个网页上有少许修改,可能就不适用了。所以 RPA 的应用依赖于定制化,也有一定的维护成本。虽然很多 RPA 厂商把定制和维护的活丢给合作伙伴,自己的业务比较干净,但是也没有太改变本质。当前 RPA 工具里也有一些 AI 的应用,不过主要还是应用在局部,属于上述任务包的部分,例如 OCR,文本处理等,并没有体现在任务流程里。很多 RPA 工具包里针对流程这一块,也有 Process Mining 的工具,但并不是解决这个问题。Process Mining 更多是通过分析 Event Log,推导 Workflow(参考 Alpha Algorithm,PetriNets),并根据一些 pattern 提供流程优化建议。

 

02

GPT 模型如何帮助 RPA 应用

 

既然 GPT 模型能生成代码,当然也可以用它生成自动化脚本。如果去问 ChatGPT,它也是回答可以生成脚本,进而可以实现在自动化任务。是不是这就可以实现通用的自动化任务了?

 
试一试,问一个具体的问题,使用UiPath去填充表单。可以看到,ChatGPT 可以生成Python代码:

 

 
不用UiPath,改用Selenium,相当于换了一个标准任务包,也可以生成代码。例如让他生成一段在 Google 搜索 Dath Vader 并打开链接的代码。BTW, 不知道为啥 Dath Vader 同学违反 Content Policy。

 

 
根据生成代码的指令生成 Python 代码,其实还是停留在 Copilot 这个阶段。可以作为一个开发者的辅助工具,帮助流程脚本开发者提高开发效率。我们当然并不满足于此,是否能直接打通呢,使用 GPT 模型来处理用户的输入,直接转化为 Action,直接完成任务岂不更好。不过,如果再去问 ChatGPT,它也无法给出更具体的回答了,停留在一些指出方向的建议,在使用模型简化用户和 RPA 软件之间的交互等等。

 

 

03

能否实现通用的任务自动化?Adept AI 的尝试

 

目前有一些 Personal Assistant 能接受指令,完成任务,例如 Siri,Alexa,不过也仅限于一些事先定义好的 Task Automation,并不是通用的任务自动化。现在看到 ChatGPT 的表现,似乎看到了一些希望。也有很多人在进行了这些方面的探索,一个值得关注的公司是Adept AI。Adept AI Lab 由参与建立 Transformer 框架和 GPT 模型的一组大牛创立,希望能解决这个难题,进而实现 General Intelligence,打造一个能帮人类完成任何计算机任务的工具。
针对这个问题,Adept 团队已经发布了一个新的模型,叫做 Action Transformer(ACT-1),ACT-1 对于常用的 computer tasks 进行了训练,从而能将用户输入的指令直接转化为一组 Action。Adpet 给出了一些 demo 的 video,看起来比较 cool。从 video 来看,产品以一个浏览器插件作为载体,提供一个自然语言的输入接口(Best programming language is English.),能够根据用户的输入,理解用户意图,并操作浏览器来完成对应的任务。
例如,帮我在Houston找个60万以下的房子:又或者是,将新客户的信息录入 CRM 系统:
 

不过几个视频看下来,似乎还比较早期,这个视频也经过了一些处理,速度也是加了倍速的。目前可能也是针对一些指定的任务做训练,与真正的通用型模型还有一些距离。不过即使只是让 AI 自己能做好简单的任务,就已经很困难了。没有预先定义的脚本,还需要处理复杂的上下文。试想一下如果能将目前的 RPA 软件的“自动化重复任务”扩展到“自动化任何任务”,RPA 使用的范围可就广多了。

 

而程序逻辑由 Rule Based 模式向 Data Driven 模式转化在很多领域都在发生。前 Tesla AI Lead Andrej Karpathy 把它定义为Software 1.0 与 Software 2.0。Software 1.0 是程序员给计算机明确指令,Software 2.0 则使用更抽象,对人类不友好的语言,例如神经网络的权重。给定模型框架,目标和数据,由 training systems 来写这些权重。
 

于是我们有了 Software 1.0 程序员,Software 2.0 程序员,以及 Web 3.0 程序员。。即便是 3.0,不过Andrej说,不好意思,在座的各位都比不过算法:


扯远了,除了Adept AI以外,目前也有很多其他的 AI Lab 在做这方面的探索。由 DeepMind co-founder Mustafa Suleyman 和 Reid Hoffman 孵化的 Infection AI 也是想用 AI 去帮助人们完成各种计算机任务,最终人类不用去学习各种编程语言,不用学习软件使用手册,不用关注各种琐碎细节,只用关注创造性思考的部分。不过对于每天搬砖的打工人来说,创造性思考的部分是哪部分呢?
 
参考网址:
 
https://www.adept.ai/
https://chat.openai.com/chat
https://karpathy.medium.com/software-2-0-a64152b37c35
Dath Vader封面图由Midjourney生成:
https://midjourney.com/

未经允许不得转载:RPA中国 | RPA全球生态 | 数字化劳动力 | RPA新闻 | 推动中国RPA生态发展 | 流 > 基于GPT 能自动化任意 RPA 任务吗

后台-系统设置-扩展变量-手机广告位-内容正文底部