达观数据陈文彬:深耕文本处理,重塑企业数字员工

后台-系统设置-扩展变量-手机广告位-内容正文顶部

作为国内首屈一指的文本智能处理专家,达观数据日前出席了由RPA中国主办的“2019 Tech Business商业智能大会”,并斩获“最佳RPA行业贡献企业”“年度最佳RPA+AI产品”两项重磅荣誉,公司副总裁陈文彬先生以《AI+RPA:打造企业智能的数字化白领员工》为主题进行了演讲,向与会嘉宾分享了达观在文本智能处理方面的最新经验,并着重提到达观正在将RPA与AI结合,致力于打造企业智能的数字化白领员工的宏伟图景。

 


达观数据副总裁-陈文彬

 

达观RPA作为国内首款自主研发集OCR(光学字符识别)与NLP(自然语言处理)于一体的智能RPA,与其他厂商调用国外OCR与NLP技术相比,达观RPA的AI组件完全采用多年积累的自主研发技术,根据国内企业的实际业务情况进行量身定制,在识别率、准确率和稳定性上都有极大地的提升,更全面的满足企业自动化的需求。

 

陈文彬介绍,达观数据多年专注于文字资料的自然语言处理,而自然语言处理又细分为自动阅读和自动写作两个部分。自然语言处理技术可以教会计算机断文解字,帮人类更好的处理文档资料。通常情况下,文字工作者平均每天大概有1/3的时间是和文字打交道,因此基于文本的交互处理有广阔的市场需求。

 

  

自动阅读

 

这方面的场景待处理文本内容包括法律文书、合同文本、金融文本、待审批文书、行政公文、公司文档资料、业务单据、传媒文章、互联网咨询、用户评的意见和客户的一些问题。

 

常见的文字处理需求一般涵盖抽取信息、自动填表、内容审核、材料预审、材料报送、文档归纳、资料搜索等等。为了更好的帮助员工处理文档资料,达观综合性的使用了RPA和OCR,以及NLP技术。

 

通过OCR技术识别图片和扫描文字,再通过自然语言处理技术去抽取文字中的关键要素,把这些信息做结构化的处理。最后通过达观的RPA技术实现数据的搬运和填写工作,这样可以提供一套完整的解决方案,全面提升文档处理的工作效率和准确率。达观自建了一套标准化的文档智能处理平台,通过迁移学习和微小的调整可以很好的支持企业内部专属定制化的扩展,这也是达观的核心优势。

 

通过集成RPA、OCR和NLP技术,达观很好的解决了人工智能之前在落地时原有的信息系统衔接的问题,实现了端到端的流程自动化,可以构建一个全面的自动化生态系统。

  

目前达观智能RPA已经应用到各个行业的业务场景中,比如银行的信贷审核,对债券募集说明书、招股说明书、企业年报的审核,金融咨询的一些信息抽取,合同智能审阅,简报的生成,以及政务的一些智慧审批,企业材料审批,自动填表,还有通信和互联网领域等等。

 

在RPA与AI的结合方面,陈文彬列举了几个应用场景。首先是财务报表识别与采集的场景。一般来说,企业在向银行申请授信的过程中,首先企业要向银行的客户经理提交企业的基本信息和财务报表,然后再由银行客户经理把这些纸质材料做电子化的处理。在处理的过程中,根据监管合规要求,成立时间超过3年的企业,需提交至少3年的财务报表,而每年提交的又包括三张资产负债表、现金流量表、损益表。表内数字一般是8位数以上,所以在整个采集过程中,除了耗时,还很容易出错。

 

基于此,达观给出了智能化的解决方案,首先通过OCR技术把财务报表扫描进行电子化的处理,面对不规范的报表,还需要再基于NLP的技术识别企业提交的很多会计科目的同义词。比如一个会计科目,A企业叫实收股本,B企业叫实收资本,但它们代表的都是同一个会计科目的含义,所以这里达观会用自然语言处理的技术去识别这类同义词,来提高整个信息采集的准确率和完整度。

 

最后再通过RPA技术将这些结构化的数据计算、填写在信息系统或信审报告里最终再进行校审。整套方案实施下来,财务报表信息采集和报告填写的工作流程,从4小时降低到10分钟以内。

 

自动写作

 

在写作的NLP技术方面,陈文彬讲解了如何自动生成一个商业案例报告,在这个场景中要去自动撰写商业报告,它的数据源有新闻资讯、企业年报、企业研报、募集说明书,这些信息数据源的格式也是多样的,包括图片,PDF,Word等等。这就需要综合的采用RPA、OCR和NLP三个技术进行数据的提取和加工处理,形成一开始生成这个报告所需要的知识库。陈文彬介绍,对于每一个知识点我们会通过时间、机构、科目、动作、数值5个要素进行整理。当完成所有的知识点采集以后用文本生成技术,自动的生成符合期望的商业案例报告。

 

在政务级场景方面,陈文彬举例,国际友人来到中国工作,他需要向相关机构申请工作许可证和居住许可证等多个证件。在实现“一网通办”的过程中,达观RPA实现了申请端和审批端的自动化。在申请端,用机器人去识别申请材料中的关键要素,再由机器人自动登录政务机关相关的信息系统完成填报。在机器人的帮助下,整个人工录入的信息采集从94项降低到27项。在审批端,申请材料由机器人进行完备性、一致性、合规性和真实性的预审,再由工作人员做复审,在这个方式下,审批时间从12天降低到5天内。

 

点击视频,观看陈文彬现场演讲内容

 

 

 

在演讲的最后,陈文彬用四句话表达了达观的愿景:千层网络、万卷诗书,寒暑相推,而岁成焉。

 

千层网络代表了达观拥有的过硬算法技术;
万卷诗书 表示着达观有的丰富数据;
寒暑相推 寓意达观将继续深耕行业,落实到每个场景;
最后的而岁成焉表示,需要达观数据将持之以恒,打造真正优秀智能、的数字员工,为企业提供最佳的数字化体验。 

未经允许不得转载:RPA中国 | RPA全球生态 | 数字化劳动力 | RPA新闻 | 推动中国RPA生态发展 | 流 > 达观数据陈文彬:深耕文本处理,重塑企业数字员工

后台-系统设置-扩展变量-手机广告位-内容正文底部