达观数据陈运文：NLP+RPA潜力无穷，做文本智能处理专家--RPA中国 | RPA全球生态 | 数字化劳动力 | RPA新闻 | 推动中国RPA生态发展

视频、语音、文本是拉动人工智能发展的三驾马车，但是，相比视频和语音，文本智能处理更难突破。成立于2015年的达观数据是一家专注于文本智能处理的公司，基于自然语言处理、知识图谱等技术，为客户提供文本自动抽取、审核、纠错、搜索、推荐、写作等智能软件系统，实现业务流程自动化，提高企业效率。近日，达观数据CEO陈运文博士向亿欧分享了文本智能处理技术和应用现状。

文本挖掘工作一半是技术一半是艺术

在人类过去大概100万年的进化过程中，人类文明迭代速度很慢，但文字的出现使其陡然加速，为人类文明带来了光和热。随着技术的发展，文字处理工作也由人工转化为计算机。文本挖掘工作经历了第一代符号主义、第二代语法规则、第三代统计学习，目前处于第四代深度学习阶段，将实现用一个复杂的模型模拟人脑神经网络运作。

在文本挖掘技术上，达观数据一直走在行业前沿。达观数据文档审核系统2.0在深度学习的基础上采用了迁移学习和增强学习，可实现注意力模型、BERT模型等，这也被称为4.5代技术。陈运文表示，4.5代技术的使用可以加强机器的泛化能力，即提高机器对于文字的自适应理解能力或者说举一反三能力，这将大大缩减训练成本。

陈运文认为：“文本挖掘工作，一半是技术，一半是艺术。”文本挖掘工作需要慢工出细活，通过对文字的深入理解来探讨如何使用数学模型更好的进行文字解读。但是，从数学模型角度来讲，很多时候文字的运用是不符合常理的。例如，“天很冷，能穿多少穿多少”和“天很热，能穿多少穿多少”，同样是“能穿多少穿多少”，但表达的是两个意思。所以文本挖掘工作，它既是一个数学问题，通过后台大量的数学运算对文字进行解读，同时也需要将语言学等偏艺术领域的知识纳入进去，才能让计算机更好的解读文字，甚至代替人完成一部分文字撰写的工作。

NLP+RPA解放白领的手和脑

陈运文创业之前曾担任盛大文学首席数据官、腾讯文学高级总监、百度核心技术研发工程师等职位，一直从事文本挖掘相关工作。他发现，工作中有60%左右的内容都是与文字相关，文字资料的处理和应用在互联网企业内部虽然发挥了很大价值但没有实现价值最大化。反而，在一些其他行业，人工智能技术应用还处于早期状态，大量工作靠人手工记录，NLP和RPA的结合将可以实现白领部分工作的自动化。

NLP (Natural Language Processing) ，自然语言处理可以让计算机模拟白领的大脑运转，实现阅读和理解；RPA（Robotic Process Automation），机器人流程自动化可以模拟白领的手去进行鼠标和键盘的操作，实现自动化。如果只有RPA技术，计算机只能承担初级的工作，但是有了NLP技术的帮助，就可以做更复杂的任务，真正承担起虚拟员工的角色。

陈运文认为，NLP+RPA在中国大有可为，将是一片蓝海市场。首先，技术走向成熟，国内RPA技术虽刚刚起步，但国外已经有许多成熟的应用。同时，UiPath、BluePrism等国外RPA企业也在通过不同的形式向中国市场渗透。其次，NLP+RPA可以明显降低企业成本，带来高回报率。根据IBM在《使用人工智能优化机器人流程自动化的价值》报告中的估算，通过RPA可实现 30% 到 50% 的投资回报率 (ROI)。最后，市场规模大。据《全球人工智能市场2017-2021》报告披露的数据，RPA的市场规模预计将在2024年达到50亿美元，复合增长率达到61.3%。在亚太地区，RPA的市场规模预计在2021年达到8.17亿美元，在此期间的增长率将达到181%。

金融行业是NLP+RPA落地的重要领域

NLP+RPA主要替代一些高重复、标准化、规则明确且高准确率要求的工作。金融行业过半员工在与文本合同打交道，但是他们90%的工作都是可以被替代的。

以信贷业务为例，贷前基于OCR可以帮助银行工作人员对提交材料进行人物、事件、数值等关键信息抽取和审核；贷中支持合同多版本比对，对合同关键要素进行智能审核，防止阴阳合同风险；贷后对贷款项目评估报告关键信息提取及结构化，并对企业进行实时舆情分析监控，实现有效跟踪和监督。

目前，达观数据已服务招商银行、中国平安、光大银行等数十家金融机构。陈运文认为，金融行业对NLP+RPA的需求非常大，RPA具有非侵入性的特点，以外挂/插件的形式部署在客户现有系统上，不影响其原有的成熟IT架构，部署成本较低。考虑到银行的个性化定制需求，达观在产品设计之初就特别重视产品的可扩展性。一方面，产品本身就支持客户进行自定义规则，满足自定制需求；另一方面，达观也会不断总结行业知识图谱，升级产品，通过连接银行内网的形式，帮助银行升级语料库和算法模型。

未来：文本智能处理专家

陈运文表示，我们将坚定的在文本智能处理这条路上走到头，成为“文本智能处理专家”。2019年达观数据一方面不断积累海量的文本资料让计算机训练，另一方面不断深挖现有的算法模型，重视基础技术的研发工作。目前，达观数据已与北京大学、复旦大学、上海财经大学等高校建立起了产学研合作关系，未来将与更多的高校合作，将学术界的先进成果与工程界的应用技术结合在一起，更好的突破文字语言理解工作

继续阅读：