【好文推荐】一种预测流程剩余时间的可解释特征分层方法

后台-系统设置-扩展变量-手机广告位-内容正文顶部

流程剩余时间预测对于业务异常的预防和干预有着重要的价值和意义。现有的剩余时间预测方法通过深度学习技术达到了更高的准确率,然而大多数深度模型结构复杂难以解释预测结果,即不可解释问题。此外,剩余时间预测除了活动这一关键属性还会根据领域知识选择若干其它属性作为预测模型的输入特征,缺少通用的特征选择方法,对于预测的准确率和模型的可解释性存在一定影响。

01

方法概述

针对现存问题,本文提出了基于可解释特征分层模型(Explainable Feature-based Hierarchical Model,EFH Model)的流程剩余时间预测框架,如图1所示。具体而言,首先提出了特征自选择策略,通过基于优先级的后向特征删除和基于特征重要性值的前向特征选择,得到对预测任务具有积极影响的属性作为模型输入。然后提出可解释特征分层模型架构,通过逐层加入不同特征得到每层的预测结果,解释特征值与预测结果的内在联系。采用LightGBM (Light Gradient Boosting Machine)和LSTM (Long Short-Term Memory)算法实例化所提方法,框架是通用的不限于本文选用算法。

02

实验验证

本文在8个真实事件日志上与最新方法进行比较。实验结果表明所提方法能够选取出有效特征(见图2),提高了预测的准确率(见图3),并通过一个案例分析介绍展示了特征选择过程并可视化解释了预测结果。

03

案例分析

选用Helpdesk事件日志进行案例分析。图4是经过基于优先级的后向特征删除策略之后得到的特征重要性图,说明了各特征对预测结果的影响程度,提供了全局解释。图中只显示了对预测具有积极影响的属性,活动作为关键标志特征,不需要计算其特征重要性。

图4  Helpdesk的特征重要性

基于特征重要性值的前向特征选择策略的筛选过程见图5,其中No. 0是特征后向删除策略选取的特征组合和预测结果,No. 1-10展示了前向特征选择策略每次迭代使用的特征组合和预测结果。策略最终返回No. 8特征组合为最终结果,相比于No.0去除了hour和responsible_section得到了最小的MAE值,可以看出这两个属性单独去除都会增加预测误差,可两个属性同时去除则可以减少预测误差,说明特征间具有组合关系。

图片图5  基于特征重要性值的前向特征选择策略的筛选过程

图6和图7随机抽取了测试集中来自2条轨迹中2个事件的预测结果,并可视化出了每层的预测值。通过对比两图可以看出,两图中中Activity均为“Take in charge ticket”,第一层的预测值相同,但真实值相差较大,通过不同的allDuration值得到了更接近真实值的预测结果,allDuration较大时剩余时间会相对减少,而allDuration非常小则预测往往会偏大。其它属性也具有不同程度的积极影响,每个属性根据当前特征值的不同改变预测结果和影响趋势(例如图中位于真实值的上下两侧)。由于该真实日志的发布者对敏感隐私数据进行了脱敏处理,许多特征值由代号来进行表示。若在具体场景中知道Value1等代号所指的具体含义,则可对预测结果产生更丰富的解释。可以看出,我们的方法能够在事件层面上解释每一次预测的输入特征值对预测结果的影响。

图片

图6 'Case 404'第2个事件节点

图7 'Case 4505'第2个事件节点 

04

未来展望

未来研究工作主要在所提框架中采用更先进的深度学习模型替换当前的LSTM,以验证是否可以进一步提升预测准确率。其次,尝试确定具有组合关系的特征,将其放入同一层中以验证特征结合对预测结果的影响。此外,本文通过特征这一角度对预测的可解释性进行了探讨,可以继续探讨其它可解释的模型或方法,进一步提高模型的可信性。 

作者信息 

图片

未经允许不得转载:RPA中国 | RPA全球生态 | 数字化劳动力 | RPA新闻 | 推动中国RPA生态发展 | 流 > 【好文推荐】一种预测流程剩余时间的可解释特征分层方法

后台-系统设置-扩展变量-手机广告位-内容正文底部