Google发布智能摘要系统SummAE,可自动生成精准文章摘要

后台-系统设置-扩展变量-手机广告位-内容正文顶部

近日,为了解决AI精准提取文章摘要这个难题,Google Brain团队发布了一个名为SummAE的智能摘要系统。该系统只需要少量的训练数据,便可以对文章进行精确的概括。尽管无法与人工水平相比,但研究人员声称它在基线上有了明显的改进。

 

 

 

SummAE包含一个自动降噪编码器,该编码器在共享空间中对目标文本的句子和段落进行编码(即生成其数字表示)。在其输入之前,该编码器可对每一个句子或段落进行解码,然后系统通过对每一个解码的内容自动生成摘要内容。

 

Google Brain研究人员发现,训练自动编码器的大多数传统方法,会产生冗长多余的摘要句子。为了摆脱其原始表达方式,该团队采用了两种去噪方法,随机掩盖记号和排列段落中句子的顺序。这种方法极大地增加了训练示例的数量。同时还开发了一个对抗性审核组件,该组件可以区分句子和段落,此外还有两个预训练功能,可优化编码器在提取句子后在段落中的叙述方式。

 

研究人员在ROCStories上训练了SummAE的三种不同变体,这是一整套自成体系、多样化、非技术性。他们将原始的98,159个培训案例分为三个独立的培训集、验证集和测试集,并收集了三个人工摘要,每个摘要分别包含500个验证示例和500个测试示例。

 

在进行了100,000次预训练后,研究小组报告显示,最新神经模型明显优于传统的基线提取句生成器。此外,在一项涉及通过Amazon Mechanical Turk招聘的评估人员的定性研究中,志愿者对三种SummAE模型摘要进行了评估,超过80%的人员对SummAE的结果感到惊讶。

 

Google Brain表示,段落重建显示出一定的连贯性,尽管在神经生成模型中经常会出现一些歧义和错误。由于摘要是从与重建相同的潜在向量中解码的,因此对其进行改进会产生更精准的摘要。

未经允许不得转载:RPA中国 | RPA全球生态 | 数字化劳动力 | RPA新闻 | 推动中国RPA生态发展 | 流 > Google发布智能摘要系统SummAE,可自动生成精准文章摘要

后台-系统设置-扩展变量-手机广告位-内容正文底部