近日,为了解决AI精准提取文章摘要这个难题,Google Brain团队发布了一个名为SummAE的智能摘要系统。该系统只需要少量的训练数据,便可以对文章进行精确的概括。尽管无法与人工水平相比,但研究人员声称它在基线上有了明显的改进。
SummAE包含一个自动降噪编码器,该编码器在共享空间中对目标文本的句子和段落进行编码(即生成其数字表示)。在其输入之前,该编码器可对每一个句子或段落进行解码,然后系统通过对每一个解码的内容自动生成摘要内容。
Google Brain研究人员发现,训练自动编码器的大多数传统方法,会产生冗长多余的摘要句子。为了摆脱其原始表达方式,该团队采用了两种去噪方法,随机掩盖记号和排列段落中句子的顺序。这种方法极大地增加了训练示例的数量。同时还开发了一个对抗性审核组件,该组件可以区分句子和段落,此外还有两个预训练功能,可优化编码器在提取句子后在段落中的叙述方式。
研究人员在ROCStories上训练了SummAE的三种不同变体,这是一整套自成体系、多样化、非技术性。他们将原始的98,159个培训案例分为三个独立的培训集、验证集和测试集,并收集了三个人工摘要,每个摘要分别包含500个验证示例和500个测试示例。
在进行了100,000次预训练后,研究小组报告显示,最新神经模型明显优于传统的基线提取句生成器。此外,在一项涉及通过Amazon Mechanical Turk招聘的评估人员的定性研究中,志愿者对三种SummAE模型摘要进行了评估,超过80%的人员对SummAE的结果感到惊讶。
Google Brain表示,段落重建显示出一定的连贯性,尽管在神经生成模型中经常会出现一些歧义和错误。由于摘要是从与重建相同的潜在向量中解码的,因此对其进行改进会产生更精准的摘要。
未经允许不得转载:RPA中国 | RPA全球生态 | 数字化劳动力 | RPA新闻 | 推动中国RPA生态发展 | 流 > Google发布智能摘要系统SummAE,可自动生成精准文章摘要
热门信息
阅读 (14728)
1 2023第三届中国RPA+AI开发者大赛圆满收官&获奖名单公示阅读 (13753)
2 《Market Insight:中国RPA市场发展洞察(2022)》报告正式发布 | RPA中国阅读 (13055)
3 「RPA中国杯 · 第五届RPA极客挑战赛」成功举办及获奖名单公示阅读 (12964)
4 与科技共赢,与产业共进,第四届ISIG中国产业智能大会成功召开阅读 (11567)
5 《2022年中国流程挖掘行业研究报告》正式发布 | RPA中国