BRIO抽象文本摘要任务新的SOTA模型 - 论文参考文献

TUhjnbcbe - 2023/9/25 21:50:00

北京手足癣专治医院 http://m.39.net/news/a_8598844.html

在SimCLS[2]论文发布后不久，作者又发布了抽象文本摘要任务的SOTA结果[1]。BRIO在上述论文的基础上结合了对比学习范式。

BRIO解决什么问题？

上图显示seq2seq架构中使用的传统MLE损失与无参考对比损失之间的差异。

我们通常使用最大似然估计(MaximumLikelihoodEstimation,MLE)损失来训练序列模型。但是论文认为我们使用的损失函数将把一个本质上可能有多个正确输出(非确定性)的任务的“正确”输出(确定性)赋值为零。训练和推理过程之间也存在差异，在生成过程中模型是基于自己之前的预测步骤，而不是目标总结。在推理过程中，当模型开始偏离目标(并变得更加混乱)时，就会造成更严重的偏差。

论文的贡献

他们提出了合并评价指标(例如ROUGE、BERTScore，…)的想法，这样模型就可以学习如何对摘要进行排序。这是通过使用多样化BeamSearch和生成多个候选(在论文中为16)来完成的。论文设计了一个两阶段的工作：1、使用一个预先训练的网络(BART)生成候选人，2、从中选择最好的一个。

对比损失（ctr）负责指导模型学习如何对给定文章的多个候选者进行排名。它将在微调过程中用于改进序列级别的协调。论文也说明了仅针对对比损失的微调模型不能用于生成摘要，因此将上述损失的加权值与交叉熵（xnet）损失相加，以确保令牌级别的预测准确性。（下图2）它被称为多任务微调损失（mul），虽然BRIO-Mul被描述为“双重角色”模型，但它其实是一个单一的模型，既可以生成摘要，也可以评估生成的候选者的质量。

变量γ控制对比损失对最终损失的贡献。对于不同的gamma值(0、0.1、1、2等)的研究表明，数值越大，收敛速度越快。此外是最佳的γ值，获得了最高的ROUGE评分。

BRIO-Loop微调方案

论文的研究使用BART预训练模型进行生成阶段。但是使用BRIO-Mul模型是更好的，因为它已经超越了BART的性能。（如上图3所示）这个循环可以进一步提高ROUGE分数。

结果

BRIO方法刷新了三个抽象摘要数据集:CNN/DailyMail、XSum和NYT的的SOTA结果。从下图4可以看出，该方法对于长摘要和短摘要的数据集都有较好的性能。值得注意的是，BRIO-Loop模型仅在CNN/DM上进行了测试，将R-1分数提高到了48.01。

这篇论文中的两个观察结果。\1)BRIO[1]和SimCLR[2]（之前的SOTA）模型之间的主要区别在于使用单一模型进行生成和评分，以最大限度地提高BRIO中的参数共享，SimCLR使用RoBERTa作为评估模型。\2)XSum基准测试使用PEGASUS作为基础模型（而不是BART），这表明该方法可以独立于模型的选择使用。

作者在分析他们的主张方面做得很好。在下一段中提到了其中的几个重点的观点。

增加Beamsearch的宽度：所提出的模型在k值较高的情况下表现更好。特别是k=时与使用k=4生成最佳输出的原始BART不同。

Few-shotFine-tuning：结果表明，在CNN/DM数据集上只有个（随机选择的）样本和PEGASUS在XSum上只有0个样本时，BRIO-few可以胜过BART。

新的n-gram：与BART相比，BRIO在摘要中生成更多新的n-gram。

文中还有更多的分析，比如Token-levelCalibration、TrainingwithdifferentMetric、FilteringInferenceNoise，我就不一一赘述了，但强烈推荐大家阅读。

作者能用一篇写得很好的分析论文来支持他们的想法。他们还在GitHub上发布了代码，帮助我们理解了其中的细节，这是一本很棒的读物。

引用

[1]Liu,Y.,Liu,P.,Radev,D.,Neubig,G.().BRIO:BringingOrdertoAbstractiveSummarization.arXivpreprintarXiv:..

[2]Liu,Y.,Liu,P.().Simcls:Asimpleframeworkforcontrastivelearningofabstractivesummarization.arXivpreprintarXiv:..