刚刚ACL最佳论文奖出炉刘群团队获最佳长文奖

发布日期:2019-10-30 02:57   来源:未知   

  其中包含一篇最佳长论文、一篇最佳短论文、五篇杰出论文、一篇最佳 Demo 论文。

  值得注意的是,最佳长论文奖、最佳短论文奖以及两篇杰出论文奖(共5篇)一作皆为华人。

  其中最佳长论文奖由张文(计算所)、冯洋(计算所)、孟凡东(腾讯)、Di You(Worcester)和刘群(华为诺亚方舟)获得。

  南京理工大学夏睿团队和港科大的 Pascale Fung 团队分别获得了杰出论文奖。

  论文摘要:神经机器翻译(NMT)是以上下文为条件来预测下一个词,从而顺序地生成目标词。在训练时,它以ground truth词汇作为上下文进行预测;而在推理时,它必须从头开始生成整个序列。反馈上下文信息的这种差异会导致误差累积。此外,词级训练要求所生成的序列与ground truth序列之间严格匹配,这导致对不同的但合理的翻译的过度校正。在本文中,我们在模型训练中不仅从ground truth序列还从预测序列中来采样上下文,其中预测序列是用句子级最优来选择的。我们在Chinese-English 和 WMT14 English-German的翻译任务的实验结果表明,我们的方法可以在多个数据集上实现显著的改进。

  中文标题:“你知不知道佛罗伦萨全都是游客?”,评价最先进的说话人承诺模型

  论文摘要:当一个人,比如 Mary,问你「你知不知道佛罗伦萨全都是游客?」,我们会认为她相信佛罗伦萨全都是游客;但如果她问「你觉得佛罗伦萨游客多吗?」,我们就不会这样认为。推断说话人承诺(或者说事件真实度)是问答和信息提取任务中的关键部分。在这篇论文中,作者们探索了这样一个假说:语言学信息的缺乏会影响说话人承诺模型中的错误模式。他们的验证方式是在一个有挑战性的自然语言数据集上分析模型错误的语言学关联性。作者们在 CommitmentBank 这个由自然英语对话组成的数据集上评价了两个目前最好的说话人承诺模型。CommitmentBank 数据集已经经过了说话人承诺标注,蓝宝石R7 350 2G D5 白金版点评!方式是在 4 种取消蕴含的环境中向着时态嵌入动词(比如知道、认为)的补充内容进行标注。作者们发现,厨房电器清洗好帮手洁家邦重油净,一个带有语言学知识的模型能展现比基于 LSTM 的模型更好的表现,这表明如果想要在这样的有挑战性的自然语言数据中捕捉这些信息的话,语言学知识是必不可少的。对语言学特征的逐项分析展现出了不对称的错误模式:虽然模型能在某些状况下得到好的表现(比如否定式),但它很难泛化到更丰富的自然语言的语言学结构中(比如条件句式),这表明还有很大提升的空间。

  论文摘要:情绪原因提取(Emotion cause extraction ,ECE)是一项旨在提取文本中某些情绪背后潜在原因的任务,近年来由于其广泛的应用而受到了很多关注。然而,它有两个缺点:1)情绪必须在ECE原因提取之前进行标注,这极大地限制了它在现实场景中的应用;2)先标注情绪然后提取原因的方式忽略了它们是相互指示的事实。在这项工作中,我们提出了一项新任务:情绪 - 原因对提取(emotion-cause pair extraction ,ECPE)。这个任务旨在提取文本中潜在的情绪-原因对。我们提出了两步法来解决这个新的ECPE任务。首先通过多任务学习单独地进行的情绪提取和原因提取,然后进行情绪-原因配对和过滤。基准情绪-原因语料库的实验结果证明了ECPE任务的可行性以及我们方法的有效性。

  论文摘要:摘要研究主要由经验方法驱动,手工精心调制的系统在在标准数据集上表现良好,但其中的信息重要性却处于隐含状态。我们认为建立重要性(Importance)的理论模型会促进我们对任务的理解,并有助于进一步改进摘要系统。为此,我们提出了几个简单但严格定义的概念:冗余(Redundancy),相关性(Relevance)和信息性(Informativeness)。这些概念之前只是直观地用于摘要,而重要性是这些概念统一的定量描述。此外,我们提供了建议变量的直观解释,并用实验证明了框架的潜力以知道后续工作。

  论文摘要:过度依赖领域本体和缺乏跨领域知识共享是对话状态跟踪的两个实际存在但研究较少的问题。现有方法通常在在推理过程中无法跟踪未知slot 值,且通常很难适应新领域。在本文中,我们提出了一个可转换对话状态生成器(Transferable Dialogue State Generator,TRADE)它使用复制机制从话语中生成对话状态,当预测在训练期间没有遇到的(domain,slot,value)三元组时可以促使知识转移。我们的模型由一个话语编码器、slot gate、状态生成器组成,它们跨域共享。实验结果表明,TRADE在人类对话数据集MultiWOZ的五个领域中实现了最先进的联合目标准确率48.62%。此外,我们通过模拟针对未见过的领域的zero-shot和few-shot对话状态跟踪,证明了其传输性能。在其中一个zero-shot域中TRADE实现了60.58%的联合目标准确率,并且能够适应少数几个案例而不会忘记已经训练过的域。

  论文摘要:语音和语言技术的标准做法是根据在一个测试集上的性能来对系统进行排名。然而很少有研究人员用统计的方法来测试性能之间的差异是否是由偶然原因造成的,且很少有人检查同一个数据集中分割出不同的训练-测试集时的系统排名的稳定性。我们使用了2000年至2018年间发布的九个词性标注器进行复现实验,这些标注器每个都声称在广泛使用的标准的分割方式上获得了最佳性能。然而当我们使用随机生成的训练-测试集分割时,根本无法可靠地重现某些排名。我们在此建议使用随机生成的分割来进行系统比较。

  论文摘要:我们提出了zero-shot实体链接任务,其中mentions必须链接到没有域内标记数据的未曾见过的实体。这样做的目的是实现向高度专业化的领域的鲁棒迁移,也因此我们不会假设有元数据或别名表。在这种设置中,实体仅通过文本描述进行标记,并且模型必须严格依赖语言理解来解析新实体。首先,我们表明对大型未标记数据进行预训练的阅读理解模型可用于推广到未曾见过的实体。其次,我们提出了一种简单有效的自适应预训练策略,我们将其称为域自适应预训练(domain-adaptive pre-training ,DAP),DAP可以解决与在新域中链接未见实体的域迁移问题。我们在为此任务构建的新数据集上进行的实验,显示了DAP在强预训练基线(包括BERT)上有所改进。本文提供了数据集和代码。

  论文摘要:我们介绍基于PyTorch的开源框架OpenKiwi,这个框架可用于翻译质量评估。OpenKiwi支持单词级和句子级质量评估系统的训练和测试,实现了WMT 2015-18 质量评估比赛中的最佳系统。我们在WMT 2018(英-德 SMT 和NMT)的两个数据集上对OpenKiwi进行了基准测试,在单词级任务达到最先进的水平,句子级任务中也能够接近最先进的水平。