ACL 2020最佳论文直播重磅来袭，二作学霸小姐姐驾到！

在这个万事万物都需要准确“评价”和“度量”的时代，NLP 模型也不例外。

正所谓工欲善其事必先利其器，只有对模型建立正确的评估方法，其本质和内在规律才能够被剖析出来，研究者也才能有的放矢地对其进行深入探索并解决相关问题。

在今年的ACL 2020上一举拿下最佳论文奖的论文，便针对NLP 模型提出了一种全新的测试方法——CheckList，令人记忆犹新。

论文地址：https://www.aclweb.org/anthology/2020.acl-main.442/

开源代码：https://github.com/marcotcr/checklist

当前NLP 模型最常采用“留出法”（held-out）这一评估方法，然而这种方法往往会高估模型的泛化能力。与此同时，现有的其他评估方法则通常只针对某一特定任务或某种特定的模型行为。

对此，最佳论文团队受软件工程行为测试原理的启发，提出了 CheckList 测试方法。具体而言，它作为一种模型测试框架，可以将行为测试抽象为一个独立于具体任务的“模型性能x测试类型”的矩阵，让用户可以通过填表全方位地设计、构想各种测试。

不仅如此，CheckList作为一个开源软件，也提供了包括可视化、填词建议等实用组件，帮助用户快速生成大量和多样化的测试用例。在用户实验中，使用CheckList的模型错误，几乎是没使用它的模型的三倍。

值得关注的是，这篇最佳论文的二作，还是一位华人学生——正在华盛顿大学读博士四年级的吴彤霜。她师从Jeffrey Heer和Dan Weld，主要研究方向是通过结合人机交互的技术，来探索和改进自然语言处理模型的训练和评估步骤，最终帮助用户更有效、系统地与他们的模型进行交互。

2020年8月11日上午10:30，在AI 科技评论重磅推出的ACL 2020最佳论文直播中，学霸小姐姐吴彤霜将亲自为大家带来详细的论文解读。

届时，与吴彤霜一同现身的还有来自哈尔滨工业大学社会计算与信息检索研究中心（SCIR）的在读博士生覃立波。他将作为本次直播的主持人，与吴彤霜进行一场思想的碰撞！

直播主题：不止于准确性：使用CheckList为NLP模型进行行为测试

直播嘉宾：吴彤霜，本科毕业于香港科技大学，目前在华盛顿大学读博士四年级，导师为Jeffrey Heer和Dan Weld。主要研究方向是通过结合人机交互的技术，来探索和改进自然语言处理模型的训练和评估步骤，最终帮助用户更有效、系统地与他们的模型进行交互。

主持人：覃立波（忆臻），哈尔滨工业大学社会计算与信息检索研究中心（SCIR）在读博士生，导师车万翔教授，研究兴趣为任务型对话系统，相应研究成果发表在ACL、EMNLP、AAAI、IJCAI上。

如何加入？

扫码关注[ AI研习社顶会小助手] 微信号，发送关键字“ACL 2020+直播”，即可进群观看直播和获取课程资料。

阅读原文，直达“ ACL ”小组，了解更多会议信息

阅读原文