ACL 2020最佳论文直播重磅来袭,二作学霸小姐姐驾到!
AI科技评论
今天
在这个万事万物都需要准确“评价”和“度量”的时代,
NLP
模型也不例外。
正所谓工欲善其事必先利其器,只有对模型建立正确的评估方法,其本质和内在规律才能够被剖析出来,研究者也才能有的放矢地对其进行深入探索并解决相关问题。
在今年的ACL 2020上一举拿下最佳论文奖的论文,便针对
NLP
模型提出了一种全新的
测试
方法——CheckList,令人记忆犹新。
论文地址:https://www.aclweb.org/anthology/2020.acl-main.442/
开源代码:
https://github.com/marcotcr/checklist
当前
NLP
模型最常采用“留出法”(held-out)这一评估方法,然而这种方法往往会高估模型的泛化能力 。与此同时,现有的其他评估方法则通常只针对某一特定任务或某种特定的模型行为。
对此,最佳论文团队受
软件
工程行为
测试
原理的启发,提出了 CheckList 测试方法。具体而言,它作为一种模型测试框架,可以将行为测试抽象为一个独立于具体任务的“模型性能x测试类型”的矩阵,让用户可以通过填表全方位地
设计
、构想各种测试。
不仅如此,CheckList作为一个开源
软件
,也提供了包括可视化、填词建议等实用组件,帮助用户快速生成大量和多样化的
测试
用例。在用户实验中,使用CheckList的模型错误,几乎是没使用它的模型的三倍。
值得关注的是,
这篇最佳论文的二作,还是一位华人学生——正在华盛顿大学读博士四年级的吴彤霜。
她师从Jeffrey Heer和Dan Weld,主要研究方向是通过结合
人机交互
的技术,来探索和改进
自然语言处理
模型的训练和评估步骤,最终帮助用户更有效、系统地与他们的模型进行交互。
2020年8月11日上午10:30,在
AI
科技评论重磅推出的ACL 2020最佳论文直播中,学霸小姐姐吴彤霜将亲自为大家带来详细的论文解读。
届时,与吴彤霜一同现身的还有来自
哈尔滨工业大学
社会计算与信息检索研究中心(SCIR)的在读博士生覃立波。他将作为本次直播的主持人,与吴彤霜进行一场思想的碰撞!
直播主题:不止于准确性:使用CheckList为
NLP
模型进行行为
测试
直播嘉宾:
吴彤霜,本科毕业于
香港科技大学
,目前在华盛顿大学读博士四年级,导师为Jeffrey Heer和Dan Weld。主要研究方向是通过结合
人机交互
的技术,来探索和改进
自然语言处理
模型的训练和评估步骤,最终帮助用户更有效、系统地与他们的模型进行交互。
主持人
:覃立波 (忆臻),
哈尔滨工业大学
社会计算与信息检索研究中心(SCIR)在读博士生,导师车万翔教授,研究兴趣为任务型对话系统,相应研究成果发表在ACL、EMNLP、AAAI、IJCAI上。
直播时间:
2020年8月11日上午10:30
如何加入?
扫码关注[
AI
研习社顶会小助手] 微信号,发送关键字“ACL 2020+直播”,即可进群观看直播和获取课程资料。
阅读原文,直达“ ACL ”小组,了解更多会议信息
预览时标签不可点
阅读原文
阅读
分享
赞
在看
已同步到看一看
写下你的想法
前往“发现”-“看一看”浏览“朋友在看”
前往看一看
看一看入口已关闭
在“设置”-“通用”-“发现页管理”打开“看一看”入口
我知道了
已发送
取消
发送到看一看
发送
ACL 2020最佳论文直播重磅来袭,二作学霸小姐姐驾到!
最多200字,当前共
字
发送中