Facebook悬赏征集恶意图文检测算法，净网行动有多难？

原创让创新获得认可将门创投今天

收录于话题

#AI很有趣 35

#Facebook 6

From: VentureBeat; 编译: Shelly

今年5月，Facebook发起了利用AI检测恶意Memes的挑战赛，奖金高达100,000美元，旨在鼓励研究人员研发出能识别恶意Memes的算法系统。

挑战赛排行榜显示，即使是表现最出色的AI系统，在识别带有攻击色彩的Memes时也逊于人工审核。毕竟，检测此类Memes是一个多模态问题，需要对图片、图片中的文字以及两者之间的关联有一个综合的判断，这对如何推进AI的分类学习提出了不小的挑战。

今年5月，Facebook发布了AI检测恶意Memes的挑战：Hateful Memes Challenge。其奖金高达10万美元，用来奖励识别恶意表情包的最佳算法。

如今，这个长达一年的比赛的第一阶段已经过半，收到了来自全球各地数百个团队的3000多份作品。数量虽然让人振奋，但效果只能说是差强人意，因为排名最高的几个算法的成绩仍然落后于人工筛查的准确度。

机器学习VS人类本能

检测恶意Memes是一个多模态学习 (Multimodal Learning) 过程，算法需要对照片、照片中的文字以及上下文有一个整体的、本质上的理解。

多模态是指面向对同一对象、在同一时间、通过两种及以上的信息收集方式获得的两种或两种以上的多种数据。为了创造一个与人类相当的人工智能，我们需要人工智能去理解、解释和推理多模态信息。多模态机器学习的目的是建立能够处理和关联来自多种模态信息的模型。

和机器学习不同，对于人类来说，理解表情包中的图文信息及情感色彩是一种本能，比如说，当分别看待“看看你被多少人关爱着”的文字和“荒漠”的图片时，人们会自然地会觉得这各自独立的两者都无伤大雅；但当上述文字和图片搭配在一起，人们就会感知到其中的嘲讽和恶意。目前也只有人类会自然地联想到文字和图片组合后的内涵。

恶意Memes

Facebook为这场比赛提供了10,000张来自数据集的图像，一群经过训练的人在识别恶意Memes的测试中达到了84.70%的准确率。截至本周，排行榜上排名前三的算法准确度分别为85.8％、85.6％和83.4％，而Visual BERT COCO 5月份基准模型的准确率是64.7％。

尽管排名靠前的算法已经打败了Visual BERT COCO，但在最高端的比拼中，它们仅略优于人类表现。

如果说网络上的恶意Memes有100万张，准确率现仅85.8％的AI系统将漏筛142,000个恶意表情包，那么就意味着，即使Facebook采用了比赛成绩为第一名的算法，仍有无数用户暴露在令人讨厌、充满种族歧视的表情包环境下。

用一场【游戏派对】告别2020吧！

AI玩家的聚会，就在本周六(12月19日)

点击报名，一起来嗨~

难点与挑战：图文相关的建模

对AI系统而言，为什么归类恶意表情包这么难呢？

这真的很困难。在这一过程中，不仅人工筛查员需要经过培训，而且据统计，Memes注解者平均需要花27min来判断一个表情包是否属于“令人讨厌”的范畴。

要理解AI分类的挑战性，首先需要理解多模态系统的工作原理。

在任何多模态系统中，为了学习组合的嵌入空间或代表图像和文本特征的变量所占空间，计算机视觉和自然语言处理模型通常是在数据集中一起训练的。为了构建可以检测到恶意Memes的分类器，研究人员需要对图像和文本之间的相关性进行建模，以帮助系统找到两种模式之间的结合方式，这种结合方式会直接影响AI系统准确判断一个表情包是否带有恶意攻击性。

一些多模态系统利用“双流”架构，即晚期融合，在融合视觉和语言信息之前分别对其进行处理。其他的则采用“单流”架构 (也称为“早期融合”)，该架构在较早的阶段将两种模式直接结合在一起，图像和文本独立地通过编码器传递，以提取融合后进行分类的特征。无论采用哪种结构，最先进的系统都采用一种称为“attention”的方法，根据它们的语义含义对图片和文字之间的关系进行建模，从而越来越专注于各种图像中最相关的区域。

虽然大多数参赛者还不打算透露算法的核心内容，不过比赛排名第十三名、来自IBM和马里兰大学的研究人员分享了他们的办法。