OpenAI最先进的机器视觉AI竟分不清ipod与苹果，愚弄它的竟是...

原创让创新获得认可将门创投今天

收录于话题

#AI很有趣

57个

OpenAI的最先进的机器视觉AI被手写笔记愚弄了，如果你手写一个ipod贴在一个水果上，视觉AI会真的把水果当成ipod！！

这间接反映了“对抗性图像”对依赖机器视觉的系统来说是一个真正的危险。例如，想在没有警告的情况下改变车道，只需在道路上粘贴某些贴纸，特斯拉自动汽车就会受到误导。OpenAI表示，视觉机器人采用的技术CLIP目前没有商用，不会造成任何损失，而CLIP技术的弱点恰恰是孕育更复杂视觉系统的温床。

来自机器学习实验室OpenAI的研究人员发现，他们最先进的计算机视觉系统可能会被简单如笔和纸这样的工具所欺骗。

如下图所示，简单地写下一个物体的名称并将其粘贴到另一个物体上就足以诱使软件错误识别它所看到的东西。

在排版攻击前失灵

CLIP不寻常的机器学习架构

OpenAI的研究人员在一篇博文中写道：“我们将这些攻击称为排版攻击。” 通过利用模型阅读文本的能力，即使是手写文本的照片也常常能欺骗模型。研究人员指出，这类攻击类似于可以欺骗商业机器视觉系统的“对抗性图像”，但制作起来要简单得多。

对于依赖机器视觉的系统而言，对抗性图像隐含真正的危险。例如，研究人员已经表明，他们可以欺骗特斯拉自动驾驶汽车中的软件，只需在道路上放置某些贴纸，就可以在没有警告的情况下改变车道。这种攻击对于从医疗到军事的各种人工智能应用来说都是一个严重的威胁。

这次袭击所带来的危险，目前没有什么可担心的。OpenAI的软件是一个名为CLIP的实验系统，还没有应用在任何商业产品中。事实上，CLIP不寻常的机器学习架构的本质，成为了使这次攻击成功的弱点。

CLIP中的“多模态神经元”会对物体的照片、草图和文本做出反应

CLIP旨在探索人工智能系统如何在庞大的图像和文本对的数据库上进行训练，学会在没有密切监督的情况下识别物体。在这种情况下，OpenAI使用了大约4亿个从互联网上收集的图像和文本对来训练CLIP，这一技术在1月份首次发布。

人工智能有望内化抽象概念？

单个脑细胞就能识别哈莉·贝瑞

3月，OpenAI的研究人员发表了一篇新的论文来描述CLIP的表现。他们发现机器学习网络中的单个组件，也叫做“多模态神经元”，不仅能对物体的图像做出反应，还能对素描、漫画和相关文本做出反应。

这一发现令人兴奋，它似乎映射了人类大脑对刺激的反应，即人类单个脑细胞不仅能对具体的例子做出反应，也能对抽象的概念做出反应。也就是说OpenAI的研究表明，人工智能系统可能会像人类一样内化这种知识。

将CLIP的表现和人类单个脑细胞对事物做出的反应联系在一起，我们可以通过UCLA的一篇文章《Single-Cell Recognition Research Finds a Halle Berry Neuron》简单了解一下。

正如世界各地的游客从任何角度都能一眼认出悉尼歌剧院的建筑；电影迷们一眼能认出奥斯卡奖得主哈莉·贝瑞，就因为她穿了“猫女”服装；甚至一想到她的名字的字母 “H-A-L-L-E-B-E-R-R-Y”都能在脑海中产生一种概念。

论文入口：

https://phys.org/news/2005-06-single-cell-recognition-halle-berry-neuron.html

那么，人类的大脑是如何将各种各样甚至是抽象的视觉图像转换成一个即时且一致可识别的概念的呢？加州大学洛杉矶分校和加州理工学院的神经科学家给出的回答是，这一过程始于一个单一脑细胞。

他们发现单个神经元能够识别人、地标和物体——甚至是名字的字母串。研究结果表明，一种一致的、稀疏的和明确的编码可能在将复杂的视觉表征转化为长期、抽象的记忆。

“个体神经元相当于‘思维细胞’的发现，是破解大脑认知系统编码的重要一步，”高级研究员伊萨克·弗里德博士说，“随着我们的理解不断加深，也许有一天我们能够制造出认知假体来弥补由于人脑损伤或疾病而丧失的部分功能，甚至修复记忆。”

在未来，CLIP技术可能会孕育更复杂的视觉系统，但现在这种方法还处于婴儿阶段。任何人都能准确无误地告诉你苹果和一张写有“苹果”字样的纸之间的区别，但像CLIP这样的软件却不能。CLIP的能力让程序在抽象层面上将文字和图像联系起来，这就造成了这个独特的弱点，Open AI将其描述为“抽象概念的谬误”。

再看另一个排版攻击的例子：CLIP中识别小猪存钱罐。CLIP不仅对小猪存钱罐的图片做出了反应，而且对一串美元符号也有反应。跟上面的例子类似，这意味着如果你给电锯叠图片加“$$$”的美刀符号串，就可以愚弄CLIP，让它识别对象为小猪存钱罐！