算法不太擅长识别成人内容| HowStuffWorks

不难想象，机器人将艺术家乔治亚·奥基夫的标志性画作《黑、蓝、黄的灰线》(图为泰特现代美术馆)标记为成人内容。Rob Stothard/Getty Images

这个平台Tumblr已经决定不再允许成人内容．该禁令将于2018年12月17日生效，为了执行该禁令，Tumblr似乎部署了一个机器人令人无法理解地它的工作很糟糕，将无辜的内容标记为色情内容，这让用户和技术专家都想知道为什么这个机器人这么糟糕。部分原因是适度人工智能是一项极其艰巨的任务。

在决定哪些内容是可以接受的，哪些内容是不可以接受的过程中，许多微妙之处都必须被写下来，而我们在这方面的记录并不是很好。事实上，我们很难从一开始就确定某物是色情的。已故的美国最高法院法官波特·斯图尔特(Potter Stewart)在关于淫秽案件(Jacobellis诉俄亥俄州)的裁决中总结了这种情绪:我一看到就知道了．＂

事实证明，这种情绪在实践中和在意义上一样模糊。举个例子:男人勃起的照片本质上一定很淫荡，对吧?但是，如果这是关于阴茎勃起的医学说明呢?阴茎勃起通常是一种痛苦的情况，会导致勃起时间延长，并且出现在医学网站上。如果外阴的任何表现都是淫秽的，这是否意味着艺术家乔治亚·奥基夫(Georgia O'Keeffe)的作品需要在艺术史文章中被标记出来?她的花画经常被认为是对女性解剖学的视觉隐喻。

社交网络和内容平台经常遇到这种情况。例如，在2016年的一次重大公关事件中，Facebook审查普利策奖获奖照片越南战争期间，9岁的金福(Kim Phuc)在凝固汽油弹袭击中惊恐地逃跑;这张照片被挪威最著名的报纸刊登在一篇有关战争的文章中。相比之下，推特用户无法说服该平台关闭新纳粹账户直到2017年底．有着不同的哲学和看似随意的、与上下文无关的规则这甚至会让人类版主感到困惑在美国，也难怪算法不知道该标记什么。

Tumblr的系统似乎在寻找图像中暴露的皮肤，或者它认为可能是乳头或生殖器的形状。不幸的是，很多对人体非性感部位的良性特写超出了图像所显示的裸露肉体的阈值丹·法伦为Digg撰稿指出。某些物体，如树木，也可能看起来像阳具。法伦写道，在一个看似令人费解的案例中，一位风景摄影师拍摄的非常无辜的自然照片也被标记为有问题。然而，这对于这样的算法来说并不罕见。审查机器人的其他迭代已经实现了沙丘的标记图片还有海滩，因为根据他们的训练数据集，沙子的颜色和皮肤的颜色是相似的。

当你考虑到人类有多少种肤色时，这种系统性错误也是有道理的。从浅米色到接近黑色的颜色都是自然产生的，这取决于人工智能的训练方式或传感器的校准方式，它可能不知道更深的肤色甚至存在。因此，一个被训练用来识别和审查白人演员的色情图片的算法可能无法标记出黑皮肤模特的同样露骨的图片。对此，一个简单的解决方案是过度补偿，标记所有内容，并为误报辩护，称其比没有捕捉到足够多的成人内容要好，这似乎是Tumblr在努力净化其内容时所做的事情。Tumblr没有回复关于是否在审核之外还有另外一层的置评请求。

最终，还有待观察是否过度热心审查算法将驱动那些没有从平台上发布成人内容的用户，或者是否会被拨号。但Tumblr非常公开、咄咄逼人的过度宣传，突显了在线媒体管理的诸多困难。因此，错误将继续犯，而且频繁地犯。在我们弄清楚如何解决这些问题之前，人类将需要监督任何真正成功的适度努力。