可用于检查实验仇恨言论,识别表情包里的失当

作者:互联网

原标题:Facebook 利用 AI 识别表情包里的不当内容

9月15日消息,《连线》网站撰文指出,Facebook名为Rosetta的人工智能技术平常可分析数十亿张包含文本的图像,能够分析表情包,但它能像人类那样理解表情包的内涵吗?

图片 1

图片 2

以下是文章主要内容:

北京时间9月12日,Facebook宣布开发出一款新型人工智能系统,可用于检测仇恨性言论。美国科技媒体CNET认为,这款“武器”的推出可谓恰逢其时,在Facebook面临内容审查的当下,会大有用处。这一系统的代号为“Rosetta”,可帮助计算机阅读和理解每天发布到社交网络的数十亿张图像和视频。凭借这套新系统,Facebook可以更容易地发现平台上哪些内容违反了反仇恨言论规则。

Facebook 的审查人员无法审核人们在平台上发布的每一张图片,因此 Facebook 希望通过人工智能来帮助他们。在一篇博客文章中,Facebook 介绍了一个名为 Rosetta 的系统,它可以利用机器学习来识别图像和视频中的文本,然后将其转录为机器可读的内容。特别地,Facebook 发现这个工具有助于在表情包上转录文本。

每天都有数十亿的文本帖子、照片和视频被上传到社交媒体上,这是人类审核员无法全面筛选的一个信息量级。因此,Facebook和YouTube等公司长期以来一直依赖人工智能来帮助解决垃圾邮件和色情内容等问题。

通常情况下,计算机使用一种名为光学字符识别的方法来识别图片或视频中的内容,但是,由于Facebook网信息庞大——每个月有22亿人使用该社交网络——OCR的缺点暴露无遗。因此,Facebook宣布建立一套更大规模的系统。该系统同时适用于Facebook和Instagram,还可用于改进照片搜索和新闻流的表面内容。Rosetta通过从十多亿个图像和视频帧中实时地提取不同语言的文本,对网站内容实施监测。

文本转录工具并不是什么新鲜事,但 Facebook 却面临着不同的挑战,因为其平台量级巨大,以及其上的图像种类繁多。根据官方说法,Rosetta 现在已经上线,每天会从 Facebook 和 Instagram 上抓取 10 亿个图像和视频帧文本进行转录。

不过,对于机器来说,审核像白人至上主义的表情包这样的东西可能更具挑战性,因为这项任务需要同时处理几种不同的视觉元素。自动化系统需要检测和“读取”叠加在照片上的文字,并分析图像本身。表情包也是一种复杂的文化产物,很难脱离语境去理解。尽管它们带来了挑战,但一些社交平台已经在使用人工智能来分析表情包,其中包括社交网络巨头Facebook。Facebook本周分享了它如何使用一种名为Rosetta的工具来分析包含文本的照片和视频的细节。

随着Facebook在社交网络上对内容进行审查,这套系统肯定会派上用场。此前,Facebook网曾被指责对缅甸、斯里兰卡和印度的暴力事件负有一定责任。上个月,该社交网络表示,由于在Facebook平台发现虚假信息,该公司正在采取行动,阻止缅甸的“仇恨传播”,截止到目前,鉴于缅甸国内针对罗辛亚穆斯林的种族暴力仍在继续,Facebook已删除了18个帐户和52个与缅甸军方有关的网页。

目前还不清楚 Facebook 正在对这些数据进行怎样的处理。文章指出,这对于照片搜索和屏幕阅读器等基本功能非常有用。但看起来 Facebook 也开始把它放在更大的目标上,比如弄清楚什么样的内容更吸引人,更重要的是,可以找出哪些表情包、图片或视频中存在仇恨、侮辱等不当言论。

Facebook表示,它已经在使用Rosetta来自动检测违反其仇恨言论政策等规定的内容。该公司本周还宣布,在该工具的帮助下,它正在扩大其第三方事实核查的努力,纳入照片和视频,而不仅仅是基于文本的文章。Rosetta将自动检查包含文本的图像和视频是否曾被标记为错误,从而帮助完成审查。

今年7月,Facebook表示将开始删除旨在煽动或加剧暴力的虚假信息,包括书面帖子和受人操纵的图像。此前,Facebook只禁止直接调用暴力内容,当前的新政策还涵盖有可能激起身体伤害的假新闻。

Facebook表示,文本提取和机器学习正在被用于“自动识别违反我们的仇恨言论政策的内容”,而且该系统还支持多语言。鉴于 Facebook 众所周知的内容审核问题,一个能够自动标记可能有问题的图像的功能,对于 Facebook 来说应该会很有用。

Rosetta通过将光学字符识别技术与其他机器学习技术相结合来处理照片和视频中的文本。首先,它使用OCR来识别文本在表情包或视频中的位置。你可能以前用过类似OCR的东西;它可以让你快速浏览纸质表单,并将其转换为可编辑的文档。该自动化程序知道文本块的位置,并能将它们与你应该签名的地方区分开来。

上周,Facebook首席运营官雪莉·桑德伯格和Twitter首席执行官杰克·多尔西一起到国会作证,就公司为保护用户而设立的内容审查政策和安全措施进行阐述。

Facebook 利用 AI 识别表情包里的不当内容动点科技。返回搜狐,查看更多

一旦Rosetta知道文本在哪里,Facebook就会使用一个神经网络来转录文本并理解其含义。然后,它可以将文本传输到其它的系统,比如一个检查表情包是否与已经被揭穿的病毒骗局有关的系统。

Facebook的首席执行官马克·扎克伯格过去经常说,正在寻求利用人工智能技术,以便积极主动地检测平台上令人讨厌的内容,而不是等待人们去标记举报。但是当该公司开发这项技术时,他又说,社交网络正在雇用两万名人类主持人来监管平台上的有害信息。此外,Facebook星期二还表示,正在向自动翻译工具集添加新的语言。新近增加的24种新语种包括豪撒语、乌尔都语和尼泊尔语,至此,翻译语言总数已超过125种。

责任编辑:

Rosetta的研究人员表示,该工具现在可以实时从公开上传到Facebook的每张图片中提取文本,并且可以“阅读”多种语言的文本,包括英语、西班牙语、德语和阿拉伯语。(Facebook表示,Rosetta不会用于扫描用户在时间轴上私密分享的图像或私信。)

文章来源:新浪科技

Rosetta可以分析包含多种文本形式的图像,比如抗议标识、餐厅菜单、店面等的照片。在Facebook工作的软件工程师维斯瓦纳斯·西瓦库马尔在一封电子邮件中说,这个工具既能识别景观中的文本,也能识别表情包——但后者更具挑战性。他写道,“在主动检测仇恨言论和其他违反政策内容的情况下,分析表情包式的图像是一项更加复杂的人工智能挑战。”

西瓦库马尔指出,与人类不同,人工智能通常需要看到成千上万个例子才能学会完成复杂的任务。但是,即便是对于Facebook而言,表情包方面的例子也不是无穷无尽的,而且在不同的语言上收集足够多的例子也很困难。寻找高质量的训练数据是人工智能研究的一个持续性挑战。数据通常需要花费大量的功夫来进行手工标记,而且许多数据库都受到版权法的保护。

为了训练Rosetta,Facebook的研究人员使用了在网站上公开发布的含有某种文本形式的图片,以及它们的标注和发布地点信息。他们还创建了一个程序来生成额外的示例,这种做法的灵感来自于牛津大学的一个研究团队在2016年设计的一种方法。这意味着整个过程在某种程度上是自动化的:一个程序自动地产生表情包,然后另一个程序试图分析它们。

不同的语言还给Facebook的人工智能团队带来了其它的挑战。例如,研究人员必须找到一种变通方法来使得Rosetta能够用于阿拉伯语等语言。阿拉伯语从右到左阅读,与英语等其他语言相反。Rosetta倒着“阅读”阿拉伯语,经过处理后,Facebook将那些字符颠倒过来。研究人员在他们的博客中写道:“这个技巧的效果出奇的好,让我们有了一个统一的模型,它既适用于从左到右的语言,也适用于从右到左的语言。”

虽然自动化系统在内容审核方面非常有用,但它们并不总是万无一失的。例如,腾讯的微信络使用两个不同的算法来过滤图像,多伦多大学公民实验室的一个研究团队成功地骗过了它们。第一个算法是基于OCR的程序,会过滤含有特定话题文本的照片,而另一个算法则会审查那些看起来与中国政府可能创建的黑名单相似的照片。

研究人员能够通过改变图像的属性,比如颜色或方向,轻易地避开微信的过滤器。虽然Facebook的Rosetta更加先进,但可能也不是完美无缺;该系统可能会受困于难以阅读的文本或扭曲的字体。所有的图像识别算法也仍然可能会受到对抗性的例子的影响,那些经过轻微改动的图像在人类看来是一样的,但会导致人工智能陷入混乱。

在对特定种类的内容的审核方面,Facebook和Twitter、YouTube和Reddit等其他的平台在多个国家都面临着巨大的压力。周三,欧盟提出了一项新的法规,要求社交媒体公司在接到通知后一小时内删除恐怖分子的帖子,否则将面临罚款。Rosetta和其他类似的自动化工具已经在帮助Facebook和其他平台在德国等地遵守类似的法律。

它们在那方面也做得更好了:两年前,Facebook首席执行官马克·扎克伯格曾说,Facebook的人工智能系统只能主动捕捉到该公司所删除内容的一半左右;人们必须先要标记其余要删除的内容。现在,Facebook表示,它的人工智能工具可以检测到几乎100%的垃圾邮件、99.5%的恐怖内容和86%的暴力图片。YouTube等其他平台在利用自动内容检测系统上也取得了同等程度的成功。

然而,这些喜人的数字并不意味着像Rosetta这样的人工智能系统是完美的解决方案,尤其是当涉及到更微妙的表达形式的时候。与餐馆菜单不同的是,如果不知道表情包的发布背景,就很难理解它的含义。这就是为什么有很多网站在致力于解释它们。表情包通常描述的是圈内笑话,或者是针对特定的网络亚文化。人工智能仍然不能像人类那样理解表情包或视频。就目前而言,Facebook仍需要依靠人工审核员来决定是否应该删除某个表情包。

本文由亚洲城会员登录发布,转载请注明来源

关键词: