今日头条“灵犬”背后的反低俗技术原理

2019.08.27 - 象牙白

2018年3月至今,今日头条推出的灵犬反低俗助手已经经过了三次迭代。昨天,“灵犬3.0”正式发布,同时支持图片和文本识别。在同期举办的“算法如何反低俗”沟通会上,字节跳动人工智能实验室总监王长虎分享了“灵犬”背后的反低俗技术原理。
新版“灵犬”在文本识别方面,同时应用了“Bert”和半监督技术,训练数据集包含920万个样本,准确率提升至91%。而在图片识别方面,采用深度学习作为解决方案,在数据、模型、计算力等方面均做了针对性优化。
王长虎表示,技术反低俗是海量信息时代的必然解决方案,但反低俗是一个复杂困难的问题,现阶段还需要不断优化迭代技术,同时结合技术与人工进行判断。
以下为演讲全文。
大家好。我是王长虎。感谢各位今天来到这里,一起探讨算法反低俗这个话题。
我是技术出身,主要研究方向包括计算机视觉、视频理解、多媒体创作和机器学习等领域。我们把这些技术广泛应用到字节跳动全线产品中,包括今日头条、抖音、西瓜视频、火山小视频等等,帮助公司内容安全、视频理解和推荐、多媒体创作和视觉平台等建设。
刚才同事已经简单介绍了灵犬这款产品,我就顺着这个话题说下去,主要谈一谈灵犬背后的反低俗技术。
一、为什么需要技术反低俗?
当前移动互联网时代,UGC和自媒体的涌现,使内容创作和消费,实现了几何指数级的海量增长。仅以今日头条平台为例,每天发布的内容就超过60万条。
相比于人,机器的优势:一是计算快,一秒钟能执行百亿次计算;二是存储大,轻松存储千亿以上汉字;三是稳定,不会因心情、状态等影响处理结果。
传统意义上,机器的运作,围绕人的指令来进行。机器将信息转化成二进制的0和1存储下来,以此为基础,表达文字、图片。人编写程序,即一组指令,机器按照顺序执行,对既定的一段存储做操作,最终输出结果。
在这种状态下,机器扮演的角色是执行。它始终需要人给它写程序、下指令做具体的事。通过一个复杂公式的计算,机器可以完成播放一段音乐或视频的操作,但是具体怎么执行这个过程,一定需要人来指定。
但过去十年里,技术领域出现了最大的技术进步:机器学习。这样一来,人不需要写出具体的指令序列,也能让机器做很多的事情。
机器学习,顾名思义,机器能够通过自我学习,从而实现自我进化。机器的边界变得更大了,能做的事情更多了。在机器学习的状态下,人只需要提供充分、具体的样本,机器经过训练就能总结出一套判断准则。
灵犬也是机器学习反低俗的产物。
二、文本识别的技术原理
最新版本的灵犬,同时支持文本识别和图片识别。我们先说文本识别。
一般情况下,机器如何判断文本低俗呢?
一个简易的方案是分词,做词表。具体包括几个步骤:
1.对文本进行分词,把词变成最小颗粒度的序列;
2.由专业人员准备一个低俗词表;
3.去看给定文本分词的结果,是否包含在低俗词表中;
4.若是包含在低俗词表中,则机器判断为低俗。
显而易见,这个方案会带来一些问题:
1.机器在这里只看表象,不作理解;
2.词表的容量终究是有限的,容易被绕过,准确率低;
3.词表的更新频率必须很高,每隔一段时间就要更新一次。
为此,灵犬采取的解决方案,是自然语言处理技术。什么是自然语言呢?人类使用的语言,如汉语、英语,都被视为自然语言。这是为了区别于编程语言等“人造语言”。
在自然语言处理技术,模型是至关重要的。一个模型是不是好用,主要看两方面:1.用到的技术,是不是最合适的?2.训练的数据集,多不多?
灵犬背后的文本分类模型,已经经过了三次大的版本迭代。每个版本相对于旧版本,在技术和数据集层面,都有一个明显的跃升。
第一代灵犬,应用的是“词向量”和“CNN”技术。词向量的优势是让词蕴含语义信息,突破了词表模型不具备语义信息的缺陷;CNN是“卷积神经网络”的缩写,这种分类结构速度快、拟合效果好。这一代训练数据集,包含350万数据样本,其中正样本200万,负样本150万,对随机样本的预测准确率达到79%。
第二代灵犬,应用的是“LSTM”和“Attention”技术。LSTM是“长短期记忆”的缩写,这种神经网络对序列建模效果更好,对长文的识别效果更好。“Attention”是注意力机制,能结合词和词之间的信息,给出更全局的判断。这一代训练数据集,包括840万数据样本,其中正样本量为240万,负样本600万,文本识别准确率提升至85%。
第三代灵犬,应用到的是“Bert”和半监督技术。“Bert”是当前最先进的自然语言处理技术,是这个领域近年来重大进展的集大成者。这项技术在常见的阅读理解、语义蕴含、问答、相关性等各项任务上,大幅提高了性能。
“Bert”提出了一种新的更大规模的结构,参数量是之前模型的10倍多,计算量也提高了10倍多,对语义的刻画更为准确。半监督技术,能引入更多非标注语料,使得模型的鲁棒性(即稳健性)更好。
这里解释下,“监督”和“半监督”的含义。监督技术是利用标注数据,来调整模型的参数;半监督技术是同时使用标记数据和未标记数据,使模型对样本的学习更加充分。半监督状态时,会要求尽量少的人工参与,同时,又能够带来比较高的准确性。半监督技术的好处是,我们可以用更大规模的语料库来训练我们的模型。
新版灵犬同时应用了“Bert”和半监督技术,并且在此基础上使用了专门的中文语料,不牺牲效果的情况调整了模型结构,使得计算效率能达到实用水平。这一代训练数据集总量是1.2个T,相当于20倍百度百科或者100倍维基百科的数据总量,包含920万个样本,文本识别准确率提升至91%。
三、图片识别的技术原理
图片识别,一般面临以下技术难点:
  • 非均衡问题:低俗图片占整体图片内容的比例低,可能100万张图片里面才有1、2张问题图片。我们要大海捞针地把问题图片找到,同时要避免误伤那些正常的图片。
  • 类内方差大:低俗图片的种类非常多,有几十种、甚至上百种,我们都要一一解决。
  • 不可穷举:两段低俗文字,可能在字词上有重合;但两张低俗图片,构成特征千差万别,给我们带来更大的挑战。
我们提过,对于文本识别,最简单的方案是分词,做词表。如果词语命中了低俗词表,机器就判定为低俗。对于图片,当然也可以这么做,做一个巨大的图片库,如果命中了图库,就判定为低俗。
但图片跟文本不太一样的是:文章由段落构成,段落由句子构成,句子由字词构成;两段低俗的话,可能运用了某个相同的词,而字、词作为段落的最小单位,是可以被分割出来,并一一加以识别的。但两张低俗的图片,构成的特征千差万别,与文本不一样的是,图像识别的特征提取,无论是初级特征的形状、颜色、纹理,还是高级特征里的语义,其数量是无限的,不可穷举。
这张图描述了全球每年新增的图片数,2013年是0.6万亿张,2017年已经是1.4万亿,短短4年翻了一倍。我们也可以看到,图片分享软件Instagram的全球月活跃用户是10亿,这些用户热衷于分享图片。还有数据显示,每天有10亿张图片上传到微信朋友圈。
随着智能移动设备的普及,图片分享的总量越来越多。这些照片上传后,分析和管理的需求随之而来。
面对如此庞大的数据,穷举法,对于图片反低俗来说,是不太可行的。
怎么办呢?
灵犬运用的解决方案,是深度学习。深度学习有三个要素:一是数据量,二是算力,三是模型。
数据是深度学习最核心的要素。深度学习对于数据的拟合能力非常强,数据量越多,往往效果会越好。
其次是GPU算力。GPU是专门用来跑深度学习模型的高密度设备,算力越强,效率越高。
最后是深度学习模型。模型的匹配度,决定了准确率。深度学习模型目前在很多行业里面有了落地,在一些特定任务上,人脸识别、围棋等等,机器识别能力已经超过了人类。在2016 年ImageNet图片分类竞赛上,机器图像识别的错误率已经降低到2.9%,优于人类表现(5.1%)。
具体到灵犬,我们做了以下几方面的优化:
数据层面:累积了上千万级别的训练数据。

模型层面:针对许多困难样本做了模型结构调优,包括:

· 多尺寸问题(图片长宽比不一样,有横屏、竖屏、正方形等等):为应对用户上传的不同比例的图片,我们专门设计了多桶模型,使得各种比例的图片都能有很好的识别效果。例如,我们将图片分为方形、竖屏和横屏,在预测时,预测服务会根据传入的图片比例寻找比例最接近的桶,进而过对应的模型。由于不同比例的桶对应的模型参数是共享的,所以预测时间和单模型基本接近,因此能在不增加预测时间的情况下,提升模型的准确率。   

· 多尺度问题(在不同的空间场景,人像的占比不一样,有大有小):
在以人为主的场景中,为应对人在图片中的面积占比变化较大的问题,我们引入了特征金字塔结构,对不同尺度的物体,它能提高模型提取一致性特征的能力。常规的网络结构对图片进行多次卷积,得到图片的特征图,再接上全连接层进而得到图片的分类。这种方法有一个缺点,如果测试集中人在图片中的占比和训练集差距较大,就会导致效果下降。在网络中引入特征金字塔结构,将底层特征和上层特征融合,并在每层给出预测结果,可以同时利用底层特征的高分辨率和高层特征的高语义信息。

· 小目标问题(整张图片都是低俗很好识别,但有些图片只是局部低俗或者细微低俗):为应对在图片背景中出现小范围的问题区域的案例,我们设计了分割辅助分类网络,使得模型能更专注于问题区域。该网络结合了上面提到的特征金字塔结构,训练分为两部分,分割部分每层的预测结果都会与标注区域计算损失,分类部分会将预测出的区域与特征图进行叠加,再进入分类器和分类标签计算损失;预测时,特征金字塔结构会输出预测区域,将该区域与特征图叠加,再送入分类器即可得到分类结果。

计算力层面:利用分布式训练算法以及GPU训练集群,加速模型的训练和调试。利用模型压缩技术,提升模型的预测速度。

此外,灵犬还建设了比较完善的模型迭代系统。通过“数据收集—数据标注—数据清洗—模型训练—模型评估—badcase分析”这一套完整的流程,持续在优化。
四、为什么还需要人工判断?
体验过“灵犬”的朋友们会发现,对于部分图片和文本,“灵犬”会给出一个结论:“拿不准”,即需要引入人工判断。
为什么需要人工判断呢?一方面没有算法是完美的,灵犬也还在不断地提升和迭代。
另一方面,反低俗这个问题,其实是比较复杂,比较困难的。
我们举一些具体的例子。至少在以下两方面,现阶段还有赖于人工判断。
一方面是技术暂时难以制定标准的案例。
从文字的角度,一句话表达的意思,往往涉及词的含义,词搭配的含义,以及能推理出可能蕴含的语义,最终需要做一个综合的判断。如果没有深层次的理解能力和联想能力,就很难知道字面之下作者真正表达的意思是什么。
孔子修订《春秋》,字句中暗含褒贬,而不直言。在行文中,《春秋》不直接阐述对人物、事件的看法,而选择透过细节描写,修辞手法和材料的筛选,委婉而微妙地表达作者的看法。
比如著名的“郑伯克段于鄢”。“郑伯”是郑庄公,“段”是郑庄公的亲弟弟。孔子只用了一个“克”字,就给这段历史定了性。按照当时的汉语规则,“克”这个字,只能用在敌人身上,这个动词的宾语只能是敌人。但孔子用了“克”这个字,是在讽刺郑庄公像对待敌人那样对待亲兄弟。
一个字里面,包含了这么复杂的意思。后人把这个叫“春秋笔法”。也正是因为《春秋》言辞过于隐晦,表述过于简约,理解起来很困难,让后人学习起来不方便,所以很多学者为它作注解。其中包括著名的《左传》,也就是PPT上的这本书。他把孔子这六个字发展成了一篇五百多字的散文。
要真正完全理解那些隐藏在字里行间而非字句本身的意思,对于机器而言,当前还是比较困难的。
机器只是把文字当成符号,从表面去理解它。就像盖房子的砖块一样,机器只能把这些砖块罗列和堆积起来,不完全知道某些砖块可能比另一些砖块更为重要,有些砖块需要转换一下角度来看,或者跟别的砖块搭配在一起看才合理。
从图片的角度,技术同样存在“一刀切”的局限。例如色情内容,机器通过识别肌肤裸露面积来判定是否违规,而这个会让一些具有历史意义和艺术性的照片受到波及。
Facebook 曾经因为“裸露”,误伤了一张著名的越战新闻照片,照片里一位小女孩遭到汽油弹炸伤、浑身赤裸奔跑。今日头条也有过类似的情况。很早的时候,头条平台下架了一张关于吴哥窟塑像的图片,塑像虽然“露点”,但其实是名胜古迹。这是一个失误,因为我们一贯执行比较严格的审核标准,造成了机器的“误伤”。但后来我们通过人工方式,对这个做了改进和修正。
再比如芭蕾舞蹈。一些拍摄芭蕾舞的图片,以机器的视角来看,它很类似于裙底偷拍。
再比如艺术名画。这是法国著名画家马奈的名画《草地上的午餐》。这幅画所描绘的内容,是一个裸体女子和两个着正装的男士共进午餐。
在今天的人们眼里看来,这是印象派绘画史上一幅非常重要的作品。但如果完全交给机器来判断,机器通过识别画中人物的皮肤裸露面积,就会认为这幅画是色情低俗的。
另一方面,技术还很难搞定的是,标准因为使用场景、人群、时间而导致变动的案例。
低俗的标准并非一成不变的,而是随着社会和文化的不断发展而流变。在八十年代早期,邓丽君的歌曲曾被认为是“靡靡之音”。1982年,人民音乐出版社出版了 《怎样鉴别黄色歌曲》,里面就批判了邓丽君歌曲。但时至今日,邓丽君演唱的歌曲,已经成为了华语经典歌曲的一部分。
再比如内衣和热舞内容。在淘宝店里看到内衣样式和相关的卖家秀,买家并不会觉得被冒犯,而是约定俗成地把这个当成是消费服务的一部分。但如果是在新闻资讯平台上,频繁出现内衣和内衣模特相关的内容,大家可能就会认为这个平台有低俗问题。
正常的热舞内容,提供给成年人看,相信大家不会觉得有问题;但如果开启了青少年模式,这些内容就不适合出现。
所以,技术反低俗,其实是一个很复杂很难的问题,我们的解决方案:第一,不断探索、不断改进我们的模型,让它预测的更准。第二,结合技术与人工进行判断。
五、今日头条反低俗,不止于灵犬
我还想跟大家说明的是,灵犬只是今日头条技术反低俗的一个展示窗口,受限于小程序体裁和模型应用条件,它还不够完美,也不能完全反映出今日头条反低俗系统的真实情况和全部面貌。
它更像是今日头条反低俗系统的一个简化版本。如果说,灵犬是一只“犬”,那么,头条的反低俗系统更像是一支“工作犬”部队。今日头条的反低俗系统,远不止于灵犬
在内容审核方面,2012年以来,今日头条目前投入了近万人的专业审核团队,并搭建反色情、反低俗、反标题党、反虚假信息、反低质模型数百个,结合人工、技术手段,有效提升了内容安全的效率和准确度。
在反低俗系统这一块,我们是国内建设得比较早的,数据样本积累量也比较大,而且每天都在迭代,可能是全球最实用的反低俗系统。
这张图展示了今日头条的内容安全机制。作为行业领先者,在内容安全上,今日头条一直用最高的标准要求自己。
内容安全主要包括两块:一块是UGC用户内容,如问答、用户评论、微头条,一块是具有成熟内容生产能力的PGC内容,以媒体报道为主。如果是数量相对少的PGC内容,会直接进行风险审核,没有问题会大范围推荐。UGC内容需要经过一个风险模型的过滤,有问题的会进入二次风险审核。审核通过后,内容会被真正进行推荐。这时如果收到一定量以上的评论或者举报负向反馈,还会再回到复审环节,有问题直接下架。
放眼全球,打击低俗低质内容,是所有信息平台都在面临的难题,不管是国外的Facebook、Google,还是国内的微信、今日头条,都在想办法更好地解决。
今日头条的理念是“信息创造价值”,我们也相信,要用技术来做有价值的事情,技术和人一起,让信息创造出更大、更丰富的价值。



阅 105
0

已关闭回复!

谁家有闺女

五个人轮奸一个人,最后一个奸的人起码要等一个多小时吧?麻B,丫真有耐性呀。 我找老伴条件很简单,要有趣。有趣, […]