日前,今天的头条新闻宣布正式推出新版反流氓助手(以下简称“灵狗”),同时支持图像和文字识别。这是半年后“灰狗”的另一次重要升级。
“灰狗”诞生于今天的标题反庸俗模式,是检测健康内容的辅助小工具,致力于打击低质量的低质量内容,净化网络空间。用户现在可以在今天的头条新闻中搜索“精神犬”以供试用。
在同一天的下午,一个名为“算法如何反庸俗”的通信将在字节节拍中举行。 Byte Beat人工智能实验室主任王长虎介绍了“灰狗”背后的技术原理。
据了解,在文本识别领域,新版“灰狗”同时使用“Bert”和半监督技术。训练数据集包含920万个样本,准确率提高到91%。在图片识别领域,“灰狗”使用深度学习作为解决方案,并在数据,模型和计算能力方面进行了有针对性的优化。
“灵犬”使用人次超过300万
在信息爆炸的时代,打击粗俗和低质量的内容是当前全球信息平台面临的一个问题。无论是外国Facebook,谷歌还是国内微信,今天的头条都在寻求解决方案。
反粗俗不能仅靠技术或人来解决。王长虎说,粗俗的定义比较笼统,很难准确定义。这项工作对人们来说并不容易,而且为机器实现这项工作更加困难。在当前大量内容创建和消费增长的趋势下,它纯粹是手动的,效率低下,无法有效满足用户需求。
Byte Beat人工智能实验室主任王长虎分享了“灰狗”背后的技术原理
今天的头条新闻是国内反庸俗的先行者,而“灰狗”则是今日头条反庸俗系统的简化版。据了解,自2012年以来,今天的头条新闻已经建成了数百种模式,如反色情,反俗,反头条,防伪信息,反低质,并投入近万名专业审计团队。 “作为行业的领导者,在内容安全方面,今天的头条新闻始终要求达到最高标准,”王长虎说。 “狗是一个开放的反庸俗窗口。我们希望通过狗接受各界人士对反粗俗的看法。和建议。“
新版“灰狗”专注于反庸俗识别类型和模型功能,现已涵盖图像识别(反色情粗俗,反血腥暴力)和文字识别(反色情,反暴力,反标题派对)。稍后还将支持语音识别和视频识别。
在过去的一年中,“灰狗”已经完成了两次迭代。在2018年3月28日,今天的头条新闻首次在“灰狗”上发布,支持测试文本和文章的链接。 2018年5月16日,“灰狗”完成了服务容量升级,增加了反色情短文型和谣言模式,并将准确率从73%提高到82%。 2019年2月20日,“Greyhound 2.0”正式上线。除了反色情粗俗模式外,还增加了反暴力和反标题党模式,以涵盖主要的粗俗和低质量内容类型,整体识别准确率接近85%。截至2019年6月,反流氓助手的使用已超过300万。
用户只需要在“灰狗”中输入文本或文章链接,“灰狗”可以帮助他检测内容健康指数并返回识别结果。对于用户输入的内容,“灰狗”将首先提取,分段和语义识别,然后根据相关规则输出相应的分数,等级和结论。这一切都在几秒钟内完成。图片和图片链接检测相同,用户可以通过上传“灰狗”中的图片或图片链接快速获取识别结果。
“灵犬”背后的技术迭代
据王长虎介绍,“灰狗”背后的文本分类模型已经历了三次迭代。与旧版本相比,每个新版本的技术和数据集级别都有显着提升。
第一代“灵魂犬”应用了“词汇矢量”和“CNN(卷积神经网络)”技术。训练数据集包含350万个数据样本,随机样本的预测准确率达到79%。第二代“歌狗”,采用“LSTM(长期和短期记忆)”和“注意”技术,训练数据集包含840万个数据样本,准确率提高到85%。
新版“灰狗”同时使用“Bert”和半监督技术,在此基础上使用特殊的中文语料库,调整模型结构而不牺牲效果,使计算效率达到实用水平。 “Bert”是目前最先进的自然语言处理技术,是近年来该领域的主要进展的主人。该技术显着提高了常见阅读理解,语义含义,问答和相关性的表现。
这一代“灰狗”训练的总数据集为1.2T,相当于百度百科全书总量的20倍或维基百科数据的100倍,包括920万个样本,准确率提高到91%。
与文本识别不同,图像识别的技术难点主要在于三个方面:不平衡,内部差异和必不可少,即粗俗图片占整体图片内容的比例较低,粗俗图片丰富复杂,这构成了粗俗的图片。特征差异很大。
在这方面,“灰狗”使用的解决方案是深度学习。 “我们在数据,模型和计算能力方面做了很多优化,”王长虎说。在数据层面,“灰狗”已经积累了数千万的训练数据。在模型层面,“灰狗”优化了许多困难样本的模型结构,并试图解决复杂问题,如多尺寸,多尺度和小目标。在计算层面,“灰狗”使用分布式训练算法和GPU训练集群来加速模型的训练和调试。
使用技术难以解决的一些问题仍然基于人工判断。例如,技术案例暂时很难设定标准:裸体女性经常出现在世界名画中。如果它们完全由机器判断,机器将通过识别绘画中人物的裸露皮肤区域来认为绘画是色情和粗俗的;从机器的角度来看,芭蕾的图片实际上类似于裙子底部的偷拍。
另外,由于使用场景和不同人群,标准的变化:内衣和内衣模特出现在购物平台上,会被拖欠正常,但如果经常出现在新闻平台上,可能会被认为是庸俗的嫌疑人;正常热舞的内容可供成年人使用,并符合通常的标准,但如果开启青少年模式,则不应出现内容。
王长虎说,粗俗判断问题的复杂性和不同判断方法的局限性,一方面需要技术模型的不断演变,另一方面需要技术与人工判断的有效结合。
目前,“灰狗”已经建立了一个比较完整的模型迭代系统。通过“数据采集 - 数据注释 - 数据清理 - 模型培训 - 模型评估 - 案例分析”的全过程,不断优化。