7月30日,今天的标题宣布正式推出新版反流氓助手(以下简称“灵狗”),同时支持图像和文字识别。新版本的狗推出后,今天的标题将结合技术审查和人工审查,以打击低质量和低质量的内容。
Byte Beat人工智能实验室主任王长虎表示,与文本识别不同,图像识别技术更加困难。使用技术难以解决的一些问题仍然基于人工判断。例如,技术案例暂时很难设定标准:裸体女性经常出现在世界名画中。如果它们完全由机器判断,机器将通过识别绘画中人物的裸露皮肤区域来认为绘画是粗俗的;和一些拍摄芭蕾舞从机器的角度来看,这张照片实际上类似于裙子底部的偷拍。
此外,在某些情况下,由于不同的使用场景和人群,标准会发生变化:内衣和内衣模特出现在购物平台上并且将被默认为正常,但如果它们经常出现在新闻平台上,则可能会被视为粗俗;成人可以使用正常的热舞内容,并且符合通常的标准,但如果打开青少年模式,则不应出现这些内容。
王长虎说,粗俗判断问题的复杂性和不同判断方法的局限性,一方面需要技术模型的不断演变,另一方面需要技术与人工判断的有效结合。
目前的“灰狗”已经建立了一个相对完整的模型迭代系统。通过“数据采集 - 数据注释 - 数据清理 - 模型培训 - 模型评估 - 案例分析”的全过程,不断优化。
据了解,在去年,“灰狗”已完成两次迭代。在2018年3月28日,今天的头条新闻首次在“灰狗”上发布,支持测试文本和文章的链接。 2018年5月16日,“灰狗”完成了服务容量升级,并增加了反短文本模型和谣言模型,将准确率从73%提高到82%。 2019年2月20日,“Greyhound 2.0”正式上线。除了反粗俗外,它还加入了反暴力和反头条派对模式,涵盖了主要的低俗和低质量内容类型,整体识别准确率接近85%。
这是狗的第三次迭代。在文本识别领域,新版“灰狗”使用“Bert”和半监督技术。训练数据集包含920万个样本,准确率提高到91%。在图片识别领域,“灰狗”使用深度学习作为解决方案,并在数据,模型和计算能力方面进行了有针对性的优化。