AI标记“翻转”实际上是自然语言处理中的“翻转”

2020-10-14 14:32
科技日报

在学年开始的时候，美国一个号称服务2万所学校的AI评分系统受到质疑。学生只要利用系统漏洞输入相应的关键词，即使关键词之间没有相关性，也可以轻松获得高分。

随着人工智能的发展，许多教育应用程序都应用了智能评分系统，由于评分快速、及时，深受教师和学生的欢迎。但同时也有很多家长抱怨智能评分系统，比如英语后续App的评分系统。有的时候，即使是英语专业八级的也只有80分。

除了口语使用的智能评分系统，人工智能也用于试卷评判。但是这种智能阅卷系统也存在“翻车”现象。据报道，在开学季节，一个号称为美国2万所学校服务的AI阅卷系统遭到质疑，学生凭借其漏洞可以轻松通过“裸考”。学生之所以钻了空子，是因为系统只按关键词打分，学生输入对应的关键词，即使几个关键词之间没有关系，也可以通过，甚至可以获得高分。

您需要在标记前设置评估标准

“自动评估评分系统一般需要先设定评估标准，然后根据设定的标准设计合适的评估算法和模型。”天津大学智能与计算系教授、博士生导师熊德义介绍说，比如口语测评中的评分就需要机器来判断人的发音是否标准，读出来的句子重音是否正确，读出来的句子是否连贯通顺，连续读出来的部分是否准确。

AI阅卷系统涉及对语言和文字的评价，涵盖语法、语义等多个方面。并将应用大量的自然语言处理技术。

“自然语言处理技术是人工智能的一个重要分支，它研究的是计算机对自然语言的智能处理。基础自然语言处理技术主要针对语言的不同层次，包括音素(语言的发音方式)、词法(单词和字母如何构成单词、单词的形态变化)、词汇(单词之间的关系)、句法(单词如何构成句子)、语义(语言表达的对应意义)、语言。熊德义强调，这些基本的自然语言处理技术往往被应用于各种下游自然语言处理任务(如机器翻译、对话、问答、文档等)。)，而自动阅卷中的语言评价通常涉及这七个层次的几个层面。

自动评价指标的设计有多种方式，通常根据不同的评价类型选择合适的方法。“比如评分系统是自动判断翻译题，老师可以提前写一些参考翻译答案，然后把学生的答案和参考答案进行对比，计算出它们的相似度作为学生答案的评价指标。”比如熊德义说，机器翻译常用的评价指标BLEU，就是根据参考译文和机器翻译的N-grams匹配度来计算相似度。

一个字一元，两个相连的字两元，还有三元和四元。如果答案中的一个词与参考答案中的词一致，则给出一元分值，可以计算出二元、三元、四元的类似分值。研究人员为不同的元素设定不同的权重，然后将分数转化为客观值。分数越高，他们之间的相似度就越高。

不同AI评分系统的结果差别很大

AI阅卷系统“翻车”的触发点是，一个美国历史教授的儿子在考历史的时候只拿到了50%的分数，但是在评估了儿子的答案后，她觉得他的答案基本没问题。

同样的答案，为什么手工评测和机器评测差别这么大？

“这就是基于AI算法的自动评估最大的挑战：如何与手动评估保持一致。要迎接这个挑战，有许多问题需要解决。比如如何制定合适的评价标准，主观题必须有合适的评价标准和规范才能自动评价；比如如何应对日新月异的语言，语言的多样性是自然语言处理技术的主要挑战之一，语言的自动评价和自动处理必须面对多样性的挑战；比如如何设计一个综合评价指标，目前虽然有各种指标，但是很少有指标综合考虑语言文字各个方面的，比如作文自动阅卷，可能会考虑单词是否合理(词汇)，句子是否通顺(句法)，段落组织是否有条理(篇章)，内容是否扣分(语义、语用)等。”熊德义说，上述BLEU只考虑了词形的严格匹配，没有考虑词的形态变化、语义相似性、译文的句法合理性等因素。

“遵循的评估规则和评估的起点不同，对应的算法模型也不同，所以最终的结果会有很大的不同。”熊德义说。

所以只用一种评价方法显然不全面，这说明当孩子的母亲试图在回答中加入“财富、商队、中国、印度”等关键词时，即使这些关键词之间没有串联，她也得满分。“可能这个AI评分系统只使用简单的关键词匹配，所以会出现‘关键词沙拉’也能侥幸过关的情况。”熊德义解释道。

此外，人工评估和机器评估有很大的区别。“近年来，虽然语音识别的性能在深度学习技术的推动下有了显著提高，但在开放环境和噪声环境下，识别率会下降很多。”熊德义解释说，如果机器“监听”到一个错误的词，然后机器对其进行评估，就会形成错误传播，即上游系统的错误会导致下一个系统的错误，而且越错越离谱，评估结果也会大相径庭。

“目前，设计评价指标的方法有很多，改进的方法也很多，比如计算召回率以及准确率。另外还有评价指标，就是评价的评价，看哪些评价指标更完善，更符合人们的评价。”熊德义感叹，很多情况下，自动评估的难度和对应的自然语言处理任务是一样的。例如，用机器评估翻译的难度类似于用机器生成翻译，用机器判断文档的难度类似于用机器生成翻译。

它可以与手动评估相结合，使系统更加智能

“传统的自动评估指标通常是基于符号计算的。现在，深度学习等人工智能技术越来越多地用于评估工具。”熊德义介绍，利用深度学习，可以将语言符号映射到真实稠密向量的语义空间，利用语义向量计算相似度。即使说出来的话和计算机原来学的不一样，只要语义一致，机器也能做出准确的评价。因此，基于深度学习的自动评价在一定程度上可以应对语言多样性的挑战。但是深度学习也有一个问题，就是机器学习需要大量的数据。

近年来，基于自我监督学习的预训练语言模型在语言表征学习方面取得了突破。OpenAI的预训练语言模型GPT-3已经在5000亿个单词的庞大语料库上训练了一个具有1750亿个参数的神经网络。通过在网络上学习各种语言的大量文本，GPT 3号已经形成了一种强大的语言。表征能力，能执行多种任务，如自动翻译、故事生成、常识推理、问答等。甚至可以进行加减运算，如其两位数的加减精度达到100。熊德义介绍，不过这么庞大的神经网络，如果用单精度浮点数存储，需要700G的存储空间，模型训练一次就要花费460万美元。因此，尽管GPT-3在零样本和小样本情况下具有良好的学习能力，但其高成本使其远非普遍可用。

而AI作为阅卷和评价的“老师”，有着手工无法比拟的优势。比如AI自动阅卷系统比人工阅卷快。老师不可能一次记住所有的选择题答案。不断检查标准答案是很费时间的。自动阅卷系统帮助教师大大提高效率；另外，自动阅卷系统更加合理，不受外界条件限制，不会因为疲劳等原因导致误判。即使在复杂的干扰环境中，仍然可以获得正确的结果。AI阅卷系统还可以评分后直接分析学习情况，统计考试数据、错题等教材，帮助教师减负增效，帮助学生提高学习效率。

"合理客观化主观题可以降低自动阅卷的难度."熊德义说，虽然不能客观化的主观题很难设定综合评价标准，但设定一定的评价标准还是可行的。比如对单词形态学和句子语法的评价目前还是比较准确的，这种技术从实验室到产品都可以应用。

也可以引入人工评估，对AI评分系统的评分进行审核和修正。通过这种反复修正，积累了大量的评价训练数据，使得机器评分更加智能化。

“利用自然语言处理等人工智能技术进一步完善主观智能评分系统，将是未来教育领域一个非常重要的课题。”熊德义表示，未来的AI自动阅卷系统肯定会越来越“智能”，人工智能与教育的结合会越来越紧密。

扩展阅读