作文自动评分综述

(整期优先)网络出版时间:2021-12-29
/ 1

作文自动评分综述

李安昊

沈阳化工大学 110142

摘要:自动作文评分( AES )是利用计算机技术对中文或者英文作文进行评分的任务。近年来随着人工智能(Artificial Intelligence,AI)、机器学习(Machine Learning,ML)与深度学习(Deep Learning,DL)的迅速发展,自然语言处理(Natural Language Processing,NLP)作为人工智能领域重要分支也得到了学术界和产业界的充分重视,越来越多的基于NLP技术的应用出现在人们的视野当中。随着全世界大部分国家对教育的重视程度越来越高,教育领域内的NLP应用得到了国内外研究机构与产业界的重点关注。

关键字:作文自动评分,自然语言处理,机器学习

PEG(Project Essay Grader,PEG)[1]作文自动评分系统最早由Ellis Batten Page与他的同事于1960年代引入。该系统是收集了两批作文样本中的其中一批用于作文评分模型的构建,另一批用于模型评估,每个样本都经过了多个评分者的评价。在构建该模型时,利用评分的字段分布或者字数等浅层特征,通过人工评分员提取作文的外部浅层特征,使用模型对作文进行打分。

IEA(Intelligent Essay Assessor,IEA)[2]作文自动评分系统是皮尔逊公司在1989年成功研发。智能作文评阅器(IEA)对作文内容质量进行评价,IEA利用潜在语义分析( Latent Semantic Analysis,LSA )[3]对文章进行评分。IEA与其他自动打分模型的有所不同,其他打分模型都是基于作文外部非内容性特征得到分数,而基于LSA得到的分数与人类评分者更接近。

E-rater[4]由美国教育考试服务中心(Educational Test Service, ETS )的Burstein等人自1999年开发并开始投入使用。此系统主要是专门为分析学生作文量身定做的基于统计人工智能和NLP相结合的打分系统,结合了PEG和IEA的优点,并为研究生管理招生考试写作部分进行打分。它能够识别学生作文中的相关的特征( 例如词汇使用、语法和篇章结构等等 ),这些特征用于作文的评分和评语的及时反馈。学生使用E-rater的反馈来评估自己的论文写作技能与水平,以及确定需要进一步改进的地方。使用此系统及时反馈与自动化来辅助教师进一步提高学生的写作能力。E-rater可以为用户提供一篇文章的整体评分,以及关于语法、用法、评语、结构等方面的实时反馈。最后此系统通过研究生入学考试(GMAT[5])的验证使评价准确性更高。

IntelliMetric[6]作文自动评分系统是由Vantage Learning在1998年提出。IntelliMetric被认为是第一个利用人工智能和机器学习并充分模拟了人工评分过程的作文自动评分系统。提取特征是作文自动评分当中的关键,在IntellMetric候选特征集当中,使用了包括语义、句法和语篇等超过300个特征。这些特征宏观上可以分为4类:聚焦(Focus)、和整体性(Unity)、深化(Development)和拓展(Elaboration)。IntelliMetric使用不同的数学模型,进行作文评分。并且使用多评分引擎模拟多个评委对作文的打分,实现比其他单一评分引擎更准确的最终评分。

结论:作文自动评分能有效的降低人工评阅作文的工作量、时间、成本,并提高了评分可靠性、客观性以及公正性,并为学生提供及时的作文得分反馈。作文自动评分在未来有广阔的前景


参考文献

  1. Page E B. Project Essay Grade: PEG[J]. 2003.

  2. Foltz P W, Laham D, Landauer T K. The intelligent essay assessor: Applications to educational technology[J]. Interactive Multimedia Electronic Journal of Computer-Enhanced Learning, 1999, 1(2): 939-944.

  3. Dumais S T. Latent semantic analysis[J]. Annual review of information science and technology, 2004, 38(1): 188-230.

  4. Chodorow M, Burstein J. Beyond essay length: evaluating e‐rater®'s performance on toefl® essays[J]. ETS Research Report Series, 2004, 2004(1): 1-38.

  5. Intelligence M. Brexit and Graduate Management Education in the United Kingdom[J]. 2019: 4-27

  6. Rudner L M, Garcia V, Welch C. An Evaluation of IntelliMetric64 Essay ScoringSystem[J]. Journal ofTechnology Learning & Asses sment, 2006, 4(4): 1-21.