山东省教育招生考试院课题负责人杨帆助理研究员主持完成了《教育考试网上评卷质量管理研究》(GJK2017034)课题。课题组主要成员:邓欣、赖松青、杜永贵、汪亚敏、李小婷、王坤。
一、研究内容与研究方法
(一)研究内容
随着考试种类的不断增多、考试规模的不断扩大和现代化技术的发展,考试组织管理模式也发生了根本性的变革。考试必须体现时代要求和价值观念,顺应时势的进行自我完善是谋取自身发展的必由之路。信息技术的飞速进步和互联网技术的全面普及,使信息的处理方式、存储能力、交换速率产生了根本性的变化和质的飞跃,其应用成果推广的广度和深度不断跨越式多元化纵深型发展。教育行业改革也不可避免的受到其渗透式影响,新兴技术为教育现代化和考试信息化注入了新的活力,提供了新的选择,设计了新的方案,考试逐步进入信息化时代。
网上评卷是信息技术与教育改革融合的重要尝试,也是缩小主观题评卷误差的重要进步,通过对国内外大规模标准化考试网上评卷开展的实践情况进行梳理,厘清网上评卷工作原理和技术要点,明确网上评卷较传统阅卷模式在保证考试公平公正、高效优质、宏观可控、便捷精准、信息反馈方面的显著优势和突出贡献,同时对其尚待解决的问题和形成原因进行靶向分析。随着人工智能技术的发展、应用和推广,对教育考试的变革也带来重要的机遇,在评卷领域探索人工智能评分和网上评卷的融合,克服网上评卷面临的瓶颈问题,是未来研究的重要方向。
(二)研究方法
1. 文献研究法。通过搜集、鉴别、整理文献,系统梳理有关理论基础,对教育考试网上评卷工作开展现状进行分析整理或重新归类研究,重点瞄准误差控制环节,掌握前人研究经验。
2. 文本分析法。通过搜集各类文本性资料,如国家、省教育类考试关于网上评卷工作的文件、方案等,进行分析,研判政策方向和发展趋势。
3. 调查研究法。通过发放自查问卷、考试现场观察和询问等方式,了解现有网上评卷系统使用情况、存在的主要问题、工作人员意见建议、系统升级方向、评卷教师体会等情况,获取第一手调查资料,经分析概括总结归纳后形成支撑课题结论的有关依据。
二、研究结论与对策
(一)网上评卷的优势
作为新兴评卷方式取代原有人工线下模式并迅速得到推广应用进而取得主导地位,网上评卷具有诸多显著优势:
1. 保证评卷工作的公平公正
网上评卷的评卷人员不直接接触答题卡,答题卡扫描后按照规定的答题区域对各小题作答图像进行切割,屏蔽了考生的个人信息,评卷人员只能对固定题目的随机作答图像进行评阅,从源头上杜绝了考生信息的泄露。通过“多评”等机制设置,一份试卷可由多名评卷人员批阅,当两次得分数值差不超过规定阈值时,取平均分作为得分,若超过阈值,则自动提交第3人甚至第4人进行评阅,最大限度的避免了主观因素对于得分的影响,有利于纠正评分误差。
2. 保证评卷工作的高效优质
网上评卷通过将考生答卷电子化处理,传统模式下对试卷保管、装订、领退答卷、签名、记分、登分等环节不再出现,评卷人员只需要完成登录、评分、提交3个环节,避免环节过多导致的疏漏和错误,极大地减轻了劳动强度,提高了工作效率。此外,评卷人员不评阅全部考题,而是分题组固定负责特定几道题,评卷过程中随着对评分细则和得分点的熟悉程度提高,阅卷速度也将逐步提高;同时“背靠背”工作模式使评卷人员无法看到其他人打分情况,有效避免了互相之间的影响,实现了质量和速度的并重平衡和双向提升。
3. 保证评卷工作的宏观可控
网上评卷为解决评分误差这一难题提供了操作性极强的有效路径,整个评卷过程即为误差控制过程。通过在评卷环节引入监督制约机制,以压缩主观题评分误差空间并实现轮转环节的零失误;通过流程设计和评卷系统中先进科学的数理统计方法和测量规范,校正并实时监控和评测评卷人员的评卷速度、质量水准、整体进度等情况,具有宏观调控能力。
评卷前,通过试评对评卷人员进行全员培训,使之熟悉评卷系统了解操作要求,并根据评分细则进开展试评工作,经过系统检测认可通过,方可进入正评环节,实现了前期的宏观校正。评卷中,利用自评监控将一定比例的已评阅试卷隐藏分数后发回本人重评进行评分“一致性”检验,以衡量评卷的稳定性和客观性;利用评分曲线检查、“多评机制”、“有效卷”统计等多种形式、渠道和手段,在评卷环节开展无差别监督制约,实时监控全体人员评卷工作质量,全力解决趋中评分、主观感受差异等原因造成的评分误差,最大限度保证考生得分的客观、公正、合理,实现了评卷过程的宏观校正。
4. 保证评卷工作的便捷精准
网上评卷系统具有成绩统计分析功能,批阅工作结束后,计算机可以立即自动合成考生分数;同时,还可以进行评卷情况和考生得分情况的全样本数据分析,即时调取各分数段考生分布、雷同卷零分卷满分卷等特殊试卷,进行某个评卷人员评分数值分布分析、整体工作效率分析等有关数据分析工作,实现了数据处理的高速、便捷、准确。
5. 为教学和测量工作提供有价值的信息反馈
试卷的电子化处理使试卷长期保存不再受物理空间限制,降低了保管难度,延长了保管时间,只要数据仍在保管期限内,可通过电子存储介质随时调取各类数据信息;当前,教学质量评价信息化已成为教育评价的重要手段和追求目标,网上评卷改变了原有阅卷模式通过抽样调查、估算等模糊方式对试题的信度、效度、难度和区分度进行分析的方法,能够通过评卷系统准确高效的对全部评卷数据进行分析计算,为教学评估、学科建设评估、提高命题工作的适应性科学性等事项提供高速便捷数据支持。
(二)网上评卷尚待解决的问题和原因
由于网上评卷较传统评卷模式具有显著优势,在当今的大规模标准化考试中,已成为整个考试流程的不可替代的重要一环。然而受技术水平、实施方案设计和评卷人员主观原因所限,网上评卷仍存在一些尚待解决的问题,这些问题是造成评卷误差的主要原因,厘清并解决这些问题对于促进评卷技术提高,推动评卷工作发展,维护考试公平正义具有重要的现实意义。
1. 评卷软硬件配置存在不稳定因素
网上评卷数据通常采用专线线路的方式由中心机房的服务器连接至核心交换机,通过专用光纤传送至评卷点,一旦因市政等原因造成线路故障或者任意一台中心机房关联设备无法正常运转,则全部评卷工作将被迫中断。每次评卷前,都需要根据本次评卷任务量、参与评卷用户数量等条件重新准备服务器系统,进行参数配置,此项工作耗时较长,且一旦出现差错,将影响评卷工作的顺利开展。目前网上评卷整体网络架构设计对压力测试提供的数据依赖性较高,然而压力测试过程中的环境设计皆有规律可循,而实际评卷工作开展过程中,不同学科评卷工作量的峰谷规律技术人员一般难以掌握。
2. 专家组指导作用发挥不明显
专家组具体负责本学科的试评、评卷、质量检查以及与之相关的题组之间人员调配、总体进度控制、各项质检参数设置等工作,因其权威性和宏观性,可以起到总体控制、把握方向的重大作用,避免出现整体性偏差。然而在实践中,专家组的作用主要体现在了通过抽查监控的方法来进行评卷人员的个体管理和特殊卷处理上,宏观调配控制的作用发挥不明显,管理潜力有待挖掘。
3. 评分误差难以避免
标准化考试题型一般包括客观题和主观题两种,本研究所说评卷误差主要是指主观题评阅中出现的误差,即评卷教师判断下的考生得分和能反映考生真实水平的分数之间的差异。评分误差的影响因素主要有以下几种:
(1)标准答案与评分细则的局限性
评卷专家组根据试题特点、标准答案制定可参考性、可操作性强,便于推广应用的评分细则,评卷教师以评分细则为参考和指南对主观题进行评分。因此,标准答案以及评分细则能否完整真实的反映出试题考察的目的指向,并且通过评卷过程准确的在考生得分上体现出来,是传统评卷方式和网上评卷方式共同面临并亟待解决的问题。
标准答案与评分细则的科学性程度带来的误差在以下两种情形中表现较为明显:一是二者具有高度概括性和抽象性。主要多见于作文题等题型,考生的答案多样性明显,评卷教师对评分标准又难以把握,自由裁量空间大,主观偏好作用强,难以自始至终把握同一评分尺度。二是二者描述过度详尽要点设置过多。主要多见于主观性较高的分析题等题型,此类题目得分点多,总分值高,计分方式复杂,考生的答案冗长并且要点不明显,评卷教师难以顺利找出所有得分点并统筹衡量评分,由此带来评分误差。
(2)评卷教师业务能力的差异性
评卷教师专业素质是否过硬、教育培训水平的高低以及认知风格决定了对评分细则的把握程度以及运用的持续一致性,是影响评卷误差的关键。评卷教师必须熟悉评卷科目涉及的专业知识,具备充分的专业能力,才能够正确把握试题的命题意图、考察的知识方向,从而科学灵活的评价考生答案,合理判断并准确赋分,避免严苛呆板的机械给分。
(3)评卷过程中心理因素的诱导性
评卷教师基于“理性人”假设的前提被选拔参与评卷工作,然而他们除了具有相同的知识背景、文化传统等共性要件,还具有不同的成长经历、欣赏习惯、心态情绪等个性因素。不同评卷教师个体之间甚至同一评卷教师不同阶段之间,都可能因个人原因导致评分差异,其中,个性因素导致的评卷教师的心理差异是导致评分误差产生的最主要诱因。
①排位效应(ranking effect)
在评卷过程中,即使是同一位评卷教师评阅同一份答卷,在不同的评阅时间段,也会出现分数上的细微差别,这种差别和试卷呈现的位次有关,我们称之为“排位效应”。排位效应是大脑因信息接收顺序不同而影响认知的一种表现,又分“首因效应”和“近因效应”两种。一般来说,评卷教师评分行为往往存在先评较松,后评较严的趋势,我们称之为“首因效应”。如果一位教师在连续评阅多份质量较低的答卷之后,系统分配给予一份要点较为完整的答卷,那么该份答卷评分可能偏高。反之评分可能偏低,我们称之为“近因效应”。
②再认识效应(rerecognition effect)
从整体来看,每位评卷教师的心理素质、业务能力是相对稳定的,但是并不是一成不变的,人们对于事物或过程的正确认识,往往需要经过多次的再认识过程才能确立。在评卷过程中,随着评阅试卷数量的增多,不同考生的回答内容、回答方式会反过来影响评卷教师的思维,其对于评分细则的理解将在最初基础上连续不断的深化和更新,我们称之为“再认识效应”。这种过程性理解的进阶差异,会对评分的一致性带来一定程度的影响。
③晕轮效应(halo effect)
晕轮效应又称光环效应,是指评卷教师对考生作答形式或内容的某一方面特征形成好的印象后,扩大到对考生作答整体的评分中去,以偏概全的打出分数。字迹干净整洁、字体规范美观的作答往往能够取得良好的评分印象,此类试卷最终判分结果往往高于单纯依据作答内容给予的评分,这是评卷中典型的晕轮效应。
④疲劳效应(fatigue effect)
随着试卷评阅的进行,评分教师可能因为长时间高强度的评分工作后情绪和动机都会减弱感到身体疲劳、精力不足,评分责任心、使命感有所下降,绩效水平降低,导致评分一致性变差,评分准确性降低。
⑤趋中性倾向(neutral tendencies)
有研究表明,随着评卷工作的进行,同一位评卷教师评卷速度、出分率等会提高,但是会出现趋中评分倾向。趋中评分倾向指评卷教师在评卷过程中不打高低分,分数整体集中在中间分数段上下小幅度波动。趋中评分这种带有“平均主义”色彩的不严格的评分策略有利于评卷教师规避评分不一致的风险和争议,顺利通过单评、双评等评分一致性检验,但是将直接导致评价效度降低,影响考生真实水平的呈现,带来评分误差。
⑥极端性倾向(extreme tendencies)
对于部分评卷教师,一旦接收到存在趋中评分倾向的监控反馈后,可能会出现矫枉过正的现象,即弱化评分标准的一致性,评出一定量的高分或者低分改善趋中评分趋势。此外,在作文等主观性较强题目的评阅中,评卷教师会受个人情感体验、文化认知、生活经历等因素的影响,对考生作答内容产生情绪共鸣或抵触,从而打出过高或过低的分数。
⑦异化的目标追求(the pursuit of alienation)
网上评卷系统可以提供实时单题评阅进程分析数据,通过对比评卷教师单体打分结果和整体判分分布、平均分、标准差等数据,来监控评卷教师之间的评分一致性,确保评卷质量。当个体判分游离于预设准允偏差值上限之外,电脑会自动发出警报信息,提醒质检组对该教师的打分进行检查。这种评分一致性实时监控促使评卷教师的关注点下意识地从最重要的目标“真分数”转移到了“评分一致性”上面来,从而产生了“快且一致”的不合理目标追求,明显偏离了评卷工作的初衷。
(4)评卷流程组织管理的专业性
有学者认为,评卷教师自身或评卷环境的问题所带来的影响是有限且可控的;但是如果计算机系统或者管理上出了问题,网上评卷所带来的保障就失去了应有的作用。评卷工作往往时间紧、任务重、责任大,这对评卷教师个人的能力素质提出了高要求的同时,管理人员和管理模式的专业性水平也面临着极大的挑战。不舒适的评卷环境、不合理的组织规程、不科学的工作模式、不完备的督查措施、不明快的文化氛围、不顺畅的交流沟通等必然带来评卷教师的不适感受,从而降低评卷质量,加大评卷误差。
(三)网上评卷误差控制措施
为提高评卷质量,保证考试信度,必须以评分误差控制为核心标的,创新手段革新措施,建立科学有效的防控管理体系,通过有效的流程控制和过程管理,使评分结果能够准确反映出学生的真实水平,发挥出考试在选拔和评价中的甄别作用。
1. 科学制定标准答案与评分细则
科学合理的标准答案和评分细则是评卷教师在评卷过程中最重要的参考,是实现评卷公平公正的首要先决条件。标准答案应尽可能多的涉及回答角度,清晰详细地罗列答案的基本结构框架、重点内容,方便评卷教师了解题目考察意图并初步判断试题的难易程度,并制定评分细则。评分细则需要根据题目类型细化评分量表,给出每道题目的满分、得分、扣分规则等。一般来说主观题评分细则类型可以分为三类:分级评分、分步评分和要点评分。分级评分适用于主观性强、开放性大的题目,如作文等,这类题型评分细则要细化评分等级,每个等级均须明确赋分要求、分数区间。分步评分适用于答题步骤明确的题目,如计算类题目等,这类题型评分细则要明确步骤节点,以及每完成一个节点考生可得的相应分数。要点评分适用于主观性较强、半开放式的题目,如案例分析等,这类题型评分细则要明确所有得分要点及对应分数。
2. 建立一支高素质评卷教师队伍
评卷教师是评卷工作最关键的载体,既是主要参与者更是实际操作者,建立一支高素质的评卷教师队伍,是实现评分公平公正的基本保证,因此对于参与评卷的教师,必须经历严格的遴选和培训。
评卷教师必须具备较高的专业素养,这是保证阅卷信度和效度的前提。一般在教育考试中,评卷教师的选聘应当遵循“从相关专业正式教师中选聘”的原则,应符合“有规定年限教学经验并满足职称等级要求;具备所评科目的专业知识;责任心强、作风正派、遵守工作纪律、身体健康;无直系亲属参加考试;熟悉计算机操作技能”等条件。
严格的选聘控制能够初步淘汰不适合网上评卷的教师,但并不等同于选拔出的人员都能够优秀的完成工作任务。部分评卷教师对于网上评卷工作不够熟悉,应对即将面临的困难和挑战准备不足,对评卷工作的严肃性和重要程度认识不到位,单凭个人理解掌握评分要求不准确,仍然不能满足评卷工作需要,因此遴选结束后必须配套做好培训工作。培训的要点应包括以下两方面内容:一是要对评卷文件、评卷系统使用方法、评分标准等业务知识进行重点讲解指导;二是要同步给予思想政治教育、安全保密教育和遵章守纪教育,提高评卷教师的对评卷工作意义和重要性的认识,明确纪律要求。
3. 合理设置评分方法
(1)明确多评控制标准
多评机制是控制评分误差的有效方法。双评由两位评卷教师进行独立评分,所评分数之差为双评差值,其允许存在的极限差为双评差值阈限。当双评差值小于阈限时,评卷系统以两位评卷老师的平均值作为最终得分。当双评差值大于双评差值阈限时,该答案分发给第三位评卷教师进行三评。
《国家教育考试网上评卷统计测量暂行规范》规定:“评分过程中,双评差值阈限一般不能大于题目满分的 1/6”。一般情况下将题目满分的1/6—1/5作为实操过程中的最大允许上限。但是仅有差值阈限最大值的限制性不足以满足评卷误差控制的操作需要。评卷专家组对不同考试题目的理解和误差包容度不同,差值阈限的设置尺度并不统一。双评差值阈限应尽可能详细地提供差值阈限设置采用的计算方式方法,而不是仅仅提供上限值。研究显示,在相同信度水平的条件下,测验分数分布(尤其是标准差)决定着差值阈限的大小,评分差值阈限的基线值应为1.24倍的标准差。
(2)合理设置单题时限
使用技术手段在网上阅卷系统内设置主观题最低浏览时间,能够有效防止评卷教师追求高速草率打分的现象发生。在实际操作过程中,要注意时限长短需要与单题分值、要点数量、评分的难易程度等正向匹配,不可一条线一刀切。对于客观性较强、考生发挥空间较小的主观题或者无作答内容的试卷,为提高阅卷效率,避免不必要的时间浪费,可以不进行时间限制。
(3)重视试评的积极作用
在正式评卷前,试评是必不可少的前期准备工作。学科组专家根据不同题目类型、回答水平等挑选出一份或者几份答卷进行集体讨论、合理打分,之后将这些答卷自动分配到评卷教师计算机终端,评卷教师在不可视专家组打分情况下根据已掌握的题目要求、评分细则进行打分。随后,组织评卷教师对比分析两组结论,对专家组打分要点、评分思路进行细致研究和反复揣摩,体会不同分数等级的差异所在。通过试评,可以有效帮助评卷教师熟悉题目特点、考察方向、评分细则和操作系统,并检验个人对评分细则的理解掌握程度,从而调整给分策略使之更加贴近评分要求。同时,学科组专家可以监控到该学科所有评卷教师的评分情况,并根据系统给出的综合指标对出现偏差的评卷教师进行关注指导,提出针对性建议。
4. 构建质量检验评价体系
为保证评卷质量,应综合利用多种评测手段,建立多维度质量检验评价体系,实现对所有评卷教师的工作开展情况的追踪和检查,进而判断每位教师评分的宽严程度、趋中打分倾向、评卷速度等。一旦发现异常,学科组组长可提醒评卷教师及时修正、调整,确保评卷高质高效进行。组成评卷质量检验评价体系常用的技术手段有评分结果分布曲线检验、评卷质量抽查、评分一致性检验、异常得分率检查、异常卷判定检查等。
(1)评分结果分布曲线检验
正常情况下,每位评卷教师的评分结果分布曲线应该呈现正态分布趋势,通过评卷系统内置检验模块调取个人和小组评分结果分布曲线并过滤出异常曲线,可以直观的对比检查同组个人间和个人与小组整体间的差异,从而实现评卷质量异常检查。
(2)评卷质量抽查
质检组和学科组组长可以对已评试卷进行随机抽样,结合评分细则、考生答案对评卷教师打分的恰当性进行人工检查,对不符合评分细则和尺度的试卷采取返回重评处理,从而实现对部分偏离规则的评分予以纠正。
(3)评分一致性检验
单评或多评机制均适用于评分一致性检验。对于分值较低的题(一般是低于30分),可将评卷教师已评阅的试卷再次发还本人,通过检查两次评分结果的差异是否在规定范围内,来判断该评卷教师的评分质量和稳定性。对于分值较高的题,可随机分发给两位不同的评卷教师进行评阅,如果两位教师的评分差距在误差控制阀值内,则评分具有一致性,分数采取两个分值平均分;如果超出这个范围,则发给第三位教师进行评分,直到评分具有一致性。
(4)异常得分率检查
虽然一份试题不同题目考察的知识点和方式不尽相同,但是每位考生的水平是相对稳定的,主客观题目得分率应当具有一致性。通过对比比较所有考生的相关题目的得分率,可以定位得分率存在较大波动的考生并进行重点检查,从而保证考生成绩的真实性和有效性。
(5)异常卷判定检查
一般情形下,下列几种情况的试卷视为异常卷:一是未按规定用笔作答的,二是笔迹前后不一致的,三是在答题卡做有特殊标记的,四是客观题雷同程度超出合理范围或主观题答案及文字表述高度一致的等。在评卷工作中,一旦发现异常卷,评卷教师可以对其进行标注,被标注的试卷最终将提交给学科组长或者质检组专家进行检查核实。
5. 强化评分过程反馈交流
在线实时监控模块可以及时发现异常情况纠正偏差,但其效用应不止于此,异常反馈的过程不仅起到纠错纠偏的作用,更能促进不同评卷教师之间、评卷教师与学科组长之间的交流互动,可以帮助个体人员以更宏观的视角来把握个人工作开展情况,突破自我局限。评卷过程是相对独立的个体行为,评卷教师相互之间交流沟通比较少,个人对整体平均分、全局速度等的把握更无从谈及。此种认知盲区可能导致个别评卷教师对评分细则执行不到位、评分尺度把握不适度或过于追赶进度等问题。如果能够按照评分阶段将平均分、平均评卷速度、标准差等数据适时地反馈给评卷教师,使其能够了解自己以及其他评卷教师的评分情况,从而及时调整评分策略,实现评分细则执行和评卷速度掌握的双优化、双促进,达到提高评卷工作的科学性和规范性,减小评分误差的最终目的。
6. 完善网上评卷组织体系
网上评卷工作是一个多环节相互关联的有序过程,科学、严密的组织体系是保证阅卷质量的有力保障。网上评卷工作组织体系包含了组织结构、工作模式、质量管理等多环节的布局设置,是评卷自身实施和发展的诉求。
在组织结构上,可采用网络型组织结构,并注重塔式角色分工。成立网上评卷工作领导小组作为管理机构,负责评卷工作的全面组织领导;下设评卷工作办公室和评卷专家委员会,实行集体领导与分工负责管理模式,分别负责具体事项的组织协调和试卷评阅工作。在工作模式上,根据评卷任务涉及的学科不同划分多个学科组。学科组实行组长负责制,任命有学术权威、有组织能力、业内认可的老师为学科组长,具体负责本学科的试评、评卷、质量检查以及与之相关的题组之间人员调配、总体进度控制、各项质检参数设置等工作。学科组下设若干题组,题组长负责监控本题组中各小组长工作质量及评卷教师总体评卷质量,题小组长负责本小组内评卷教师日常评卷质量抽查及进度控制等。学科组开展工作要充分发挥组内集体评阅和研究讨论的作用,如对评分标准等评卷中的重大问题出现异议,须进行集体研究决定。在质量管理上,可单独设置质检组,配备若干质量检查员,负责对评卷教师的工作质量进行检查并对异常卷进行处理,同时监督各级组长对质量检查反馈问题的落实处理情况,评卷结束后负责撰写质量检查报告,并提出合理化建议。
7. 严格网上评卷管理制度
合理的管理制度可以简化管理过程,提高管理效率。在其适用范围内具有权威性和相对稳定性,一旦形成,不能轻易变更,更不得随意修改和违犯,通过强制约束力作用的发挥可以显见的保证工作的有序和高效运转。
通常可采用的管理制度有如下几种:第一,日报告制度。通过每日定时工作例会学科组向评卷工作办公室等汇报当天阅卷情况,及时妥善的处理遇到的困难和问题,以确保后续工作不影响、不间断、不停滞。第二,安全保密制度。充分利用现代化技术手段,通过人脸识别系统、指纹识别系统等录入全部工作人员信息,出入评卷场地一律须经仪器认证并佩戴工作证件方可通行,确保将无关人员隔离在专用场地之外。明确工作纪律,严格要求评卷工作时间不得会客或接待来访,不得向外界提供评卷情况,不准将有关评分细则等材料私自带出评卷场所,以保证评卷信息数据安全。第三,奖惩制度。制定明确的奖惩规则,以维护工作秩序,树立正面激励的鲜明导向,激发评卷教师履职进取的积极性;同时反向对违反工作要求的行为予以规范和约束,明确下限,避免其病态膨胀和失控。第四,评价和总结制度。评卷工作结束后,各学科组要根据评卷工作过程和结果,提交专业化的评卷报告,对命题、考务等前置性环节提出合理化的意见和建议。同时,还要总结考评方向,将评卷和教学研究、教学实际相结合,真正发挥评卷工作的积极作用。
(四)网上评卷未来趋势展望
随着大数据、云计算和移动互联网技术的迅猛发展,人工智能技术开始进入了第三次发展浪潮,引起了社会各界的高度关注。近年来《国家中长期教育改革和发展规划纲要(2010-2020年)》、《“互联网+”人工智能三年行动实施方案》(发改高技[2016]1078号)、《新一代人工智能发展规划》(国发〔2017〕35号)等多项规划方案都明确了教育信息化战略的重要地位,支持在教育等重要领域开展人工智能应用试点示范,加快人工智能创新应用。
人工智能技术正在全面、深刻地影响着教育理念和教育模式的发展,对考试测评更是产生了巨大的影响。随着高精度的手写文字识别、自然语言理解、智能评测等技术的发展,网上评卷通过人工智能评阅主观题已经成为可能。建立在文档图像识别技术、深度神经网络建模评分模型训练和多维度计算机智能评分算法基础上的人工智能辅助评分研究正在教育考试评卷过程中进行着积极的应用探索。
目前国内外人工智能辅助评分主要有两个研究方向:人工特征工程方案和深度学习方案。人工特征方案需要由评卷专家提取评卷标准中的关键性特质和核心要义,机器学习定标样本后通过训练优化过程,最终形成评分模型。然后自动抽取考生答卷样本与这些特征进行抽象对应,综合词、句、语法、切题、连贯性等多个维度完成对相应样本的综合评分。深度学习方案则算法更加复杂,首先通过算法将作答内容分为段落、句子、词组等,进行向量化后通过神经网络来自动抽取与评分细则相关的特征,并进行匹配评分。该方法需要大量的考试数据,其效果随着数据量的增加显著提升,更适应大规模标准化考试评卷工作的需要。根据部分科技公司的测试结果,人机评分的一致率能够达到90%甚至95%以上,完全能够媲美人工双评模式下的评分效果,充分证明了人工智能评分效果的优质化、准确度和稳定性,也侧面反映了人工智能评卷对指定标的有着较强的学习能力,对评分细则的把握基本能够达到与人工评卷人员相当的水平。
未来大规模标准化考试网上评卷工作实施过程中,根据不同的考试形式,将人工评分与人工智能技术相结合,形成多样化的人机协作评分模式,可以大大降低人工工作量和评卷成本,提高评分的准确性和一致性,辅助提升人工评卷的科学性和公正性,更好的实现对阅卷过程的质量监控和考试成绩的定量分析,将是考试组织方式的一项重大革新。在高利害的大规模考试评卷中,让考生、家长和社会接受人工智能评卷方式需要长期的认知接受过程,更需要科技的不断进步以提高人工智能评卷的准确度和精度。人工智能向应用成果的转换还有很长的路要走,是考试机构未来的一项重要研究课题。
三、研究成果与影响
基于课题的研究共形成论文2篇,对未来网上评卷误差的控制和网上评卷工作的进一步发展提供了可参考的依据,论文发表情况如下:
(一)杨帆、邓欣《网上评卷评分误差源起及控制路径选择》发表于全国中文核心期刊《教学与管理》,2020年6月。
(二)杨帆《大规模标准化考试网上评卷实践探究及未来路径选择》发表于《中国多媒体与网络教学学报》,2020年9月。
四、成果统计一览表