由程序计算得到;
ξ (A0,A) ——标准答案与学生答案的单向贴近度阀值。组卷时生成,也可评分时修改,从试卷库中取得。其含义是:
当ξ (A0,A)<ξ (A0,A)时,ξ (A0,A)=0
当ξ (A0,A)≥ξ (A0,A)时,ξ (A0,A)=ξ (A0,A)。
So——试题的分值。组卷时生成,从试卷库中读取;
(5)评分流程
自动评分流程如图1-1。

图1-1 自动评分流程
从图中可以看出,客观题的评分不受任何参数的影响,主观题的评分受P、ξk0(K,A),ξ (A0,A)三个参数的影响,P增大,关键词在评分中占的比重就增大,反之则减小;一般来说,ξk0(K,A)、ξ (A0,A)增大,则表示评分标准提高,反之,评分标准降低。因此,通过调整这二个参数,即可实现对评分标准的调整。这三个参数可在组卷时设定,保存在试卷信息中,也可在评分时进行调整。
(6)实例分析
为了清楚地说明上述算法,本文设计了一个算例。
设:问题Q=“什么是算法”;(10分)
标准答案Ao=“算法是问题求解规则的一种过程描述(即计算机解题的过程)。它具有5个基本性质:确定性、有穷性、可行性、输入和输出。”(44个字符)
得分点的关键词: K1=问题求解 K2=过程 K3=确定性
K4=有穷性 K5=可行性 K6=输入 K7=输出
关键词的个数n=7;
试题的分值So=10;
关键词在该题目中所占分值的比例P=0.8;
关键词与学生答案的单向贴近度阀值ξk0(K,A)=0.4;
标准答案与学生答案的单向贴近度阀值ξ (Ao,A)=0;
学生答案A=“算法是一种解题的过程,它具有逻辑性、可计算性和穷尽性。”(27个字符)
计算得:
ξk1(K1,A)=2/4=0.5
ξk2(K2,A)=2/2=1
ξk3(K3,A)=0/3=0 因ξk3(K3,A)<ξk0(K,A),故ξk3(K3,A)=0
ξk4(K4,A)=3/3=1
ξk5(K5,A)=2/3=0.67
ξk6(K6,A) =0/2=0
ξk7(K7,A)=0/2=0
ξ (A0,A)=27/44=0.614
由评分公式(1-2)计算可得:
S=(0.8*(0.5+1+0+1+0.67+0+0)/7+(1-0.8)*0.614)*10=4.85(分)
由此可得出,通过自动评分程序计算出的该题的实际得分为4.85分,若阅卷老师认为该分数偏低或偏高,可通过调整P、ξk0(K,A)、ξ (A0,A)再重新进行评分。
而人工阅卷,不同的阅卷人评分有差异。最高为6分,最低为4分,平均分是5.3分。与系统自动评分相差0.5分左右。这说明自动评分是可靠的。
对于本文的在线测试系统中,系统自动评分子模块中的主观题评分子模块,通过一段时间、人工阅卷和系统评分同时并用,发现多数情况下,比较一致,分数相差在0~2分之间。但有时会有很大出入。
测试用例:
问题Q=“什么是算法”;(10分)
标准答案Ao=“算法是问题求解规则的一种过程描述(即计算机解题的过程)。它具有5个基本性质:确定性、有穷性、可行性、输入和输出。”(44个字符)
学生答案A=“算法是一种解题的过程,它具有逻辑性、可计算性和穷尽性。”(27个字符)
求得第i个关键词与学生答案的单向贴近度ξki(Ki,A),用系统自动评分公式计算可得学生得分为4.85分。(见公式1-2)
而人工阅卷,不同的阅卷人评分有差异。最高为6分,最低为4分,平均分是5.3分。与系统自动评分相差0.5分左右。这说明自动评分是可靠的。
学生答案B=“算法是一种算题顺序的描述,它具有逻辑性、能计算性和有限性。”(28个字符)
由自动评分公式得:0.18分。
人工阅卷,平均分为4分。相差2.2分。分析原因发现:评分公式的中的模糊贴近度函数是按关键词匹配为基础的,这虽然与教师阅卷思路是一致的,而且在多数情况下是比较可信而且客观的,但是若出现同义词,如学生答案B中,有限性与标准答案Ao中穷尽性是同义词,若是人工阅卷,会给一定的分数,而自动评分算法给分很低或者为0。(若是没有相同的关键字,自动评分为0)
结论:本算法还不够完善,虽然多数情况下是可靠的,但有时会有很大出入。为了增加可靠性,对于主观题阅卷,本系统采用人工阅卷和系统评分同时并用的方法。期望本算法能提供给同行一点有益的启发,来解决这个技术上的难关。
参考文献
[1] 刘洁.多媒体远程教育技术的发展现状及问题初探[J].中国远程教育,2003,(10):34.
[2] 王春东,王定基,王劲松.现代远程教育实现中的主要技术的研究[J].天津理工学院学报,2003,16(2):107-111.
[3] 祝智庭.网络教育应用教程[M].北京:北京师范大学出版社,2001:130.
[4] 许骏,柳泉波.IT技能测评自动化-理论技术应用[M].北京:科学出版社,2003,19-21.
2/2 首页 上一页 1 2 |