表3-1 成绩-就业表
学号
专业基础课
专业课
实践课
英语
从事工作性质
7000101
良
优
优
良
E1
7000202
良
良
中
中
E2
7000203
优
优
优
优
E1
7000204
优
良
良
中
E2
7000205
中
良
良
良
E2
7000206
良
良
中
良
N1
7000207
优
优
优
中
E1
7000208
中
中
良
优
E2
7000209
中
中
良
中
E2
7000210
中
中
中
优
N1
7000211
优
优
优
良
E1
7000212
良
良
良
良
E2
7000213
优
良
中
良
E2
7000214
良
优
优
良
E1
7000215
良
优
良
中
E2
7000216
优
良
良
优
E2
7000217
良
良
中
中
N1
7000218
优
优
优
良
E1
7000219
优
中
优
中
E2
7000220
优
中
中
良
N1
7000221
中
优
优
中
E1
7000222
中
良
良
良
E2
7000223
中
良
良
良
E2
7000224
良
中
中
中
N1
7000225
良
中
中
良
N1
7000226
优
优
优
优
E1
7000227
良
良
良
中
E2
7000228
中
良
良
优
E2
7000229
良
优
优
良
E1
7000230
优
良
良
良
E2
7000231
优
良
良
优
E2
7000232
优
中
良
中
N1
7000233
中
中
优
中
N1
7000234
良
中
良
良
N1
7000235
良
优
优
良
E1
3.3构造决策树
选用如上图所示的训练样本集,并依据C4.5算法构造决策树。选取属性-就业表的属性项“从事工作性质”为类别标识属性。属性项“专业基础课”、“外语水平”、“专业课”、“实践课”、“英语课”作为决策属性集。
训练样本数据集中共有35个元组,有三个类别E1, E2, N1。依照三类的分类信息35个元组中,属于E1的为10组;属于E2的为15组;属于N1的为10组。为了计算决策属性项的信息增益,通过下式计算分类属性项的期望值:

=1.257
下面分别对专业基础、专业课、实践课、英语课四个决策属性项分别计算机他们的信息增益,为决策树分支时提供依据。
(1)通过下式求出专业基础课属性项的信息增益 :

其中:
=1.46
=1.548
=1.224
专业基础成绩的信息增益率为:

(2)通过下式求专业基础课属性项信息增益 :




则:
(3)通过下式求出专业基础课属性项信息增益 :



则可求得实践课的信息增益率为:

(4)通过下式求英语课的信息增益 :




根据四个决策属性计算出来的增益率,选择增益率最小的一个属性作为第一层分类控制节点(即根节点),然后对每一个分支依然计算每个分支决策属性的信息增益率,确定下一步分裂的属性项。如上重复做下去,可以得到下图(由于专业基础课的信息增益率很小,为了方便作图省略了该决策属性)。
图2-1 各课程信息增益率
3.4知识描述
(1)当专业课的成绩优秀并且实践能力优秀时,该毕业生从事的工作性质往往高度接近所学专业。
(2)当专业课和时间课都处在良这个水平时,大多说毕业生从事的工作性质与所学专业相关。
(3)当专业课成绩和实践课成绩都为中时,大多数毕业生就业所从事的工作与所学的专业相关性非常的小。
(4)专业基础课成绩对毕业生就业从事工作的性质决策意义不大
3.5结论
根据以上四点知识,认为专业课和实践课对学生的就业非常重要,应加大数量、提高质量;英语技能对毕业生就业从事工作的性质不明显,可以适当调整降低比重。
3、总结
由于大学毕业生就业政策的不断调整和就业渠道的扩展,今后还需对相关的决策树算法作进一步深入的研究和探讨,进一步优化相关算法,同时进一步提高算法的实用性,为学校专业设置、教学与课程改革提供依据。
参考文献:
[1]陈安, 陈宁, 周龙骧等. 数据挖掘技术及应用[J]. 北京: 科学出版社, 2006.
[2]李宏. 时间序列模式发现和应用. 中国计算机学会,第七届联合国国际计算机会议论文集[C]. 汕头:汕头出版社,2000, 1242~1245.
[3]王欣. 基于数据挖掘的高校学生培养及就业指导研究[D]西南交通大学, 2006 .
[4]彭松波. 数据挖掘技术在高校就业管理系统中的应用研究[D]浙江工业大学,2006
[5]于卓. 应用决策树构建个人住房贷款风险评估模型[D]东北财经大学, 2007 .
[6]马冰冰. 学生信息管理与数据挖掘的应用[D]山东大学, 2008 .
[7]屈元子,李茹. 基于数据仓库的煤矿历史数据分析[J]电脑开发与应用,2008,(01)
[8]曹方兴. 数据挖掘就业数据及其引发的思考[J]科技经济市场, 2007,(09) .
[9]张骏,王琴. c4.5算法在研究生就业信息库中的应用研究[J]信息技术,2009,(11)
2/2 首页 上一页 1 2 |