| 表3-1 成绩-就业表   学号 专业基础课 专业课 实践课 英语 从事工作性质 7000101 良 优 优 良 E1 7000202 良 良 中 中 E2 7000203 优 优 优 优 E1 7000204 优 良 良 中 E2 7000205 中 良 良 良 E2 7000206 良 良 中 良 N1 7000207 优 优 优 中 E1 7000208 中 中 良 优 E2 7000209 中 中 良 中 E2 7000210 中 中 中 优 N1 7000211 优 优 优 良 E1 7000212 良 良 良 良 E2 7000213 优 良 中 良 E2 7000214 良 优 优 良 E1 7000215 良 优 良 中 E2 7000216 优 良 良 优 E2 7000217 良 良 中 中 N1 7000218 优 优 优 良 E1 7000219 优 中 优 中 E2 7000220 优 中 中 良 N1 7000221 中 优 优 中 E1 7000222 中 良 良 良 E2 7000223 中 良 良 良 E2 7000224 良 中 中 中 N1 7000225 良 中 中 良 N1 7000226 优 优 优 优 E1 7000227 良 良 良 中 E2 7000228 中 良 良 优 E2 7000229 良 优 优 良 E1 7000230 优 良 良 良 E2 7000231 优 良 良 优 E2 7000232 优 中 良 中 N1 7000233 中 中 优 中 N1 7000234 良 中 良 良 N1 7000235 良 优 优 良 E1 3.3构造决策树 选用如上图所示的训练样本集,并依据C4.5算法构造决策树。选取属性-就业表的属性项“从事工作性质”为类别标识属性。属性项“专业基础课”、“外语水平”、“专业课”、“实践课”、“英语课”作为决策属性集。 训练样本数据集中共有35个元组,有三个类别E1, E2, N1。依照三类的分类信息35个元组中,属于E1的为10组;属于E2的为15组;属于N1的为10组。为了计算决策属性项的信息增益,通过下式计算分类属性项的期望值: 
  =1.257
 下面分别对专业基础、专业课、实践课、英语课四个决策属性项分别计算机他们的信息增益,为决策树分支时提供依据。 (1)通过下式求出专业基础课属性项的信息增益 : 
 其中:  =1.46
  =1.548
  =1.224
 专业基础成绩的信息增益率为: 
 (2)通过下式求专业基础课属性项信息增益 : 
 
 
 
 则: (3)通过下式求出专业基础课属性项信息增益 : 
 
 
 则可求得实践课的信息增益率为: 
 (4)通过下式求英语课的信息增益 : 
 
 
 
 根据四个决策属性计算出来的增益率,选择增益率最小的一个属性作为第一层分类控制节点(即根节点),然后对每一个分支依然计算每个分支决策属性的信息增益率,确定下一步分裂的属性项。如上重复做下去,可以得到下图(由于专业基础课的信息增益率很小,为了方便作图省略了该决策属性)。 图2-1 各课程信息增益率 3.4知识描述 (1)当专业课的成绩优秀并且实践能力优秀时,该毕业生从事的工作性质往往高度接近所学专业。 (2)当专业课和时间课都处在良这个水平时,大多说毕业生从事的工作性质与所学专业相关。 (3)当专业课成绩和实践课成绩都为中时,大多数毕业生就业所从事的工作与所学的专业相关性非常的小。 (4)专业基础课成绩对毕业生就业从事工作的性质决策意义不大 3.5结论 根据以上四点知识,认为专业课和实践课对学生的就业非常重要,应加大数量、提高质量;英语技能对毕业生就业从事工作的性质不明显,可以适当调整降低比重。 3、总结 由于大学毕业生就业政策的不断调整和就业渠道的扩展,今后还需对相关的决策树算法作进一步深入的研究和探讨,进一步优化相关算法,同时进一步提高算法的实用性,为学校专业设置、教学与课程改革提供依据。 参考文献:
 [1]陈安, 陈宁, 周龙骧等. 数据挖掘技术及应用[J]. 北京: 科学出版社, 2006.
 [2]李宏. 时间序列模式发现和应用. 中国计算机学会,第七届联合国国际计算机会议论文集[C]. 汕头:汕头出版社,2000, 1242~1245.
 [3]王欣. 基于数据挖掘的高校学生培养及就业指导研究[D]西南交通大学, 2006 .
 [4]彭松波. 数据挖掘技术在高校就业管理系统中的应用研究[D]浙江工业大学,2006
 [5]于卓. 应用决策树构建个人住房贷款风险评估模型[D]东北财经大学, 2007 .
 [6]马冰冰. 学生信息管理与数据挖掘的应用[D]山东大学, 2008 .
 [7]屈元子,李茹. 基于数据仓库的煤矿历史数据分析[J]电脑开发与应用,2008,(01)
 [8]曹方兴. 数据挖掘就业数据及其引发的思考[J]科技经济市场, 2007,(09) .
 [9]张骏,王琴. c4.5算法在研究生就业信息库中的应用研究[J]信息技术,2009,(11)
  2/2   首页 上一页 1 2 |