基于WEB挖掘的个性化教学推荐系统_Web挖掘

时间：2012-10-17 作者：刘秀敏,刘秀娟,王国明,周立波

论文导读:：本文提出通过心理学量表对学习风格进行测试。提出了许多个性化推荐系统。通过AprioriAll算法求解频繁访问序列[2]。
论文关键词：学习风格，Web挖掘，个性化推荐，AprioriAll算法

一、引言

基于Internet技术的教育网络化趋势不仅为学生提供了便利的学习方式和广泛的选择，也为学校提供了更加深入地了解学生需求信息和学生行为特征的可能性。但随着Web上信息量的爆炸式增长，网上的资源得到极大丰富的同时也充斥着大量的垃圾信息，当学生们面对这些庞大芜杂的信息海洋时变得无所适从，因而迫切需要能从这些纷繁芜杂的信息海洋中主动过滤并推荐给学生他们所需信息的个性化辅助教学推荐工具，本文就是针对这个问题而提出的。

目前人们利用数据挖掘技术，提出了许多个性化推荐系统。本文提出通过心理学量表对学习风格进行测试，并针对实际收集到数据的稀疏特点，采用项目评分预测的协同过滤算法^[1]（Item-Based Top-N推荐算法），尽可能准确地测试出学生的学习风格。然后结合Web日志挖掘技术，收集不同风格学生浏览网页的特点，通过AprioriAll算法求解频繁访问序列^[2]，得到不同风格学生的Web使用习惯，然后依据当前学生浏览页面向学生实时推荐下一步可能会访问的部分网页Web挖掘，提高学习效率。

二、个性化教学系统结构设计

根据WWW体系结构和网络学习系统的特点，需要采用一种新的设计框架来处理挖掘过程。作者采用挖掘学生历史浏览行为(记录在服务器日志中)和分析学生学习风格这两类特征来构建学生模型。

首次登陆系统时需对学生的学习风格进行测试，首先利用项目评分预测协同过滤算法（Item-Based Top-N）对未评分的项目进行评分，然后统计总分即可得到学生的学习风格类型这一特征值；对于己注册的学生则提取MFR路径（最大前引用）对Web服务器中的Web日志进行预处理，可得到学生最大向前向访问的路径，再用AprioriAll算法挖掘学生访问网页的频繁序列，把这一频繁序列作为特征值连同学生风格这一特征值进行数据预处理，即可得到学生个体兴趣模型，然后对其进行访问模式挖掘即可得到学习风格类型相同的学生所具有的访问模式，最后根据这一访问模式利用个性化推荐算法进行学习内容推荐。本文的系统结构设计如图1 所示。

图1个性化挖掘和推荐模块

三、实现个性化教学推荐系统的关键步骤

1 构建学习风格及兴趣模型

学习风格是学生对学习方法的定向或偏爱，是学习者特有的认知、情感和生理行为，是学生持续一贯带有个性特征的学习方式。因此本文结合学习风格构建能代表学生特征的学生学习风格及兴趣模型。为了更加准确的测试出学生的学习风格类型，本文采用了所罗门风格量表和Kolb风格量表进行测试，由于学生数目的急剧增加和项目众多的风格量表导致学生评分数据的不完善，而产生了数据的稀疏性，这使得计算目标用户的项目评分后不能准确的测试出学生的学习风格。本文来采用基于项目评分预测的协同过滤推荐算法^[1]计算项目间的相似性，预测学生对未评分项目的评分，就可以有效地解决数据稀疏情况下的学习风格的测试问题，能更加准确的测试出学生的学的风格中国学术期刊网。具体实现如图2所示。

图2学习风格的测试流程

首先可以得到学生学习风格测评数据矩阵,假设用户为User-1，User-2,…，User-n，心理学量表的测量相目为Item-1,Item-2,…,Item-m,这样矩阵的形式如图3所示。

显然当缺少学生对某一些项目的评分时，量表就无法完成对学习风格的评价，在自主学习的环境产生这种现象中是很常见的。为此有必要填补学生未评分的部分，完成对学习风格的评价。作者通过两步来完成对未评分项目的填充：

用户项目	Item-1	Item-2	…	Item-j	…	Item-m
User-1	R11	R12	…	R1j	…	/
User-2	R21	/	…	R2j	…	R2m
…	…	…	/		…	…
User-i	Ri1	Ri2	…	/	…	/
User-n	/	Rn2	…	Rnj	…	Rnm

图3学习风格测评数据矩阵

（1）计算各项目之间的相似性。对于所有用户U，假设他对项目Item-j1和Item-j2同时作了评价，这样它们之间的相似性可以用多种方法计算^[3]，其中本文采用Pearson-r相关计算Web挖掘，其公式如下：

其中表示用户U在项目j1上的评分，表示第j1项目的平均评分。

（2）根据第一步，可以求得与Item-j最相似的N个项目，假设用户i还没对Item-j的进行评分，可以采用如下公式计算：

最后，计算已评分的项目和预测到项目的评分的和，即可得到学生对量表的总评分，也就得出了学生的学习风格类型。

3.2 模式发现与个性化推荐

作者进行的模式发现是从大量的学习者访问事务中找出所有的频繁序列集，这一过程也称为Web使用习惯发现，其中也包含了用户兴趣的因素。本文在设计中采用AprioriAll挖掘算法，具体的实现过程如下。

（1）寻找频繁序列

首先从服务器的Web日志文件中提取用户访问序列，经过预处理（MFR）以后可以得到Web访问事务子集如表1所示，其中Tid代表事务编号，Sid代表学习风格类型，Tp代表该事务中的内容页面，Fp代表频繁访问序列集。根据AprioriAll挖掘算法进行挖掘，得出学习风格类型所对应的频繁访问项集，如表2中的频繁访问项集。

（2）AprioriAll算法

第一步；寻找大序列。算法的基本思想是对数据进行多次遍历，在每次的遍历过程中从一个大序列组成的种子集开始，利用这个种子集，可以产生新的潜在大序列。在遍历过程中，计算这些候选序列的支持度，经过这样一次遍历的之后，就可以决定哪些候选集是真正的大序列，这些序列构成了下一次遍历的种子集。

第二步：连接步。进行与的连接运算；如<1,2,3>与<1,2,4>连接成为<1,2,3,4>。要注意的是<1,2,3,4>和<1,2,4,3>是两个序列。

第三步：剪枝步。即进行修剪；对于一个连接过后的序列，如果它的任意一个子列不在中，那么删除该序列，这个过程称为修剪。

（3）个性化推荐

由于不同学习风格类型学生的在学习中具有不同的频繁序列集Web挖掘，可以根据这一些频繁集合进行推荐。具体实现如下：

第一步：根据用户的当前访问操作生成相匹配的推荐集，推荐集是由与当前用户访问操作相匹配的访问操作模式组成，每一个访问操作模式都

是根据用户当前访问站点的方式，分析发现潜在有用的、相链接的Web页。

第二步：利用固定大小的滑动窗口滑动覆盖当前的用户访问操作序列进行推荐。滑动窗口内的当前用户访问操作序列随着访问进程的进展，不断地向前更新。如设滑动窗口大小为4，当前滑窗内的用户访问操作序列为（A，B，C，D），当用户访问了E之后，新的滑窗内的用户访问操作序列变成了（B，C，D，E）。这样的处理对于个性化推荐是非常有意义的，因为采用过长的当前用户服务操作序列，在与频繁项匹配操作时，很难获取非常多的信息，即相匹配的项很少。而短序列能获得非常多相匹配的项，从推荐服务意义上，这是很有价值的中国学术期刊网。

4. 实验结果分析

为了验证本文建立的数据模型的性能和效率，本文利用该数据模型在真实的环境进行了一系列的实验。实验系统以我们开发的大学计算机原理精品课程网站为原型，参加实验人员为计算机专业的二年级两个班学生共63 人，实验要求在2个月时间内，按照自己的兴趣浏览完网站内容，浏览时间共计不得少于60 小时。选取这63名学生的数据进行分析。

本文采用测试学习风格类型结合挖掘用户访问序列的方法所开发的模型，首先利用测试数据集对该模型进行测试，其对相同的学生进行推荐后所取得的效果，和仅根据用户访问序列推荐方法进行测试的模型相比Web挖掘，其结果如图4 所示。由于本文在对访问序列挖掘前又对学生的学习风格进行了测试，既根据学习风格推荐又根据这类学习风格类型学习所采用的频繁访问序列推荐，这样既能提高推荐的效率又能提高推荐的精确度。又因为学生的学习风格不是被限定为唯一类型的，可能会偏向某一类型更多一些，所以本系统提供对学生的学习风格进行多次测试，更新了学习风格类型后，那么推荐信息也随之更新，而仅根据访问序列挖掘进行推荐的系统的推荐内容不会马上发生更新，所以本系统的推荐更新速度也比仅用访问序列挖掘更新的快。

图4 推荐的满意度比较

从以上的比较可见，系统的实际测试结果还是比较满意的，说明本文的方法确实可行。

5. 结束语

本文提出一个结合检测学生学习风格和挖掘频繁访问序列的个性化推荐系统。本系统与过去研究最大的不同在于挖掘了两个代表学生学习偏好的特征向量。一个推荐系统推荐效果的好坏不仅取决于采用推荐的算法，更取决于对使用者兴趣爱好的挖掘，本文通过对学生学习风格和频繁访问序列这两个特征值的采集，能更加深入地挖掘用户的真正兴趣。实验也证明了模型有效性和准确性。由于各方面条件的限制，对模型的测试没能在现实门户网站上进行，测试结果可能会带有一定的主观性。今后的工作将首先是在进一步改进算法效率的同时对系统进行实际测试, 然后是对多站点Web日志挖掘及时效性分析，以及在多站点同时实现协作过滤和内容过滤。

参考文献
[1]Karypis G. Evaluation of Item-based Top-N Recommendation Algorithms[R]. Minneapolis: Dept. of Computer Science, University of Minnesota, Technical Report:#00-046, 2000.
[2]Jiawei Han, Michelinc Kamber. Data Mining Concepts and Techniques[M]. Bei Jing: China Machine press, 2001.8:152~157
[3]Sarwar B, Karypis G, Konstan J, Riedl J. Item-Based collaborative filteringrecommendation algorithms. In: Proc. of the 10th Int'l World Wide Web Conf. New York: ACM Press, 2001. 285~295

查看相关论文专题：

	加入收藏打印本文
上一篇论文：供电企业数据备份与恢复系统研究_SAN网络
下一篇论文：对PDF文档的认识与应用探讨_OCR

科技论文分类

相关计算机论文

初中生英语学习风格探析_外语教学

最新计算机论文

读者推荐的计算机论文