1)使用哪种途径快速精确地获取用户个性化兴趣。
2)使用哪种用户个性化兴趣表示方法,更能够准确详实地描述用户兴趣。
3)使用哪种途径更新用户个性化兴趣,使其当用户个性化兴趣发生变更时能精确的重新获得用户当前兴趣。
2用户个性化兴趣的获取
用户个性化兴趣的提取即根据用户的注册信息(年龄、性别、父母职业、专业、学历、爱好等)、浏览行为信息(检索的关键字、访问内容、停留时间、访问次数等),把用户个性化兴趣组合起来并加以表示的过程。用户个性化兴趣的提取途径有两种:
(1)明获取
明获取方法需要用户的配合,要求主动的向系统发送自己的兴趣,重要方式为:用户提交注册信息、用户对系统推送的个性化信息进行满意度打分、提交自己最近兴趣(用户通过一定方式提交自己最近感兴趣的主题、关键字、文章标题等,用户也可以把自己的兴趣通过文章概述的形式描述出来发送给系统)等。
(2)暗获取
暗获取不需要用户有意识的去发送自己的兴趣描述。系统通过对用户的访问页面的行为和方式等信息进行挖掘以得到用户个性化兴趣。该方式下用户用户不需要有意识的参与。当前暗获取主要信息来源是Web日志,采用Web日志可以知道用户的访问某页面的次数、在该页面上的停留时间等。通过对Web日志分析系统可以获得页面相关性、用户群兴趣的相似度、访问模式及某一用户所属的兴趣群等信息,图书馆个性化服务系统可以通过这些信息创建、更新用户描述数据库。
3用户个性化兴趣的表示
表示用户个性化兴趣的方法多样,目前没有形成统一的一个标准,我们经常用以下几种方法表示用户个性化兴趣:
1)主题表示法
用户个性化模型的主题表示法是指采用用户感兴趣资源的主题来表示用户兴趣模型的方法。如用户对哲学和工学类感兴趣,则用户模型表示为{哲学,工学}。该表示法一般与相应的领域相结合。
2)关键词表示方法
用户个性化兴趣模型的关键词列表表示法是采用用户感兴趣的资源的关键词表示用户个性化兴趣的方法。例如:用户对计算机感兴趣,则用户个性化模型可以表示为{软件,网络,数据库,硬件,信息管理系统}等。关键词可以是用户有意识的提交给系统,也可以是用户无意识的提交给系统。WebWatcher是典型的利用关键词列表方式表示用户个性化兴趣模型的系统。
3)加权关键词向量表示法
向量空间模型是20世纪70年代中期由杰拉尔德·索顿提出的检索系统的向量模型,是到目前为止应用最多且效果较好的用户个性化模型表示方法。向量空间模型中的特征向量是由文本中提取的特征项组成的,且以某种形式为其特征项赋权。如文档T可表示成 ,其中 是特征项, 。因特征重要程度有异,可以采用附加权值ωx进行量化,文档T则可表示为: 。向量的各维都由一个关键词、权值组成。权值的数值类型为布尔型和实型,依次可以表示用户对某个关键词感兴趣与否,以及感兴趣的强烈程度。
4用户个性化兴趣的更新
用户个性化兴趣更新是指当系统通过一定的方式获取用户临时兴趣后,怎么把用户临时兴趣与系统中用户原有兴趣合并而得到用户当前兴趣的方法。
时间的推移,用户的兴趣也在不断的变更,当用户个性化兴趣变化后,用户的浏览行为也在发生变化,系统提取的用户个性化兴趣也会不同。这时系统提取的用户个性化兴趣是改变后的用户个性化兴趣,系统把改变后的用户个性化兴趣添加到用户个性化兴趣,结合以前用户个性化兴趣即是用户当前兴趣,用户个性化兴趣的改变在系统中主要体现在用户个性化兴趣的更新。
(四)图书使用模型
1图书使用模型构架
数字图书馆个性化服务系统中图书使用模型主要包括图书访问记录收集、图书图书访问记录提取、呆滞图书更新、呆滞图书表示等。
图书模型成功的关键准确提取呆滞图书资源,并形成一个随时间变化而周期性变化的呆滞图书曲线,以合理的安排图书资源,做到图书馆资源整合。呆滞图书是指图书馆中访问量极低的图书。在建立图书模型时需要解决以下问题:
1)采用何种方法准确快速的提取图书访问记录。
2)采用何种方法精确方便的更新呆滞图书。
3)采用何种方法能够把呆滞图书分门别类的表示出来。
2图书访问记录提取
图书访问记录提取是根据对访问记录的提取,来发现各种书籍的访问情况,进而确定在某段时间内哪些是闲置书籍。访问量提取的方法有三种:
1)基于日志文件的方式
通过预处理服务器上记录的访问日志文件,提取有效信息,进而获取图书资源的访问次数。服务器上的日志文件主要有ISS、APACHE日志等。
2)基于监听方式
监听方式主要借助用户请求被服务器过滤特点,用户对任何一个页面的请求都能被服务器检测到,而且服务器可以修改一个request,这样服务器可以借助程序记录用户对所有图书页面的访问次数。 3/4 首页 上一页 1 2 3 4 下一页 尾页 |