
(1)
这个模型采用了 组log 变换的形式(保证了概率之和为1)。其中 , 和 都是需要确定的最优值。计算概率值的公式为:


(2)
通常用最大似然法来估计方程(2)中的 个参数: , 。
2.2特征选择
LR法的建模过程本身就具有挑选变量的功能,即只有对因变量贡献率达到一定程度的特征变量才能进入回归模型中,对因变量没有贡献或者贡献很小的特征变量最终会被剔除。LR中评价一个模型的优劣,并且进行特征选择的依据是每个特征的最大log likehood(LL)值。模型偏差D可以定义为:D=-2(当前模型的LL值 — 饱和模型的LL值)。其中,饱和模型指的是各模型参数的大小一致,似然值为1的模型。偏差值D越小说明模型越优化,当前特征越重要。加入一个新的特征时,偏差的减小和似然比的减小是等价的。发表论文。而当样本数N足够大时,似然比呈 分布 [4] 。因此我们在前向选择过程中用似然比作为判断某一特征的依据。若在加入某一特征前后模型的偏差之差大于或等于某一限值,则认为此特征在类的判定中有较大贡献,否则,可认为此特征是冗余的。算法步骤如下:
(1) ,令 , ;
(2) , , ,其中 为集合R的势;令 , ;
(3)若 ,结束循环,且 ;否则执行步骤(2)。
表示将元素 从集合 中移除。在这个算法中,两个模型的偏差之差可以近似认为是自由度为 的 分布。DF由两个模型特征的不同,即需评价的特征数决定。限值 2/5 首页 上一页 1 2 3 4 5 下一页 尾页 |