论文导读:条件随机场模型(ConditionalRandomFields。本文在特征构造时。命名实体一般由多个字或词组成。特征,基于条件随机场的中文命名实体识别。
关键词:命名实体,特征,条件随机场
1条件随机场模型介绍
条件随机场模型(Conditional Random Fields,CRFs)是近年来在序列标注问题中应用的比较多,也是效果最好的一种模型。论文检测,特征。。它没有隐马尔可夫模型那样严格的独立性假设,同时克服了最大熵马尔可夫模型和其他非生成的有向图模型所固有的标记偏置的缺点。
1.1 条件随机场模型定义
Lafferty等定义的条件随机场模型为[1]:设无向图G=(V,E),其中V是该无向图中所有顶点的集合,E是其边的集合。Y是G中的顶点索引,即 。当Y的出现条件依赖于X,且Yv根据图结构的随机变量序列具有马尔可夫特性,即 ,则称(X,Y)是一个条件随机域。


条件随机场是一种用于在给定输入结点值时计算指定输出结点值的条件概率的无向图模型。若X是一个值可以被观察的“输入”随机变量集合,Y是一个能够被模型预测的“输出”随机变量的集合,且这些输出随机变量之间通过指示依赖关系的无向边所连接,如图1-1所示。
1.2 模型参数求解
Lafferty提出了使用基于IIS(Generalized IterativeScaling)和GIS(Improved Iterative Scaling)的两种算法对CRFs模型参数进行估计[1]。GIS算法和IIS算法都属于迭代梯度方法的范畴。论文检测,特征。。迭代梯度方法比较简单、容易实现,但是存在收敛缓慢的缺点。Hannah Wallach[2]通过实验证明,对CRF模型参数的求解,较之传统的迭代梯度方法,数值优化方法的收敛速度更快。目前广泛使用的条件随机场参数估计算法是L-BFGS算法,它是一种近似的二阶方法。
2 数据准备
2.1 语料
在试验中,训练语料和测试语料使用了亚洲微软研究院的MSRA语料库。该语料库是近年来在各种评测会议中用的比较多的,具有容量大、范围广、平衡性好、以及通用性高等特性。
2.2 各类字典
本文中所用的字典包括人名字典(PER)、地名字典(LOC)、机构名字典(ORG)、译名常用字字典(TCC)、中文人名姓常用字典(CXCC)、中文人名姓不常用字典(CXBC)、中文人名常用字字典(CMCC)、人名前缀字典(PPC)、机构名后缀字典(SOC)、地名后缀字典(SLC)、常用单字词字典(SWC)、词典(WORD)。这些字典主要是从MSRA语料库、98年人民日报上半年的以及互联网中提取或获取的。其中各字典的词条数依次为:40855,61717,26093,679,100,856,550,695,2125,517,3423,191923。条件随机场的训练和测试使用了工具CRF++ 0.51。论文检测,特征。。
2.3 特征构造
在应用条件随机场理论进行名实体识别时,通过前人的试验结果表明,基于字的识别效果明显好于基于词,因此,本文在特征构造时,选择窗口为5,基于字的进行特征选择。
在特征选择过程中,所用的初始特征模板是利用复旦大学Zhang[3]等提出的特征模板,然后在模板基础上进行改进,获得本文中提出的最优模板。论文检测,特征。。本文特征模板包含四部分,分别是:基本特征、后缀特征、字典特征以及复合特征。
2.3.1 基本特征
命名实体一般由多个字或词组成,例如“东莞理工学院”,这些字或词在命名实体中出现的频率不一样,有的字或词出现时,可能就是命名实体的一部分,而有些字或词则不太可能出现在命名实体中,例如单字词“了”,“的”等等。
表2-1 基本特征
基本特征 |
当前字的前后窗口中的字 |
当前字是否是单字词 |
当前窗口中的所有3个连续字是否分别构成词 |
当前窗口中的所有4个连续字是否分别构成词 |
当前窗口中的前3个字分别是否为中文人名姓高频字 |
当前窗口中的前3个字分别是否为中文人名姓低频字 |
当前窗口中的所有字是否中文人名名高频字 |
当前窗口中的所有字是否译名人名高频字 |
本文中所有的基本特征如表2-1所示。
2.3.2 前后缀特征
在本文中的前后缀特征,主要包括人名前缀、地名后缀、机构名后缀。本文所用的前后缀特征见表2-2。
表2-2 前后缀特征
前后缀特征 |
当前窗口中的后3字分别是否是地名后缀 |
当前窗口中的后3字分别是否是机构名后缀 |
当前窗口中的所有连续的2字构成词是否是人名前缀 |
当前字与其前后字分别构成的词是否是机构名后缀 |
当前字与其前后字分别构成的词是否是地名后缀 |
当前窗口中的所有连续的3字构成词是否是人名前缀 |
当前字与其后2字构成词是否是地名后缀 |
当前字与其后2字构成词是否是机构名后缀 |
当前窗口中的前4字构成词是否是人名前缀 |
当前窗口中的的所有字构成词是否是人名前缀 |
2.3.3 字典特征
本文通过逆向最大匹配先找出识别文本中的字典中出现的命名实体。本文字典特征包括人名字典特征、地名字典特征和机构名字典特征。字典特征见表2-3。论文检测,特征。。
表2-3 字典特征
字典特征 |
当前字与前i个字和后j个字共同构成的词是否是人名 |
当前字与前i个字和后j个字共同构成的词是否是地名 |
当前字与前i个字和后j个字共同构成的词是否是机构名 |
2.3.4 复合特征
在本文中组合原子特征得到的复合特征有:“人名前缀+中文人名姓”、“中文人名姓+中文人名常用字”、“中文人名常用字+中文人名常用字”、“译名常用字+译名常用字”、“人名前缀+译名常用字”、“地名+地名后缀”、“机构名+机构名后缀”等等。
为验证本文提出的复合特征的有效性,设计了一组对比试验,对比增加复合特征前后的试验结果。试验1只包含上述介绍的基本特征、字典特征、前后缀特征,试验2包含上述介绍的四种特征。试验1和实验2对应的试验参数见表2-4。
表2-4 有无复合特征对比试验模型训练参数
|
Num of features |
Freq |
eta |
C |
试验1 |
309699 |
1 |
0.00010 |
0.8 |
试验2 |
318383 |
1 |
0.00010 |
0.8 |
试验1的试验结果如表2-5所示。从表2-5可知,在无复合特征的条件下,对人名、地名的识别效果已经比较理想,但对机构名的识别效果比较低,尤其是机构名识别的召回率比较低。表2-6给出了试验2的试验结果。从表2-6试验结果显示,机构名识别的准确率和召回率相对人名和地名依旧比较低,但有所提升。
从图2-1的试验结果可知,通过增加复合特征,对机构名识别具有较大的提高,机构名识别的准确率、召回率和F值均提高了2个百分点,但整体识别的F值,只提高了0.6个百分点。对于机构名,由于其构成字数较多,原子特征跨度不够,不能提供机构名完整信息,因此通过加入复合特征能很好的提高机构名的识别效果。
表2-5 无复合特征试验结果
NE |
Precision |
Recall |
F(β=1) |
PER |
95.21% |
91.74% |
93.44% |
LOC |
91.95% |
89.40% |
90.65% |
ORG |
83.19% |
79.94% |
81.53% |
Overall |
91.11% |
88.11% |
89.59% |
表2-6 有复合特征试验结果
NE |
Precision |
Recall |
F(β=1) |
PER |
95.58% |
91.03% |
93.25% |
LOC |
92.78% |
89.54% |
91.13% |
ORG |
85.23% |
82.34% |
83.76% |
Overall |
92.03% |
88.47% |
90.21% |

图2-1 有无复合特征识别结果比较
2.4 系统结构
由于本文中主要研究的是应用条件随机场进行中文命名实体识别,而且所有的试验均是首先在CRF中实行,用最大熵只是为了对比试验,所以在此就介绍基于CRF的NE识别系统的框架。论文检测,特征。。图2-2给出了本文应用CRF进行名实体识别的总体框架。
该系统包括净化模块、训练模块、测试模块和后处理模块。
 

2.5 基于CRF模型的试验结果
表2-7和表2-8分别表示例句“由全国人民代表大会常务委员会委托曹志秘书长负责选举香港特别行政区第九届全国人民代表大会代表的工作。” “全/B-ORG”表示当前字为“全”,对应字典特征为“B-ORG”,表中的数据表示当前字在具有已知字典特征的条件下,分别标记成13种可能标记的对应权重。对比表2-7和表2-8中加粗的数据可以看出,通过在训练时应用只包含训练语料中的部分命名实体的字典,降低了字典特征的权重,降低了识别结果对字典特征的依赖程度,相应提高其他特征的权重。
表2-7试验1训练所得模型中例句字典特征参数
|
由/0 |
全/B-ORG |
国/I-ORG |
人/I-ORG |
民/I-ORG |
代/I-ORG |
… |
0 |
1.423 |
0.142 |
0.133 |
0.133 |
0.133 |
0.133 |
… |
B-LOC |
-0.599 |
0.042 |
-0.462 |
-0.462 |
-0.462 |
-0.462 |
… |
B-ORG |
-0.600 |
1.163 |
-0.174 |
-0.174 |
-0.174 |
-0.174 |
… |
B-PER |
-0.616 |
-0.059 |
-0.231 |
-0.231 |
-0.231 |
-0.231 |
… |
E-LOC |
-0.741 |
0.013 |
-0.0401 |
-0.041 |
-0.041 |
-0.041 |
… |
E-ORG |
-0.488 |
0.074 |
0.886 |
0.886 |
0.886 |
0.886 |
… |
E-PER |
-0.162 |
-0.036 |
-0.372 |
-0.372 |
-0.372 |
-0.372 |
… |
I-LOC |
0.294 |
-0.283 |
0.093 |
0.093 |
0.093 |
0.093 |
… |
I-ORG |
-0.444 |
-0.851 |
0.872 |
0.872 |
0.872 |
0.872 |
… |
I-PER |
0.149 |
-0.209 |
0.135 |
0.135 |
0.135 |
0.135 |
… |
S-LOC |
0.770 |
-0.201 |
-0.251 |
-0.251 |
-0.251 |
-0.251 |
… |
S-ORG |
0.609 |
0.330 |
-0.276 |
-0.276 |
-0.276 |
-0.276 |
… |
S-PER |
0.407 |
-0.125 |
-0.313 |
-0.313 |
-0.313 |
-0.313 |
… |
另外,对于应用只包含训练语料中的部分命名实体的字典训练出来的模型,各特征权值已确定,可以通过扩大测试时所用字典包含的命名实体数量,提高识别结果的召回率,以优化识别效果。
表2-8 训练所用字典包含部分训练语料中命名实体的所得字典特征参数
|
由/0 |
全/B-ORG |
国/I-ORG |
人/I-ORG |
民/I-ORG |
代/I-ORG |
… |
0 |
1.033 |
-0.053 |
-0.114 |
-0.114 |
-0.114 |
-0.114 |
… |
B-LOC |
-0.547 |
0.134 |
-0.035 |
-0.035 |
-0.035 |
-0.035 |
… |
B-ORG |
-0.385 |
0.762 |
-0.344 |
-0.344 |
-0.344 |
-0.344 |
… |
B-PER |
-0.205 |
-0.174 |
-0.051 |
-0.051 |
-0.051 |
-0.051 |
… |
E-LOC |
0.243 |
-0.012 |
-0.373 |
-0.373 |
-0.373 |
-0.373 |
… |
E-ORG |
-0.483 |
0.003 |
0.749 |
0.749 |
0.749 |
0.749 |
… |
E-PER |
-0.319 |
0.047 |
-0.412 |
-0.412 |
-0.412 |
-0.412 |
… |
I-LOC |
-0.364 |
-0.044 |
0.474 |
0.474 |
0.474 |
0.474 |
… |
I-ORG |
-0.604 |
-0.505 |
0.786 |
0.786 |
0.786 |
0.786 |
… |
I-PER |
-0.112 |
0.012 |
-0.137 |
-0.137 |
-0.137 |
-0.137 |
… |
S-LOC |
1.005 |
-0.417 |
-0.228 |
-0.228 |
-0.228 |
-0.228 |
… |
S-ORG |
0.322 |
0.361 |
-0.196 |
-0.196 |
-0.196 |
-0.196 |
… |
S-PER |
0.418 |
-0.114 |
-0.118 |
-0.118 |
-0.118 |
-0.118 |
… |
2.5.1 后处理结果
如表2-6所示,人名实体识别效果最好,F值达到93.25%,但机构名实体由于实体比较长,构成字或词较多,特征不明显等原因导致识别效果只有83.76%。
经过后处理后,结果如表2-9所示。人名、地名的识别效果达到比较高的效果。同时机构名的识别效果也达到了可以接受的程度。
从图2-3可知,准确率、召回率和F值都有相应的提高,其中召回率提高了将近2个百分点,同时F值也提高了1个百分点。可见,通过后处理弥补了在特征模板中缺少全局特征的缺点。
表2-9后处理结果
NE |
Precision |
Recall |
F(β=1) |
PER |
96.06% |
92.70% |
94.35% |
LOC |
93.56% |
91.06% |
92.29% |
ORG |
84.92% |
84.22% |
84.57% |
Overall |
92.46% |
90.11% |
91.27% |


3结 论
本文构建了一个具有一定规模的各类命名实体以及各类特征提取相关的字典集。该字典集具有噪音低、纯度高、代表性强等特点。以及通过对基本特征进行细化和组合,从实验中总结出一个能很好表征各类命名实体的特征模板。实现了基于条件随机场模型的中文命名实体识别。
通过实验结果分析,基于条件随机场的识别结果明显优于基于最大熵的识别结果。
参考文献:
[1]JohnD.Lafferty,AndrewMcCallum,FernandoC.N.Pereira.ConditionalRandomFields:ProbabilisticModelsforSegmentingandLabelingSequenceData.InProc.ofICML.2001:282~289
[2]HannaWallach.EfficientTrainingofConditionalRandomFields.UniversityofEdinburgh.2002
[3]YuejieZhang,ZhitingXu,TaoZhang.FusionofMultipleFeaturesforChineseNamedEntityRecognitionbasedonCRFModel.AsiaInformationRetrievalSymposium(AIRS2008).2008
|