基于词典微观数据结构和工作流的词典计算机辅助编纂*

时间：2011-04-23 作者：秩名

论文导读：计算机辅助词典编纂系统设计的基本思路是对词典微观数据结构加以组织构建具有内在关联的数据表集合，然后建立操作这些表的用户接口，使得用户可以在专业的界面上进行词典编纂工作。深层次的计算机辅助编纂是对上述传统编纂过程的改革，由计算机全程控制工作流程，工作任务的转移递交完全在计算机上进行，同时尽可能的减少人工干预，以保证信息数据的公平公正和及时性。
关键词：典编纂,工作流
利用计算机技术进行词典编纂的目的可以简单概括为 [1] ：降低工作量，提高工作效率，保证词典出版的时效性。计算机辅助词典编纂系统设计的基本思路是对词典微观数据结构加以组织构建具有内在关联的数据表集合，然后建立操作这些表的用户接口，使得用户可以在专业的界面上进行词典编纂工作。显然从长期词典编纂和词典复用的角度来看，这样的词典编纂专业系统提高了工作效率，降低了工作量也保证了词典出版的时效性的，但我们也可以看到这里计算机的主要作用只是以其超越于人的记忆能力充当大型存储仓库而已，整个词典编纂系统也只是将传统的词典编纂方式搬到计算机上而已，是一种浅层次的计算机辅助编纂。
深层次的计算机辅助编纂，覆盖词典编纂全过程，包括语料采集、语料处理、语料查询、词目编制、义项例证的收集筛选和词典出版等；深层次的计算机辅助编纂是对上述传统编纂过程的改革，由计算机全程控制工作流程，工作任务的转移递交完全在计算机上进行，同时尽可能的减少人工干预，以保证信息数据的公平公正和及时性。
以下从词典微观数据结构和词典编纂工作流两个方面来谈深层次的计算机辅助编纂。
1词典微观数据结构
1.1 词典微观数据结构的定义
词典编纂以大规模词条文本信息为基础数据，这些信息是相当分散和独立的，如何将这些分散、孤立的各类信息变成网络化的信息资源，将众多“孤岛式”的信息系统进行整合，实现信息的快捷流通和共享，是词典行业信息化过程中亟待解决的问题。简单的来说，就是如何设计词典微观数据结构。
Chomsky认为词库是词汇成分的集合，而每一词汇成分又是特征的集合；词库必须明确每一词汇成分所独有的语音、语义和句法特征 [2] 。词典微观数据结构是词条的结构 [3] ，本文中的词典微观数据结构就是指词汇特征集合（并不完全等同于Chomsky的词汇特征分类）；研究词典微观数据结构的目的就是为了更好的保证数据的有效交换和长期保存数据。1987年秋，由人文学科计算机协会（ACH）、文学与语言学计算机处理协会（ALLC）与计算语言学协会（ACL）联合提出了《文本编码倡议》（Text Encoding Initiative，简称TEI） [4] 。TEI的主要任务就是制定出一套用于电子文本的描述方法、标记定义、记录结构和文本编码方式。TEI是专门制定的针对文字处理的通用编码标准，使用标准通用标记语言（SGML）和可扩展标记语言（XML）等通用编码规范，为学术性出版机构、数据库管理和办公自动化的文本处理与广泛交流奠定了基础。本文中的词典微观数据结构标准制定的基础来自于TEI，通过对词汇的相关特征数据信息进行分类处理，形成完整的词典微观数据结构标准，以满足计算机识别和自然任阅读的需要。
1.2 词典微观数据结构模型
如前所说词典微观数据结构是围绕词条信息而言的，词典微观数据结构从理论上讲应该包含词汇所有的词条相关特征信息，在实际的计算机系统应用中应做适当的裁剪。词条特征信息，具体地讲，在词典微观结构中字段表现为一个末端数据项，如单一词目（lemma）的拼写、读音、词类、句法、搭配、释义、例证、内词条、参见、辞源、附加说明等简单信息形式 [5] 。通过对词汇特征分析并加以裁剪，可以构建图1所示的词典微观数据结构（以不同的词典理论为依据可以形成不同的词典微观数据结构。）。

图1 词典微观数据结构模型示意图
词典微观数据结构以依赖于词形序号的词目（即同形词目词）为出发点，分为三大部分：基本信息、义项例证和扩展附加。基本信息只包括：读音、词缀和词源等；义项例证信息包括词性、义项和例证等，同一词性可以并存多个义项，同一义项也可能并存多个例证；扩展附加信息主要有三个部分：内词条、参见词和附加成份。
2 工作流
2.１工作流的定义和分类
工作流（Workflow）就是工作流程的计算模型，即将工作流程中的工作如何前后组织在一起的逻辑和规则在计算机中以恰当的模型进行表示并对其实施计算 [6][7] 。工作流解决的主要问题是：为实现某个业务目标，在多个参与者之间，利用计算机，按某种预定规则自动传递文档、信息或者任务。工作流属于计算机支持的协同工作（Computer Supported Cooperative Work，CSCW）的一部分。后者是普遍地研究一个群体如何在计算机的帮助下实现协同工作的。
国际上对工作流的分类有各种不同的标准，按工作流的用途和技术特点分为以下四种类型：生产型、管理型、协作型和特定型 [8] 。
生产型(Production)：它是一种高端工作流系统，工作流的高级形式，用于实现企业业务关键流程的自动化，系统多运行于大规模，复杂，异构的环境上.系统所管理的流程与相应执行实体或组织的功能直接相关，往往需要大量组织和人员的参与，如银行的信用和贷款管理系统等。
管理型(Administrative)或结构型(Structured)：由较为结构化和可预见的过程组成，用于执行简单可重复和可预测的流程，流程在实例化之前需要定义流程所需的全部信息，流程实例化后，流程的定义很少修改，不要求控制复杂流程和访问多个信息系统。论文发表。这种WFMS类似于表单处理系统,如大学注册管理系统，账单应用流程系统等。

1/3 1 2 3 下一页尾页

查看相关论文专题：

	加入收藏打印本文
上一篇论文：我省农村公路建设存在的问题及解决对策
下一篇论文：东北三省的金融合作初探_区域经济

经济管理分类

电子商务论文	人力资源管理论文
企业管理论文	市场营销论文
管理学论文	国际贸易论文
工商管理论文	财务管理论文
项目管理论文	网络营销论文
经济学论文	客户关系管理论文
酒店管理论文	物流论文
质量管理论文	金融论文
教育管理论文	成本管理论文
广告设计论文

相关项目管理论文

基于构件技术的工作流系统研究(图文)

最新项目管理论文

读者推荐的项目管理论文