论文导读:如何提高接口的高可靠性,以确保整个业务系统的稳定性和错误率的降低,是摆在我们每一个通信运行与维护部门员工面前的重要难题。业务运营支撑系统(BusinessOperationSupportSystem,BOSS)主要涵盖营业、计费、帐务三大分系统,承担着计费、结算、营业、账务、客服等多项业务。BOSS接口系统得以实现,是以接口可靠性为必要前提的,尤其是以消息机制、接口协议以及系统进程最为关键。
关键词:接口系统,可靠性,BOSS,接口维护
随着我国移动通信的迅速发展,客户数量的不断增加和客户身份的不确定性,新业务的层出不穷,以及提高竞争能力和运营能力、控制成本与辅助战略制定、挖掘客户资源的需要等都对原有的业务运营系统提出了新的更高要求。此外,由于移动通信较高的资费费率,对计费、出帐的实时性要求较高,这更是增加了业务系统的设计难度。众所周知,接口阻塞或进程吊死都会影响业务施工,甚至导致整个业务系统瘫痪。如何提高接口的高可靠性,以确保整个业务系统的稳定性和错误率的降低,是摆在我们每一个通信运行与维护部门员工面前的重要难题。
业务运营支撑系统(BusinessOperation Support System,BOSS)主要涵盖营业、计费、帐务三大分系统,承担着计费、结算、营业、账务、客服等多项业务。其中,各分系统间通过一定的接口相互通信,以完成对整体业务的支撑作用。而与外围系统的关联,则主要是在营业厅、金融机构、客服中心以及各式数据业务系统之间起到连接的纽带作用,但是这种连接得以实现,必须而且是完全基于接口的高可靠性。
1.BOSS接口系统的实现机制
BOSS接口系统得以实现,是以接口可靠性为必要前提的,尤其是以消息机制、接口协议以及系统进程最为关键。在BOSS系统中,接口既是一个相对独立的模块,但又关联了内外系统(外围系统、BOSS应用服务器)。论文参考。其中,接口与外围系统(营业厅、银行以及HLR华的交互)采用TCP/IP通信,而与BOSS的交互则既有MQ(消息封装为XML文档)也有直调CICS中间件。对此,值得一提的是,接口进程可表达为主动与被动两种方式,分别表示服务于BOSS调用外围系统与外围系统调用BOSS,即主动接口是由BOSS驱动,通过调用CICS对相关待处理表进行轮询、记录封装、放入MQ队列以及取出消息等环节来完成,而被动接口的执行方向则与之相反,尤其是不采用MQ存储消息。论文参考。由此可以发现,接口系统的可靠性实际上就是接口进程及其相关因素(如消息、库表等)可靠性的实现。
2.接口服务机保障措施
提高系统可靠性的一般做法是建立防火墙、入侵与漏洞检测以及防病毒于一体的防护体系,但该体系仅从网络角度进行,属于基础手段而不具针对性。为此,根据移动各接口数据协议、消息机制各异,通信既有高速海量数据传输,也有控制命令可靠交互的实际情况,重点研究提高接口服务机系统中与接口进程密切相关的因素如接口日志,BOSS库表以及消息等。论文参考。
2.1进程状态研究
进程活跃是接口正常运作的最重要标志,一旦进程吊死则引起相应服务的中断,因此判断进程状态的前提是准确地获得生产进程名称。只有获得相关信息后,才能在活跃进程列表中进行检索,进而获得进程状态。但事实上,笔者要提醒大家注意的是,即便在进程处于活跃列表中,这并不意味着这些进程就是正常工作了,特别是当修改进程相关配置文件后必须重启进程,再运行shell脚本才能使得更新后的配置起作用。因此要结合日志记录做进一步分析,才能得出准确答案。
2.2日志跟踪研究
一般地,日志特征主要有文件是否处于写入状态、内容识别、允许操作时间段以及文件大小等。它研究日志特征是维护接口的有力手段。在实际工作中,我们发现,第一,即便日志正常写入并不等营于接口正常,这是由于配置信息或网络等因素都可能导致指令执行失败造成的。因此需要识别日志内容,特别是以Executed 、Failure等字眼为关键。第二,只有在日志允许操作时间段内,接口进程才是处于运行状态,也就是说在其他时间范围接口进程是处于不工作状态,这样一来,在无效时间段内是没有日志记录的。因此,识别日志特征需要结合业务规则。第三,日志文件大小也是不容忽视的。一般地,我们利用系统指令对日志大小进行监控,但是这种方法比较被动,持续性也不够好。因此,要结合每一个地区的业务实际制定相应的解决方案。
2.3库表监控研究
从理论上讲,似乎BOSS库表与接口进程之间并没有关联,但深入研究接口进程的实现机制便可发现,由于接口施工的业务数据来源于BOSS库表,执行结果最终也是回送到库表中,因此可以说,库表记录累积情况实际上就是对接口运行情况的反映。据此,在通过库表监控接口时应注意查询数据更新的实时性,接口的正常运行将可能使得两次相邻手动查询的结果存在巨大差异。
2.4其它因素
除了上述提高的三大保障接口系统高可靠性措施,还需要随时对以下信息进行监控:服务器CPU、内存等资源使用情况;定期对程序和日志进行备份,在主机程序版本升级时应保证数据同步到备机,以便于在故障发生时查证与恢复;对于采用CICS方式访问数据库的需检查接口,机上CICS客户端是否正常连接,否则接口进程服务将受影响;对于采用MZ方式通信的接口需检查相应队列启动状态。
3.制定应急方案
要根据总公司《应急预案管理办法》并结合本地实际情况制订详细具体的《宕机应急演练方案》。其中,该预案主要包括以下几个方面:①绘制接口机与备机所处的网络环境,标明主备机IP 地址;②列出主接口机上涉及进程的对应程序以及其启动方法;③列出保证备机可完全代替主机的必要运行环境、数据与配置等;④准确描述判断生产进程正常运作的特征,如连接的MQ、CICS 等;⑤明确模拟宕机以及恢复的逻辑步骤,误操作的回滚方法以及负责人;⑥注明涉及的配置文件与修改方法;⑦其它注意事项。
对于紧急情况,比如开机时间过长,让客户等待以及可能引起批量投诉而又无法及时处理的情况,最直接的方式则是通过缩短流程,执行模拟指令以尽快为用户开通业务,防止影响扩大,待系统正常后再同步数据。
4.结束语
BOSS 接口系统的可靠性对保证电信运营商业务支撑系统的安全与稳定具有十分重要的意义。结合工作经验,从原理和应用两层面分析如何提高接口系统的可靠性,主要涵盖了进程、日志与库表等监控措施,并针对紧急情况提出制订预案与解决办法,相信对通信行业的信息系统维护会有一定借鉴性。但对日志的研究还需要进一步研究与证明。此外,应急工具功能也需进一步完善。
【参考文献】
[1] 滑洪晋,李雪钢,姚庆祥.加强安全防范措施提高BOSS系统的可靠性与安全性[J].网络与信息,2006,(11):24-28.
[2] 陈健荣,黄伟,陈强,王勇炫.BOSS 接口系统的可靠性研究.顺德职业技术学院学报,2009 年3 月第7 卷第1 期.
[3] 李 波.基于电信BOSS系统的接口技术的研究[D].长沙:中南大学,2007:56-63.
[4] 李建平,韩卫占,白龙江. 通信网网络管理系统的可靠性与安全性研究[J]. 无线电通信技术,2002,8(5): 56- 59.
|