论文摘要:把匹配抽象时间序列相似性的方法引入到地震预报的应用中,结合大量地震历史源数据,地震领域的专家经验知识和相关成果基础上,提出了一种简化的抽象时间序列匹配模型。该模型在对海量数据进行预处理筛选的基础上在进行时间相似性匹配,增加了横向和纵向多方位地区和多方位时间段的匹配,不同时间差和阈值的匹配,并通过大量实验对该模型进行了反复验证,同时对我国地震频繁地区近几十年的地震历史数据进行了相似性匹配实验分析,取得了可信度较高的实验结果,实验结果验证了所给时间序列相似性匹配控制策略的有效性、实用性以及算法的优越性。
论文关键词:时间序列,序列匹配,地震预测,算法,地震相关地区
0引言
时间序列(Timeseries)泛指那些随时间或空间有序变化的数据集合,这些数据记录集合往往采用等时间或空间间隔进行度量。如何有效的管理和利用海量数据序列,有效的发现和理解这些数据序列背后隐含的规律和知识,已受到越来越多数据挖掘研究者广泛关注。在其相应的数据挖掘系统中,时间序列的相似性查询是分析时间序列变化规律的一种重要方法。对于时间序列的分类、预测及知识发现都具有重要的现实意义。比如在我们熟悉的股票,期货,具有相似性销售的产品,恒星的光谱曲线中相似性度量都具有不可替代的作用。
地震序列是一维时间序列,却蕴藏着动态演化的中其它变量的痕迹和信息,因此对地震序列的研究具有重要意义。时间序列相似度序列匹配是在时间,震级数据库中找出与给定时间,震级序列模型相似的序列,对相似性度量的建立求解过程,是数据挖掘中一类重要问题,具体表现在大量数据中具有时间和另一性质的二维相关性。在地震预报科学中,经过大量的研究和积累,专家们发现在一定的区域中地震活动具有同步涨落的现在。也就是说在一定的区域范围中的两个地区,特定震级以上的有明显震感的地震相伴发生的现象称为地震的相关现象,也称地震的区域相关性。
地震的相关性反映了地球的自转,向心力相似,地质构造的相似,板块运动等对地震发生的规律性的影响。所以寻找地震相关区域,进而预报相关的地震,是人们最常用的预报地震的方法之一。鉴于传统方法费时费力,预报不精确等特点。本文把数据挖掘技术引入地震预报科学中,通过不同地区地震数目的不同,首先进行粗相似匹配,即对原始地震数据中相差一定地震数目条数以下的地震区域将其转化为粗相似格式,其次对粗相似区域中的数据项转化为时间序列,对粗相似的区域进行时间相似度匹配来发现地震相关区域,从而进行地震预报。本文首先结合地震领域的相关知识,定义了序列的相似度量模型,提出了一种基于相似度序列匹配的算法,利用相关的地震相似度全面的对时间,经纬度和震级等地震相关信息进行处理,从而快速,全面的找出地震的相关区域。
1地震相关地区的序列相似性定义及度量模型
地震相关地区相似度匹配研究可以分为以下几个部分:相似性的定义,度量模型的建立和相似度匹配算法的实现。
相似性定义和度量模型一般根据不同的需求进行定义,进而转化为一些抽象的数学模型来解决问题。传统的相似性定义是根据时间序列数据的上升或下降的趋势和需解决的问题相结合来定义。比较典型的有ARMA(autoregressionmovingaverage)模型,采用的是随机时间序列分析技术;DFT(discretefouriertransform)模型,采用的是把时间序列转化为空间中的点,对这些点进行分析处理。这些模型中都用了欧几里德距离作为序列间的相似性评价函数,也就是当两个序列间的欧氏距离小于一定的阈值时,就认为此序列相似。但在实际应用中,由于序列长度不一,采样率不同,数据多少相差较大等问题,使得欧氏距离很难直接用于解决问题。
由于地震数据记录的每一次地震发生的时间,经度,纬度,震级以及地震事件序列等。其具非线性特点,传统的时间序列相似性度量模型和匹配很难使用于地震数据。
对此,本文根据地震相关领域知识,通过适当的数据预处理,将其转化为一定震级,一定时间,一定空间范围内的地震事件序列集。构成不同的地震时间序列。下面给出地震序列及相似性定义及地震序列相似性的模型。
定义1(地震事件)把预处理过的地震数据目录中的每一条地震记录定义为一次事件。按照不同的空间属性划分为不同的地震事件集。在地震事件集上t时刻发生的地震事件记为F(t)。
定义2(地震事件序列)在一定的区域中发生在一定的时间范围H内的地震事件集Ft={F(t)|t∈H}在时间轴上的一个排列。
定义3(地震序列)对预处理过的地震数据目录里的地震数据提取其时间和震级,抽象为地震序列。
定义4(完整地震序列)在某些地震区域中,对于地震序列S,在没有发生地震事件的时间上用空元素给予填充的地震序列S′。
定义5(地震相似性)设x,y分别是两个地震序列,用函数ω(x,y),θ(x,y)来表示其相似性。令ω(x,y)=1,若|x(t)-y(t)|≤M;
ω(x,y)=0,若|x(t)-y(t)|>M;
x(t),y(t)表示x,y的时间点,x(t)-y(t)表示其时间差。
令θ(x,y)=1,若|x(m)-y(m)|≤M;
θ(x,y)=0,若|x(m)-y(m)|>M;
x(m),y(m)表示x,y的震级数,x(m)-y(m)表示震级差。
M为年份误差的阈值,M;为震级误差的阈值。M越小时间相差越小,M越小震级相差越小。所以x,y可以对应不同的时间点,M和M为用户给定。
定义6(地震序列相似性模型)设X和Y为两个不同的地震序列,则X和Y的序列相似性可以用这两个序列中对应每一组数据的相似进行统计,记为相似性加权累计和来度量。 1/3 1 2 3 下一页 尾页 |