【科学网】5月27日以“青岛理工大学研发数据处理新方法”为题对该校理学院的王金良副教授与同事李宗军合作研发的ESMD方法进行了报导(http://news.sciencenet.cn/htmlnews/2013/5/278345.shtm);继而,5月30日该校校报又以“我校教师研发数据处理新方法受关注”为题做了后续报导(http://news.qtech.edu.cn/article.php?articleid=24900);7月3日报道正式见报于《中国科学报》(2013-07-03第4版国际),题目为“青岛理工发明数据处理新方法”(http://news.sciencenet.cn/sbhtmlnews/2013/7/274855.shtm)。
ESMD方法是“极点对称模态分解方法”的简称[1],是著名的Hilbert-Huang变换[2]的最新替代方法,可用于信息科学、海洋和大气科学、经济学、生态学、医学和地震学等领域所有涉及数据处理的科研和工程应用。从我们的初步尝试结果[3]来看,ESMD方法适用于海-气通量研究,优于观测风速的湍流与非湍流成份的分离。另外,从一些海洋学专家的反馈情况来看该方法的试用效果良好。
该方法的研发历时两年之久,完成于2012年4月,公开于2013年3月。相关论文可通过arXiv电子论文公开网站免费下载查阅(http://arxiv.org/abs/1303.6540),正式论文[1]即将于7月份见刊于常规国际期刊AdvancesinAdaptiveDataAnalysis, Vol.5no.3。相关计算软件已获批二项计算机软件著作权。软件是基于Scilab[4]开发的,由于目前正处于界面封装和版本升级阶段暂停提供源代码形式的V1.0版计算程序。
高科技的核心是“数学技术”,而“数学技术”的主要手段是数值模拟和数据处理。有成熟数学模型的问题适用数值模拟,没有数学模型的问题只能依靠数据处理了。特别地,对于物理机制不明确的过程,研究有赖于观测实验。探索的方式往往是将杂乱无章的随机观测数据分解成不同频率的模态,从中寻找可能的变化规律。
在随机数据处理方面,经典的方法是Fourier变换。它将一个观测时间序列映射到频率-能谱空间,其每一个模态都是振幅与频率不变的正弦函数。其缺点是只适用于线性平稳情况;Wavelet变换是目前比较盛行的方法,它通过取定一系列的频率窗口对信号进行分解,在一定程度上弥补了Fourier变换的缺陷,能够表达出频率的时变性。其缺点是只适用于线性非平稳情况;以经验模分解(EMD)为基础的Hilbert-Huang变换是目前比较热门的方法,它是一种数据自适应处理方法,不需要预先取定基函数或窗口长度,其分解模态不但频率可变振幅也可变,适用于非线性非平稳信号。存在问题主要有:筛选次数难以确定[5],分解出的趋势函数太粗略,Hilbert谱分析存在局限等[1]。
随机数据处理的根本问题在于其非平稳性,一是趋势有变化,二是振幅和频率有时变性。对于存在大的趋势变化时,如何抽出全局均线是最要紧的问题。Fourier变换在一开始就认为全局均线为零,“最小二乘法”必须有先验的函数形式,“滑动平均法”在时间窗口和权函数选取上缺少依据,小波变换其实也是一种滑动平均。只有把全局均线比较好地滤除了剩下的才能看成脉动量。
所提出的ESMD方法借鉴了EMD的思想,将外部包络线插值改为内部极点对称插值,借用“最小二乘”的想法来优化最后剩余模态使其成为整个数据的“自适应全局均线”,并由此来确定最佳筛选次数。考虑到包括Hilbert变换在内的所有积分变换在分析时-频变化方面都存在固有缺陷,我们抛弃了频谱分析依靠积分变换的传统观念,创造性地提出了针对数据的“直接插值(DI)法”。借此不但可以直观地体现各模态的振幅与频率的时变性,还可明确地获知总能量变化(此处“能量”是广义的,对气温而言指温度脉动强度)。其实,软件程序所输出的基于“直接插值法”的时变频谱图比Hilbert谱更直观也更合理,因为不但频率是变化的总能量也是变化的刻意将能量视为恒量并将其映射到一系列固定频率上是牵强的。
ESMD方法模态分解示例:
例1.对由正弦函数、加权周期函数和抛物线合成的信号:
进行模态分解试验。由图1可见最佳筛选次数为29,它对应着最小的方差比率(表明最后的剩余模态R是数据的最佳自适应全局均线)。此时所对应的分解也是最佳的,三条函数曲线得到了明确分离(见图2)。
图1:方差比率随筛选次数的变化(29次最佳)
图2:ESMD对应于筛选次数为29的分解结果(其中第一子图为合成信号)
例2.对由美国气候数据中心所提供的2008.05.10 -2011.11.03间实测气温数据进行模态分解试验。此时最佳筛选次数为30,相应的分解见图3。其中,剩余模态R为最佳自适应全局均线对应于年际气温变化(图4说明R能很好地拟合数据),第5、4、3模态分别对应平均周期大约为66天、35天、17天的气温波动。特别地,我们可以通过各模态振幅的变化情况来判定温度异常发生的频段和时间(图3,图6)。此例中,模态5振幅变化小而模态4振幅变化大这表明气温异常主要发生在周期为35天的时间尺度上,而异常时间主要集中在2009年的1至3月份。另外,软件程序还可输出基于“直接插值法”的时变频谱图(图5),比Hilbert谱更直观也更合理,因为不但频率是变化的总能量也是变化的(图7)不能将能量视为恒量并将其映射到一系列固定频率上。最后的图8反映了滤除均线后的脉动量,比“最小二乘”法和“滑动平均”法得到的要好。
图3:ESMD对应于筛选次数为30的分解结果(横坐标代表时间/天)
图4:最佳自适应全局均线R对数据的拟合情况
图5:时变频谱图(一条线代表一个模态的频率变化)
图6:模态频率和振幅的时变图(F和A分别代表频率和振幅)
图7:模态总能量的时变图
图8:滤除非平稳自适应全局均线R后的脉动量
参考文献:
[1] Jin-Liang Wang and Zong-Jun Li. Extreme-Point Symmetric Mode Decomposition Method for Data Analysis.Advances in Adaptive Data Analysis, Vol. 5 no.3, 2013 (in press).
[2] N. E. Huang et al. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis. Proc. R. Soc. Lond. A, 454: 903C995, 1998.
[3] Hui-Feng Li, Jin-Liang Wang and Zong-Jun Li, Application of ESMD Method to Air-Sea Flux Investigation.International Journal of Geosciences, 2013 (in press).
[4] Scilab科学计算软件平台使用说明 http://www.scilab.org/
[5] Jin-Liang Wang and Zong-Jun Li. What about the asymptotic behavior of the intrinsic mode functions as the sifting times tend to infinity? Advances in Adaptive Data Analysis, 4(1 & 2), 1250008, 2012.
附正式期刊Advances in Adaptive Data Analysis, Vol. 5 no.3题为“Extreme-Point Symmetric Mode Decomposition Method for Data Analysis”的摘要如下:
An extreme-point symmetric mode decomposition (ESMD) method is proposed to improve the Hilbert-Huang Transform (HHT) through the following prospects: (1) The sifting process is implemented by the aid of 1, 2, 3 or more inner interpolating curves, which classifies the methods into ESMD_I, ESMD_II, ESMD_III, and so on; (2) The last residual is defined as an optimal curve possessing a certain number of extreme points, instead of general trend with at most one extreme point, which allows the optimal sifting times and decompositions; (3) The extreme-point symmetry is applied instead of the envelop symmetry; (4) The data-based direct interpolating approach is developed to compute the instantaneous frequency and amplitude. One advantage of the ESMD method is to determine an optimal global mean curve in an adaptive way which is better than the common least-square method and running-mean approach; another one is to determine the instantaneous frequency and amplitude in a direct way which is better than the Hilbert-spectrum method. These will improve the adaptive analysis of the data from atmospheric and oceanic sciences, informatics, economics, ecology, medicine, seismology, and so on.
关键词:Extreme-point symmetric mode decomposition (ESMD); Empirical mode decomposition (EMD);
Hilbert-Huang transform (HHT); Direct interpolating (DI); Adaptive global mean (AGM);
Intrinsic mode function (IMF); Data (Signal) processing.