爱气象,爱气象家园! 

气象家园

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 1168|回复: 7

从贝叶斯(bayes)到局地集合变换卡尔曼滤波(LETKF)~C3蝴蝶效应-非线性误差如何刻画

[复制链接]
发表于 2024-2-21 23:00:12 | 显示全部楼层 |阅读模式

登录后查看更多精彩内容~

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
Long time no see

呆在家里的这段日子,看了一些一直心心念的文献,也终是学到了更多的皮毛,得以将自己对同化的认识又提升了一个层次


攻克的版块主要有两大块,一个是之前一直弄不明白的,Monte Carlo在气象中的应用究竟从何而来,如今又怎样,另一个是本贴大框架中的LETKF所对应的滤波,即filter,和平滑,即smooth,区别究竟有哪些,基础的推导哪些地方不同,所得到的结果又会存在哪些实际和理论的区别。

当然,本文还是依照原来的思路继续迈进,以上所得会在之后慢慢展开。

先对之前C2进行一个简单的整理。

1. 虽然真值是不可知的——其实这也意味着误差同时也是不可知的,但是我们可以对误差进行一个定性的估计(实际应用中是需要定量的,但需要时刻谨记,所谓的定量也含有定性的成分,因为真值永不可知,误差也就永不可及),比如对温度的误差估计,我们可以说此刻的误差是大是小。那么在此情景下,如果是线性系统,因为误差是可以显式传递的,也就是说,只要我们知道目前的定性误差,我们就能知道该线性系统在未来任意时刻的误差相较于初始时定性误差谁大谁小,换句话说,我们可以知道误差是变大了还是变小了!而如果是非线性系统呢,情况就不一样了,因为非线性系统中误差无法被显式传递,故而就算我们知道目前的定性误差,但对于该系统在未来任意时刻的误差,我们不仅不知道其定量的误差(如线性系统的情况),同时也不知道其定性误差变成了什么样子,相较于初始的误差变大了还是变小了还是不变?不知道。这便是非线性系统误差传递较为让人头疼的地方。

2. 关于C2中非线性动力系统(nonlinear dynamic system)和混沌(Chaotic),这里补充一点,同时也作为C3的引子吧。两者不是完全等价的关系,混沌系统必然是非线性的,但非线性系统不一定是混沌的。用简单的例子来说明,Atmosphere, Ocean, Land——地球系统的御三家,都是非线性系统吧,但你在前人的文献里面,可以看到对前两者的描述是nonlinear and chaotic,对Land的描述则是nonlinear and dissipative,这便是因为大气海洋的非线性系统在对状态变量进行预报时对初值敏感,对边值不敏感(没听讲的话去C1),故而不管对边值的刻画是否准确,状态变量所对应的误差都是如上述1所提,对其误差可以大到多少,小到多少完全没有自信去衡量。而当模式来到Land时,情况变化了,陆面模式对状态变量进行预报时对初值不敏感,对边值敏感,故而不管我们对初值的误差的给定是否合理,也确实如1所提,我们仍旧无法对其定性误差有一个合理的刻画,但因为陆面模式最终的预报结果取决于边值的大小而非对状态变量进行预报的非线性系统本身,这便使得陆面模式的误差与初始时的误差相比,虽然不清楚,但肯定差不太远,至少没有大气海洋大。说点大白话,大气海洋的误差,大小是多少咱没底,而陆面的误差,确实不知道其确切的数值,但就算不知道,唉,大也大不了哪里去,小也不会太小,对预报结果影响不大。以下两张图(第一张是大气的,第二张是陆面的)便可以直观说明上述观点。
2.png 来源:https://www.nature.com/articles/nature14956

1.png 来源:ECMWF Annual Seminar, Sep. 2023. Improving land-atmosphere data assimilation coupling

而接下来将介绍的,便是一个典型非线性混沌系统——Lorenz63 Model~
密码修改失败请联系微信:mofangbao
发表于 2024-2-22 09:37:54 | 显示全部楼层
好文
密码修改失败请联系微信:mofangbao
回复

使用道具 举报

 楼主| 发表于 2024-2-22 10:20:39 | 显示全部楼层
不小心刷新了一下,把敲了半小时的字整没了。。。那就重新来过吧呜呜呜
指出之前存在的几个问题,一个是本章原来应该是C4诶,都忘了已经有C3了,就不改了,下一章直接从C5开始,还请见谅。二个是原来Lorenz63已经在原本的C3写了,那可太好了,这里就不介绍了,放一个链接去看吧~Lorenz63 Code and Implementation

接下来继续吧,上节最后说到混沌与非线性的关系,这里再对混沌系统做一些扩展,先放一个WIKI关于其的介绍What is Chaos?,其中第一句话:“Chaos theory is an interdisciplinary area of scientific study and branch of mathematics focused on underlying patterns and deterministic laws of dynamical systems that are highly sensitive to initial conditions...”,可以看出,混沌系统对初值存在高度敏感,所以从定义角度出发,也解释了为什么大气海洋属于混沌系统,而陆面过程不是。至于为什么大气海洋对初值敏感而陆面不是呢?这里留作一个开放问题留给大家讨论吧~,再一个关于混沌与蝴蝶效应的关系,WIKI中也有说明:”The butterfly effect, an underlying principle of chaos, describes how a small change in one state of a deterministic nonlinear system can result in large differences in a later state (meaning that there is sensitive dependence on initial conditions).[3] A metaphor for this behavior is that a butterfly flapping its wings in Texas can cause a tornado in Brazil.“,可以看出,蝴蝶效应其实就是混沌系统的一种现象——小误差随时间变化为大误差。

就此,线性、非线性、混沌、蝴蝶效应的讨论就此结束。

接下来关于初边值的问题,才发现C1中为了突出同化的作用没有涉及对边值以及对初值边值区别的说明,那么正好,接下来的一节会对两者进行定义,而后通过一个简单示例说明初边值对模式预报结果的影响,最后再给出一些实例。
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

 楼主| 发表于 2024-2-22 11:23:08 | 显示全部楼层
这里引用一篇综述DOI号中对模式的定义
3.png
一项一项分析,其中x即状态变量,下标即时刻,M即模式(可为非线性、混沌),numba即边值或称外强迫,eta即C1中因模式不完美引起的模式误差。可以看出,在对状态变量x进行预报时,不止由初值(即上一时刻的状态变量),同时也由边值决定下一时刻的x,但是边值本身不由模式进行预报。

故而可以说,边值是在对状态变量进行预报之前就需要”预先“确定的、不由模式所决定的变量。好比如果研究全球大气,其初值就是全球大气中各个位置的各种物理量,边值便是大气层顶的入射太阳辐射和下垫面海洋以及陆地,而如果研究整个地球系统,初值则变成了整个地球各个位置的各个物理量,边值便只剩下大气层顶的入射太阳辐射。

另一角度出发来看,单个模式不可能预报出”所有“的物理量,因为总是存在一个将其所考虑的系统包含在内的更大的系统为其提供边值。

由此再稍微展开一些,顺便聊一聊离线(offline)和耦合(coupled)吧。offline和coupled有两层意义,一层是技术上也就是code(技术层面的offline和coupled对模式预报结果没有影响),比如你要做大气的研究并且需要对大气进行同化,那么需要涉及到两套系统——大气模式和大气同化,而code实现上,可以把两者结合在一起即coupled,也可以一对一处理成两个独立的程序即解耦(non-coupled),每个程序各自offline。优缺点嘛各有咯,目前业界主流强调解耦的code,这样比较方便管理和升级。另一层是物理意义上的(物理层面的offline和coupled对模式预报结果存在影响且有可能十分显著,这里不具体展开了,详情参考:DOI号),比如你要对陆面进行研究,而不考虑其和大气的相互作用,这个时候大气便是作为边值而非初值参与到模式的预报中(只存在大气对陆面的影响而不存在陆面对大气的反作用),在此语境下就可以说这个陆面模式是offline的,而考虑了陆面和大气的模式是coupled的(当然从上一段可以看出,其实模式都是相对offline的,只要存在边值,那就必然不能通过模式本身对这个边值进行反馈,那就不能说是严格意义上的coupled)

最后关于边值、初值以及同化的一个很好的实例,ERA5再分析资料想必大家都很清楚吧,这是一套大气再分析数据(严格来说应该是对整个地球系统进行模式预报的同时,同化观测进而对整个地球系统中各个状态变量进行订正得到的结果,最后只保留大气的状态变量。关于同化虽然还没开始讲,定性的讨论可以参考C1,再分析这里不展开说明了,放到同化板块进行具体说明,此处完全可以和同化等价),那么关于ERA5-Land再分析资料大家是否明白是如何得到的呢?其实ERA5-Land本身并没有就陆面的状态变量直接同化任何观测,只是在对陆面模式进行时间积分的过程中,所用到的边值来自前者ERA5再分析资料,也就是说,ERA5-Land是一种”间接“的再分析资料,观测信息是通过边值而非初值对下一时刻的状态变量进行影响的。要是不信,可见下图人家自己的说明
4.png
所以,使用ERA5-Land的同学,如果不清楚的话,写文章的时候需要注意一下~

就此,算是把之前能想到的坑填完了,接下来的一节,回到正轨上,继续探讨,有没有其他的方面,定量地对非线性混沌系统的误差进行刻画呢?

密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

 楼主| 发表于 2024-2-22 12:53:42 | 显示全部楼层
本节将从另一个、更为科学严谨、也遵从历史的角度出发,首先说明误差定义的来源,而后针对非线性混沌系统,如何客观描述这种误差,在之后的小节里,将提到描述的理论方法有哪些,最后再由此给出一系列实际可操的方法。

地球科学领域误差的概念,是源于模式模拟结果与实际观测间存在区别,而只要初值即上一时刻模式预报的结果与真值存在区别,就算模式本身完美,我们也永远无法得到下一时刻的真值,即正确的结果,这是在天气数值模式发展之初便被提出的”永远“都有待解决的科学技术问题,而1969年Epstein的一篇《Stochastic dynamic prediction》文章中,便有了对不同模式的初值进行客观的、第三方的评述:”There are a dozen or so weather services which daily produce their own analyses, each different from all the others, but each consistent with all the observational data. One cannot say that the product of any such system is right or wrong; each represents an individual member of an infinite ensemble of atmospheric states which are consistent with the data. The different analyses will yield different forecasts, even if each were submitted to the same forecast procedure. If there is no way of determining which, if any, analysis is right, and since none is known to be wrong, there is no way of knowing, in any instance, which forecast to believe.“,这个意思放在现在,就是说不管是EC、NCEP还是CMA,都是做预报的,都是基于自己一套独立的模式和同化系统所得到的预报结果,那么在与实际观测比较之前,我们无法说明到底谁更准确谁不准确,因为它们都是“完全一样的”、“没有区别的”,而如果不同模式都是为了得到同一个真值(毕竟是同一个世界嘛,不是什么平行宇宙啦~),那么是否可以将不同模式的初值都看作“真值”,这样便构成了一个真值云图,这个真值云图便代表了科学家对此时初值的认知,可见1974年Leith的一篇《Theoretical Skill of Monte Carlo Forecasts》文章中: 6.png
由此,原本是确定性预报(deterministic forecast)的天气模式,即基于唯一的初值,得到唯一的预报结果,以求逼近唯一的真值,由Epstein开始萌生出一种很新的思路,该方法将不止一种初值都视为最为接近真值的可能,并由这些不同的初值,得到一系列不同的预报结果,并将这些预报结果都视为是对真值的“最好”刻画,这便是随机性预报(stochastic forecast)的由来,并由Leith在1974年(见之前)理论证明,相较于deterministic forecast,stochastic forecast所得到的预报结果相较于真值的误差会更小(2U即deterministic的误差,(1+m**-1)U即stochastic的误差,其中m代表不同初值的个数,即现在我们经常所提到的集合成员个数,U视为大于零的数即可):
7.png

就此,stochastic所代表的随机预报介绍完毕,但这仅仅是对每个状态变量进行预报,初值的误差该如何随随机预报模式传递呢,便是下一节将要讨论的。
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

发表于 2024-2-23 15:43:14 | 显示全部楼层
持续关注本贴学习~
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

发表于 2024-2-24 19:16:33 | 显示全部楼层
学习一下,不错不错的帖子呢
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

 楼主| 发表于 2024-2-25 11:54:09 | 显示全部楼层
上一节提到,不同于以往的确定性预报,随机性预报将一系列初值都视为等同的、最为接近真值的可能进而预报,该种方法最初由Epstein提出,后由Leith证明从误差角度随机性预报所得到的结果优于确定性预报。以下我们沿用Evesen1994的符号与公式对上述进行再次回顾,同时对误差如何传递进行公式分析。

8.png
其中第一段其实就是上一节所提到的,将不同的“唯一”初值放在一起讨论,而由这一系列初值所构成的云图即代表现阶段对状态变量的认知(好比如果该云图分布较为密集,则说明对其确定性高误差小,若是分布十分散漫,则说明确定性低误差大。当然这只是定性的描述,方便理解),此处需要特别注意的,是目前为止所涉及的随机性预报所考虑的初值个数在理论上都是无穷大而非有限个数(即N),那么每个(连续的)数所对应的初值个数比上N即公式(7),就是该数在该时刻的状态变量出现的可能性大小,也就是概率密度函数,而若是将这一系列可能性进行叠加会等于1即公式(9),为了更方便理解,可以将公式(9)左侧积分符号上下加上正负无穷,这便代表了对概率密度函数从负无穷到正无穷上进行积分,就会得到“必然的结果”即概率等于100%。

而后,我们在此做出一个(合理的)假设,即这一系列无穷多个的可能性,在随模式时间积分的过程中,其可能不会被消灭,同时也不会有新的可能加入,这可以同质量守恒放在一起理解——质量无法被创造同时也无法被消灭,基于此便有了和质量守恒(物质的质量不会随时间发生变化)类似的概率守恒(所有的可能性不会随时间发生变化),即
9.png
关于式15在此就不展开讨论了,有兴趣的同学可以自行阅读该文献或者在下方留言,总之此处最重要的,是该式是所有基于误差流依赖(flow-dependent)假定方法的源头,误差流依赖即视误差在时间积分过程中存在变化,基于此的预报或同化方法有集合预报、四维变分、(集合)卡尔曼滤波等等。其次便是从式15可以看出,误差(可能性)随时间的局地变化,是受到来自模式本身(式6,此处并未展示)约束的,也就是说不同的模式具体所对应的式15是不同的。而如果来到地球科学领域,我们可以将模式定义为式19,即
10.png
由此,便可得到式20,即 Kolmogorov's equation (also called the Fokker-Planck equation),注意该式虽然并非仅可用于地球科学领域,但其地位在地球科学领域是相当关键的,有兴趣的可以自行阅读DOI号以及上述Evensen1994。

综上所述,基于随机性预报原理,将无穷多个“唯一”初值放在一起构成一集合,其中每个数都有一个概率大小即可能与其对应,而后在作出概率守恒假设的同时,将模式确定为具有模式误差的式19,我们可以得到式20:Fokker-Planck equation,基于该式、初始的概率密度函数以及模式,我们可以得到任意时刻概率密度的变化程度。

就此,理论上的误差在非线性乃至混沌系统中的传递的公式展示完毕,如果有问题可以在下方留言大家一起讨论。

但对式20,首先,就和硬解纳维斯托克斯方程一样的道理(只要是地球科学领域,式20必然涉及该方程),无法得到一解析解,其次是初始的概率密度函数在小规模的模式中应用或许没有问题,但绝无可能在地球科学领域直接应用(该领域涉及模式的维数过高,现代模式一般而言只用作用于状态变量本身而无需作用于状态变量的所有可能性,想象一下,如果需要对无穷个初值的可能性应用如今的模式,计算量是无法想象的)。

那么该如何将式20合理的、实际的应用于地球科学领域,便是下一节将讨论的问题。
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright ©2011-2014 bbs.06climate.com All Rights Reserved.  Powered by Discuz! (京ICP-10201084)

本站信息均由会员发表,不代表气象家园立场,禁止在本站发表与国家法律相抵触言论

快速回复 返回顶部 返回列表