相似集合(Analog Ensemble,AnEn)是近年来提出的一种基于相似理论、大数据挖掘和集合预报思路的统计释用方法。这里介绍了AnEn方法的基本原理,并应用AnEn对北京快速更新循环数值预报系统(BJ-RUC)v3.0预报的地面要素开展了订正释用试验。
结果表明,应用AnEn方法订正后,在0~36小时预报时段内,10-m风速的均方根误差降低44%,2-m温度的均方根误差降低22%。对比测站预报误差的水平分布,AnEn方法对于提升非城区站点的10-m风速预报、复杂地形区域2-m温度预报具有显著的效果。
相同预报因子的AnEn和支持向量机(Support VectorMachines,SVM)方法对模式10-m风速和2-m温度预报均具有显著且相似的订正效果,但AnEn方法具有计算资源需求较少、不需要大量人工干预的优势。AnEn方法形成的集合较好地模拟了模式平均误差的增长情况,集合离散度与集合平均均方根误差表现出理想的统计一致性,即AnEn方法在形成确定性预报的同时,还能够提供预报要素的不确定性或概率信息。因此AnEn方法在模式预报订正及释用方面将具有广阔的应用前景。
关键词:相似集合,AnEn,支持向量机,SVM,要素释用,集合预报
完成人:王在文,陈敏,Luca Delle Monache,卢冰,张涵斌
完成单位:北京城市气象研究院
全文:3335字
文 | 王在文
01. 数值预报产品释用方法
近几十年来,伴随着大气探(遥)测能力、高性能计算能力的不断提升,数值预报能力和水平获得了长足进步,数值预报已成为现代天气预报中最重要和核心的技术手段。但是,数值预报作为一个数学物理的初值问题,由于数值方法、初始条件的不确定性、模式对非线性物理过程描述以及大气本身可预测程度存在不确定性等原因,数值预报结果与实际观测代表的真值相比仍然存在预报误差。
近三十年来,在尽可能减小模式预报误差、提升要素预报水平方面,大量研究及实际业务应用均采用了统计方法对模式输出开展订正。具体到方法学层面,主要形成了基于多元线性回归的模式输出统计方法(MOS),完全预报法(PP)等。从2003年开始,基于统计学习理论的支持向量机(SVM)作为解决小样本、非线性、高维数的统计方法,开始在数值预报产品释用及气象研究业务中获得应用。
近年来,一种基于相似理论、大数据挖掘和集合预报思路的统计释用方法——相似集合方法(AnEn)被提出并开始逐步得到应用。该方法假设长期、稳定的数值模式对于同一地点、同样起报时间和同样预报时效具有稳定的预报性能。因此通过寻找与当前预报最相似的若干历史预报,由其预报量所对应的观测值组成相似集合,并运用集合预报相关的概念形成订正后的确定性预报及概率预报。相似集合方法在站点气象要素预报、风能和太阳能预报应用中已经获得了初步成功。
北京城市气象研究院(原中国气象局北京城市气象研究所)于2002年开始研发建立北京快速更新循环数值预报系统(BJ-RUC),在资料同化以及模式物理偏差成因分析等方面开展了大量工作,模式系统至今已经更新了三个版本,预报精度有明显提升。基于BJ-RUC的数值模式预报结果,开展了一系列预报产品解释应用研究。但边界层内的气象要素预报,特别是近地面的气象要素(如10-m风、2-m温度等)预报,对基于模式的应用和服务都至关重要。王在文等采用SVM方法发展了基于MM5预报系统的测站要素解释应用技术,并应用于2008年奥运场馆的地面要素预报,对于场馆2-m温度、10-m U、V风和2-m比湿的预报效果均有明显提升。
基于前述研究基础,借鉴相似集合思路,我们发展了相似集合基于BJ-RUC v3.0系统的模式预报结果开展释用及预报误差订正、并提供确定性和概率预报的技术。这里以北京地区174个自动站2-m温度和10-m风速为预报对象,分析相似集合方法在模式地面要素预报误差订正方面的应用效果,并通过与SVM等统计释用方法的检验对比来探讨相似集合的应用潜力。
02. AnEn和SVM方法介绍
相似集合方法(AnEn)。假定所需预报为t=0时刻起始的24h预报,根据所选预报因子的模式预报结果,分3步实现相似集合预报:
第一步:选定l个预报因子,对起报时间相同、预报时效相同的历史样本数据集,计算各样本与当前预报的相似度,并依据其值进行排序,选出其中前n个(本文n=20)具有最大相似度的历史预报;
第二步:找出与最相似的n个预报对应的观测值构建相似集合;
第三步:计算权重,对这n个观测值权重平均后即得到相似集合确定性预报。
相似集合方法预报流程 ▲
支持向量机方法(SVM)。SVM是一种以统计学习理论为基础的非线性学习方法(陈永义等,2004)。
03. AnEn与SVM方法对站点要素预报的释用效果对比
北京174个自动站,BJ-RUCv3.0、相似集合和SVM释用预报t=0~36h的检验对比。
10-m风速:(a)RMSE, (b) BIAS。2-m温度:(c) RMSE,(d) BIAS。 ▲
对比相似集合和SVM两种不同释用方法的订正效果,可以发现,二者对模式10-m风速和2-m温度预报均具有显著的订正效果,且订正后的均方根误差达到非常接近的水平,但相似集合预报的10-m风速仍然存在明显的负平均偏差(-0.126m/s),而SVM的2-m温度预报具有明显的暖偏差(0.17℃)。
尽管两种方法具有类似的订正效果,需要指出的是,同样作为解决非线性问题的学习方法,相似集合与SVM的实际建模-预报过程仍然具有不同的特点。相似集合方法并不试图建立固定的预报模型,模式每一次业务运行的结果均为相似集合下一次运行相似度的计算提供新的潜在样本,同时随着预报样本的不断积累,由模式预报因子构成的多维向量的动态相似度计算匹配度可能更高,因此其组成的观测集合更能反映预报对应的可能情况,实际订正效果将越来越好。
与之相比,SVM方法需要基于一定长度的固定训练数据集来针对某预报变量建立固定的预报模型,建模总量为站点数预报时次预报量,而且每个模型都需要调整优化建模参数,其只基于有限样本建模,也需要常常对预报模型进行更新才能保证其预报性能。
因此,分析两种方法的建模效率,可以认为相似集合方法在实际应用中更加易于实现,更具有灵活性。
04. 下一步研发计划
上述相似集合方法在北京地区地面要素预报中的应用刚刚起步,未来将从以下方面进一步开展该方法的应用,并提升应用效果:
(1)寻找最优参数组合和调整最优权重计算方法。研究各参数对相似集合预报效果的影响,针对不同预报量提出最优参数组合;在预报因子数增加到一定程度时,寻找最优权重需要大量的计算资源,研究如何实现即增加预报因子数以提升预报效果,同时规避大量计算资源需求。
(2) 建立更长的历史样本数据集。假设具备无限长度的观测和预报历史样本可用于相似度计算,那么则有可能发现与今日预报完美匹配的n个观测来组成相似集合,从而形成精确、真实的概率密度分布;但是目前仅有有限观测和历史预报样本,相似集合从有限样本中搜索相似度实际上引入了额外的不确定性,从这个角度来看,尽可能延长相似集合训练数据集长度,也就是让相似集合有机会从更长的历史样本中遍历当前预报对应的更多可能,对于减小相似度不确定性具有明确意义。
(3)相似度计算过程中参考因子的选择及相关权重的确定。这里2-m温度和10-m风速均只选取了与之物理最为相关的四个因子组成多维搜索向量来开展相似度计算,未来可以参考SVM等其他统计方法的建模过程,纳入更多模式预报量作为参考因子,并且开展权重因子的敏感性分析,从类似“流依赖”等多个角度来捕捉相似度因子向量中最为关键的特征,从而提高相似集合的应用效果,尤其对于转折性天气过程的把握能力。
(4)相似集合方法在格点化要素预报和降水预报客观订正方面的应用。可以预见,采用相似集合方法对于单站、单预报时次的应用方法也可以应用于其他领域的预报订正(例如化学模式输出的污染物浓度预报等),该方法正迅速推广应用于网格化预报要素的订正。而且,采用相似集合方法对于降水等非连续变量的预报订正研究也正在开展中。
研究获得北京市科技计划项目(Z6098)资助。
王在文
从事数值预报后处理、数值模式评估、产品制作、及数值模式预报结果释用等研发工作,在数值模式评估和产品释用等方面积累了一定经验。
个人介绍:
参考文献:
王在文, 陈敏, Luca Delle Monache, 卢冰, 张涵斌, 2019: 相似集合预报方法在北京区域地面气温和风速预报中的应用, 气象学报, 77(5), 869-884. doi:10.11676/qxxb2019.044
编辑 | 楚艳丽
编审 | 陈敏,陈力强
- END -
城市院官网
点击并长按 关注城市院官方微信平台
发表评论