一年前的此刻,武汉封城已有一个月,而新冠疫情的蔓延态势仍在不断升级。科学家们除了要解析病毒演化传播、分析病例样本、研发疫苗等,也在关注一件事——建立疫情预测模型。
当时,包括钟南山院士在内的多名专家的观点是:
对病毒在人群中传播的智能预测模型构建与验证是当前的工作重点。
三个月后,兰州大学西部生态安全省部共建协同创新中心正式对外发布「全球 COVID-19 疫情预测系统」(链接:http://covid-19.lzu.edu.cn/index.htm)。
作为世界首个全球疫情预测系统,「全球 COVID-19 疫情预测系统」自 2020 年 5 月上线运行以来,已实现对 190 余个国家新增确诊病例的预测。
据《光明日报》最新报道:
近日,钟南山院士在“广州实验室科技助力基层疫情防控万里行”启动仪式上,对这一系统表示肯定,他称赞:“他们一些预测的模型还是相当可靠的。”
首个全球疫情预测系统建立
「全球 COVID-19 疫情预测系统」的官网页面主要涵盖了三部分预测:
全球每月预测概况:按月分析全球各地区疫情蔓延情况,列出每月预测新增病例数前 10 位国家。
突发新冠疫情预测:预测疫情态势将出现突出变化的城市,如 2020 年 8 月 2 日预测香港本轮疫情有望在 8 月底得到控制。
新冠疫情二次爆发预警:根据温度等气象要素的季节性变化、游行抗议和城市解封等大规模聚集性活动,预测全球各地疫情二次暴发。
这一模型的相关研究成果 2020 年 5 月 18 日由中国科学院主办的自然科学综合性期刊 Science Bulletin 接收,2020 年 8 月 2 日正式发表,题为 Global prediction system for COVID-19 pandemic(新冠疫情全球预测系统)。
论文介绍,现代流行病学反应的一个重要特点是利用所有可用数据提供实时反应信息。理论上,通过引入最新的疫情数据来提高先前流行病学模型的可信度是可行的。
实际上,新冠疫情的发生具有时空异质性,也就是说,可能与不同地区的气象条件和地方政府实施的干预措施有关。因此研究团队认为,有必要建立一个将天气预报和气候分析作为自变量的流行病预警系统,以提高预测的整体精度。
【该系统预测的美国本月及本季疫情情况】
研究团队的做法是,将疫情预测模型与全球真实疫情数据相结合,综合考虑环境因素(温度、湿度)的影响以及控制措施的实施情况,从而建立了一个自己的全球预测系统。
基于 SIR 和 SEIR 模型
论文显示:
该预测系统是一个改进的 SIR 模型。
SIR 模型,即 Susceptible Infected Recovered Model,即一种传染病模型中最经典的模型,其中 S 表示易感者,I 表示感染者,R 表示移出者(主要指被隔离或因病愈而具有免疫力的人)。
具体来讲,研究团队的 SIR 模型包含了真实的全球疫情数据、气象因素和量化的隔离措施。
在该模型中,假设疫情期间该地区的总人口数(N = S + I + R)保持不变,病毒仅通过人与人之间的感染传播,个体之间的免疫力无差异。
研究团队将 2020 年 1 月 22 日至 5 月 14 日六个国家(美国,意大利,英国,俄罗斯,沙特阿拉伯和巴西)报告的确诊病例数与按照模型预测的结果进行了比较,如下图所示(橙色表示未来预测值、粉色表示模拟值、紫色表示报告确诊值。)
不难发现,系统成功进行了各国疫情变化曲线的模拟。
雷锋网(公众号:雷锋网)根据官方途径了解到,「全球 COVID-19 疫情预测系统」其实有两版:
第一版使用了上述改良的 SIR 模型;
第二版则使用了更复杂的 SEIR 模型——团队在这一版中还考虑了社区解封时间以及市民自我隔离对疫情发展的影响,第二版可用来进行季节性预测及疫情二次爆发的预测。
所谓的 SEIR 也是一种常见的传染病模型,相比 SIR 模型,这种模型多了一个 E(Exposed,暴露者),即指接触过感染者但暂无能力传染给其他人的人,这适用于潜伏期长的传染病——此前有关 SARS 的传播动力学研究大多也都采用了 SEIR 模型。
值得一提的是,2020 年 2 月 27 日广州市政府新闻办举办的一场疫情防控专场新闻通气会上,钟南山院士曾提到:
疫情开始时,国外有流行病学家用权威的试验模型,预测 2 月初中国感染新冠肺炎人数将达 16 万人。这是没有考虑到国家的强力干预,也没有考虑春节后的延迟复工,我们也做了预测模型,2 月中旬或下旬达到疫情高峰,确诊病例约六、七万人,投到国外权威期刊,被退了回来,感觉和上面的预测水平差太多,还有人给我发微信说“你的话几天之内就会被碾个粉碎”。但事实上,我们的预测更接近权威。
雷锋网此前曾报道,虽然钟南山院士并未详细介绍被退回的疾病预测模型,但知乎一位名为“疯狂绅士”的计算机软件背景人士认为,钟南山院士的模型叫「具有饱和发病率 SIQS 传染病模型」。根据其解释,任何传染病都具有饱和发病率,即不可能完全被消灭。
该网友提到,SIQS 正是在 SEIR 的基础上加入了干预手段。
黄建平教授领衔完成模型
这一模型由兰州大学西部生态安全协同创新中心主任黄建平教授领衔完成。
据系统官网介绍:
西部生态安全协同创新中心于2018年12月获得教育部认定,由兰州大学牵头,中科院相关研究所,西藏大学、青海大学等高校,甘肃省治沙研究所等地方研究机构协同参与。
雷锋网注意到,论文最后简要介绍了黄建平教授。
黄建平教授任职于兰州大学大气科学学院,同时也是西部生态安全省部共建协同创新中心主任、半干旱气候变化教育部重点实验室主任,致力于通过结合实地观察和理论研究来进行长期气候预测、尘埃云相互作用和半干旱气候变化的研究。
【图片截自黄建平教授团队官网】
据知乎答主“李大鹏”称,上述研究成果:
从数学的角度来看就是应用了 SIR 传染病模型,兰州大学数学院其实有研究团队做传染病模型和基本再生数建模,但此次似乎没有参与这项研究。黄建平老师团队最擅长的就是优化数学模型的各种参数。简单的说,用到的数学模型其实不难,但是如何让模型变得有实际应用价值,需要大量的技术和经验支持。
模型涉及 AI 算法
自然,建立疫情预测模型并非一定要借助 SIR、SEIR 模型。
2020 年 2 月 28 日,钟南山院士及团队在医学期刊 JTD 发表了一篇题为《公共卫生干预下 COVID-19 流行趋势的 SEIR 和 AI 预测修正》的论文。
这一研究中,团队不仅将 2020 年 1 月 23 日前后的人口迁移数据及最新的新冠肺炎流行病学数据整合到 SEIR 模型中导出流行曲线,还通过 LSTM 模型预测新增感染数随时间的变化。
LSTM 即 long-short term memory,长短期记忆模型,是一种用于处理、预测各种时间序列问题的循环神经网络(RNN),是为解决 RNN 模型梯度弥散的问题而提出。
而就在上周,彭博社也报道了一个美国疫情预测系统。
这一系统的设计者是华裔 Youyang Gu,他拥有 MIT 电气工程和计算机科学硕士学位及数学学位。
Youyang Gu 在 SEIR 模型(已开源:https://github.com/youyanggu/covid19_projections)的基础上加入机器学习算法,并通过对预测与最终报告的死亡总数不断比较进行算法调整,使其预测更加准确。
此前,凭 Youyang Gu 一己之力设计的模型已被美国疾控中心采用。
根据美国著名公立大学阿默斯特马萨诸塞大学生物统计学和流行病学系的副教授 Nicholas Reich 对众多类似模型的统计,Youyang Gu 的模型表现始终位居前列。
引用来源:
https://www.sciencedirect.com/science/article/pii/S2095927320305235?via%3Dihub
https://epaper.gmw.cn/gmrb/html/2021-02/24/nw.D110000gmrb_20210224_4-14.htm
http://hjp.lzu.edu.cn/gerenjianjie/index.html
雷锋网雷锋网雷锋网
雷锋网原创文章,未经授权禁止转载。详情见转载须知。