流行病学模型不准?误会了
来源:中国科学报
作者:胡珉琦
在逐渐升温的初春,国内新冠肺炎疫情形势再次恢复平稳。
但对流行病学建模研究专家而言,他们的工作远没有结束。
不久前,陕西师范大学数学与信息科学学院院长唐三一和西安交通大学数学与统计学院副院长肖燕妮对去年下半年来疫情反复波动的动力学机制进行模型分析,融合干预措施和疫苗接种以及民众行为改变的动态过程,研究避免疫情再次暴发的关键因素。
如果不是因为这场疫情,很少有普通人会主动关心什么是传染病的基本再生数(Ro),也很难想象,数学模型会在病毒传播机制的刻画、风险分析、预测预警以及干预措施的制定等诸多公共卫生和传染病防控的关键问题中发挥重要作用。
可是,当它跟人们预测未来并希望得到一个精确而肯定的答案这一强烈愿望牢牢绑定在一起时,误解、失望随之而来。
数学模型真的失效了?
伊利诺伊大学厄本纳—香槟分校的两位物理学家Nigel Goldenfeld和Sergei Maslov在去年3月份加入到了COVID-19的建模工作中。
当时,公众迫切希望数学模型给出精确的答案:这场大流行病到底会有多严重、发展得会有多快,以及他们应该做些什么来抵御灾难……
在最初几个月里,他们的模型促使其所在大学在春天迅速关闭了校园并过渡到在线教育,这一工作也获得了媒体的积极评价。
后来,研究团队又建立了一个新的模型来指导校园重新开放的过程。
Goldenfeld和 Maslov在设计模型时尽可能考虑了各种因素。
学生在不同地点的各种互动方式——学习、吃饭、放松、聚会等;估计了校园内检测和隔离服务的效果能有多好;估算了学生人群中无症状但是能传播病毒的人数百分比;他们甚至细致到在模型里额外考虑了气溶胶传播这一物理过程。
他们的模型能分析出当一个戴口罩的学生在教室里说话或者在室内娱乐场所压过音乐大喊大叫时,可能会释放出多少带病毒的气溶胶粒子。
在这个模型的指引下,伊利诺伊大学还制订了一项计划:每周对所有学生进行两次新冠病毒检测,要求学生戴口罩,并实施其他后勤方面的措施和控制,包括使用有效的接触追踪系统和“一旦自身与阳性患者有密切接触就提醒通知”的手机应用程序。
模型计算结果显示,采取了这套组合政策就能恢复面对面的线下学习,而不会让病毒的传播失控。
可到了9月3日,秋季学期开始仅一个星期,伊利诺伊大学就有将近800名学生被检测出新冠病毒呈阳性,这一人数比模型预估的到感恩节时感染的人数还要多。
于是,学校不得不立即宣布在整个校园内暂停非必要的活动。
舆论很快开始严厉抨击Goldenfeld和Maslov。面对媒体和公众的质疑,他们既委屈,却又无力反驳。
在Quanta Magazine读到这两位同行的故事时,唐三一有种惺惺相惜的感觉。
回想1月26日,唐三一所带领的团队联合肖燕妮团队、加拿大吴建宏团队发表在Journal of Clinical Medicine上的研究结果显示:COVID-19传播早期的基本再生数(Ro)为6.47,传播力远大于2003年的SARS(Ro为3.6)。
这是世界上较早建立新冠传播动力学模型并发布预测结果的几项研究之一。
可是,这个估值比当时包括WHO在内的组织或团队公布的2.2要高出许多。
“错了怎么办?引起舆情怎么办?”新冠疫情期间,唐三一和合作者每投出一篇敏感的模型预测文章,都如履薄冰。
直到1月29日24点,模型预测报告病例数为7723例,实际全国报告病例数7711;2月7日,WHO通过分析中国约1.7万例患者数据后指出,新冠传染性远高于SARS……唐三一开始确信,模型预测结果与实际情况比较一致。
但只有真正从事流行病学模型研究的科学家知道,例如预估Ro值究竟是5还是6,要得到精准的计算是非常困难的。
“重要的是,新冠病毒的传染性真的很强,科学家已经把一个重大的风险预警摆在面前了,我们该采取什么样的应对措施。”唐三一告诉《中国科学报》。
试图得到一个精确的数据结论,模型是会令人失望的。
期望和失望,在新冠疫情模型预测工作中,一直都在“打架”。
在肖燕妮看来,原因并非模型真的失效,而是模型预测所能起到的作用经常被误解。
难以抵挡的不确定性
“所有的模型都是错误的,但有一些是有用的。”
著名统计学家乔治·博克斯对数学模型的阐释,很容易让人不知所措。
唐三一解释,数学模型的本质是对一个系统问题抽象而又简洁的刻画。
正因如此,它势必会忽略一些因素。
有时候,这些因素并不会导致模型计算结果与真实世界偏离太远,可有时候,一个小小的参数变化,可能会引发“蝴蝶效应”。
数学模型在预测新冠肺炎早期疫情的传播风险时,主要体现在确定传播风险(基本再生数或有效再生数)、达峰时间、峰值等与疫情相关的技术指标,后期则是评估“封城”、密切跟踪隔离、检测和检出、复工等重大防控策略的有效性、时效性和二次暴发的风险等。
“从理论上来说,模型确实具有对疾病发展过程的解释功能和对未来趋势的预估功能,但结果的不确定性却很大。”
肖燕妮表示,不确定性主要受两类因素的影响。
首先是流行病学的因素。
“烈性传染病暴发早期,我们对疾病机理严重缺乏了解,连最基本的病毒潜伏期有多长、潜伏期有没有感染力都不知道。而且,由于检出率、确诊率低,早期数据信息也十分匮乏。因此,这些跟疾病特征相关的基本参数都需要基于假设。”
肖燕妮说,随着对疾病机制了解的深入,以及数据信息的不断获取,对传播动力学的估计会趋向准确。
此后疫情发展的走向很大程度就取决于控制措施,以及控制措施下人们行为的依从性和行为的改变力度。
因为防疫部门的执行力以及社区与个体的依从性是围堵与缓解疫情策略发挥有效作用的重要保障。
“然而,对人的行为进行量化和分析从而纳入模型,是更为困难的一件事。”肖燕妮坦言,在模型假设框架下,目前对所有的传染病而言都是一样的。
“因为人总是在理性和非理性之间摇摆,又受到政策、文化的影响,在时间和空间层面,表现出不断变化的特点。”总而言之,人的行为本身具有难以预测性。
就如同Goldenfeld和Maslov,他们考虑了学生如何行事的诸多可能性,但偏偏没有预料到有人会在测试结果为阳性并被告知自我隔离的情况时,仍然不管不顾地参加聚会。
少数学生视规则为无物的非理性行为足以让一个精心设计的模型一败涂地。
“但我们又不能寄希望于建模专家把所有可能的情况都纳入模型,这会使得模型过分臃肿,难担重负。”
肖燕妮想要强调的是,所有的模型预测都是在有限条件下做出的,给出“如果……就会……”的结果。条件一旦发生变化,结果也就随之改变。
“当绝大部分公众甚至决策者忽略模型框架、机制、参数、假设条件,一味看重那个输出的数字是否准确,这很大程度上超越了模型所应承受的期待。”
数学模型能做什么
可以说,模型预测通常是附有假设条件的推演预判,而为之努力的科学家仿佛是一群戴着镣铐工作的人。
即便如此,他们仍然可以发挥很大的作用。
2020年3月中旬,伦敦帝国理工学院的一个研究小组宣布,他们基于个体的随机模型预估新冠将导致英国的死亡人数达到50万人,美国的死亡人数达到220万人。
可在早期,英国的病死率统计数据并不像帝国理工学院模型预估的那么悲观,二者的差异导致他们被指控发表耸人听闻的结果,招致公众在某种程度上的不信任。
“要了解COVID-19模型的价值,关键是要知道它们是如何建立的,以及它们是建立在哪些假设之上的。”英国流行病学家Neil Ferguson解释。
事实上,这个估计结果的前提是全社会不采取任何行动。
因此,模型预估的是最坏的情形。而英国和美国也立即采取了相应的措施。
“模型的微妙之处在于,预测结果会影响人群和决策者的行为,反过来就会影响疫情的发展,最终使得预测结果出现‘偏差’。”
唐三一认为,这种“偏差”未必是负面的,反而证明数学模型在早期新冠疫情的预警和风险分析中具有非常重要的作用。
再比如,去年春节国内通过近20天各地市的严格防控,全国的新报告病例数呈现下降趋势。
于是,春节后的复工和复学提上了日程。
传染病预防控制与决策部门高度关注的核心问题是:武汉及周边疫情严重的地区复工的最佳时间是什么?早复工对疫情特别是武汉及周边主要城市疫情的影响是什么?
为了回答这些问题,唐三一和肖燕妮等团队收集了湖北省卫健委和国家卫健委官网上报道的全国以及湖北各地市的疫情数据、百度迁徙网站人口流动数据,以及春运期间武汉人口迁入和迁出趋势和流入到湖北其他地市的人口分布情况。
基于新冠疫情传播与控制模型框架,发展以武汉为中心的复杂网络模型,通过统计计算与参数估计确定网络模型未知参数,分析武汉及周边 15 个疫情严重地区复工的最佳时间,从而评估了早复工对这些地区疫情发展特别是二次暴发风险的影响。
当时的结论显示,3月2日以后复工再加上较强的防控措施将不会引起疫情的二次暴发,但如果早于这个时间,二次暴发的风险较大。
最终,湖北省是从3月10日开始逐步解封的。
回溯去年疫情期间中外科学家就新冠模型研究的种种实践,唐三一坦言,国内科学家预测成功的可能性更高。但这有个重要的前提。
“国内在进入严格的疫情管控期后,产生的数据质量非常高,例如病例输入、症状出现、首次就诊、隔离和确诊的精确时间,以及精确到个人的生活轨迹跟踪等等,这为详细、精准分析疫情和防控策略的有效性提供了可能。”
唐三一尤其强调,精准详实的数据对增强模型的预测评估能力至关重要。
然而,国外科学家就没有那么幸运了。
“在检测率和确诊率都无法精确计算的情况下,这些基础数据需要被人为放大,仅‘放大多少倍’,就足够缠住科学家一阵子了。”肖燕妮表示。