2019 新型冠状病毒(俗称Cv新冠)疫情目前在全球并没有好转迹象,截至 4 月 22 日上午 10 点 30 分,确诊人数达 256 万,死亡人数超过 17.7 万,且仍在持续增长。
疫情到底什幺时候结束,这成为悬在所有人心头的问题。遗憾的是,许多流行病学专家都对病情彻底结束持悲观态度,认为Cv新冠最终可能演化为常态性地区流行病。
流行病学有个指标,可指出病情在一定区域的传播情况。
此数值简称为 R,全称为「即时有效传染数」(effective reproduction number),简单来说,是感染某流行病的一名患者,任意时间能传染的人数。
4 月 21 日,Instagram 联合创始人Kevin Systrom 发表新型冠状病毒的 Rt 预测模型(Rt=R 值+时间变化)。他还和另一位联合创始人Mike Krieger 一起做了网站 Rt.live,可即时追蹤美国 50 个州各自 Rt 数值。透过观察此数值,可一眼看出Cv新冠在各州的扩散增幅如何,抑或逐渐得到控制。
但是在看这个网站之前,我们首先需要理解 Rt 的具体含义。
有效传染数 Rt 是什幺?
你可能听过 R0(读作 R-naught),中文叫基本传染数,指的是在特定环境,不考虑时间等其他因素,一个病人平均感染的人数,数值越高,疾病的传染力越强。
之前美国 CDC 计算的新型冠状病毒 R0 在 2.2~2.7,如果不控制,每 2~3 天感染者数量会翻一倍。但考虑到疾控措施,以及不断变化的情况,R 值每天都有可能浮动,Rt 就是 R 值加上时间变化。
观察此数值很有意义。如果 R 值大于 1,说明疾病将会继续扩散;如果小于 1,说明一个确诊病人的感染能力被限制了,疾病传染会自行消退,直至最终消失。
「R0 是大家都知道的数值,就是 t=0,但 R0 只是单一指标,对人们行为和疾控措施的适应性不够强。」Kevin Systrom 在 GitHub 页面写道。随着疫情发展,增加和减少疾控措施都会造成 Rt 变化,因此了解目前的 Rt 数值很重要。
观察 Rt 值有很强的指导意义,可帮助人们理解目前的疾控措施是否有效,还可以帮忙做决定,是否需要增加或减少疾控的限制措施。
不过 Systrom 指出,目前世界採用此思路的国家并不多,只有港大公共卫生学院在追蹤香港的 Rt 值。
且他认为追蹤一个国家的 Rt 意义不大,粒度必须要细化到当地,如州、县和城市等级。所以他从美国各州和地方的卫生部门的报告提取Cv新冠检测和确诊数据,製作这个网站。从这些数据,可看出美国Cv新冠疫情控制的情况。
美国Cv新冠疫情控制如何?
前面我们提到,R 值越低,疾病的传染能力越低。而 Rt.live 网站就是以 Rt=1 为分水岭,列出各州数据:
从网站首页互动图表可看出,左侧绿色的州在 4 月 18 日的 Rt<1:
- 佛罗里达州=0.99
- 奥勒冈州=0.89
- 密西根州=0.88
- 康乃狄克州=0.42
靠右侧红色的州 Rt 数值高于 1:
- 纽约州=1.0
- 北卡罗莱纳州=1.1
- 麻萨诸塞州=1.2
- 德克萨斯州=1.2
- 加州=1.3
- 华盛顿州=1.4
- 俄亥俄州=1.6
- 北达科他州=1.7
同时,网站也提供各州 Rt 值过去一个月的变化曲线。
可看出加州 4 月 6~11 日期间短暂跌落到 1 以下,近日又回升。
纽约州在 3 月中旬经历高峰。好在,可能由于强而有力的疾控措施,包括居家隔离等,3 月下旬疫情逐渐得到控制。
所有州的曲线图,最近似乎都有小幅回升。看起来康乃狄克州控制最好,虽然有波动,但总体呈下降趋势,显示出境内疾控措施的有效性。
如何预测 Rt?
要指出的是,这是预测模型,基于过去几天报告的核酸检测和确诊患者等数据,并不是绝对真实的 Rt 值。
Systrom 方法的基础是 2008 年 Luís Bettencourt 和 Ruy Ribeiro 等人发表的论文,基于贝叶斯方法,加入高斯杂讯预测随时间变化的 R 值。
基础公式如下:在 Rt 时间发现 k 数量的新增病例可能性,乘以 Rt 时间可能性,除以发现 k 数量新增病例可能性,就能得到 Rt 分布区间。
随着时间变化,再用前一天数值预测当天数值。
同时,预测模型还需要某天新增某数量患者 λ 的可能性函数:
根据已有的新增病例数值,可预测未来几天的 Rt 可能分布区间:
还未引入真实世界数据的前提下,Systrom 最佳化一些演算法,可在他的 GitHub 页面看到演算法设计思路。
接下来就是加入美国各州汇报的病例数据验证和进一步最佳化,可在 The Covid Tracking Project 的网站 covidtracking.com 找到这些数据。
这些数据的可靠性没问题,因为直接来自公共卫生部门,但真实性需打些折扣,因为核酸检测能力不足,理论上当日新增的病患一部分可能是前一天累积,所以 Systrom 针对此情况高斯模糊了时序数据。
最后执行演算法,根据之前的公式就可算出 Rt,剩下的就是把所有州的预测数值跑出来、製图。本文只简单介绍 Systrom 的研究方法,如果对演算法有兴趣或有问题,可自行参阅 GitHub 页面。
Systrom 也指出,目前模型有几个已知的问题。如果真实世界的核酸检测能力激增或锐减,都会对数值準确度产生影响;检测阳性和症状出现有延迟,无法透过这个模型体现;以及一个纯数学预测模型,无法完美预言真实世界的情况。
其他预测
之前 Kevin Systrom 就对美国疫情有过一些基于数学模型的预测。
比如,根据 3 月底当时纽约市的数据,据他计算,如果任意挑出 250 人,所有人都未感染的机率只有 56%。250 人差不多是纽约市一个普通人平均认识的人数量,这意味着整个纽约市有 44% 市民至少认识一位感染者。
再如果在纽约市开一间星巴克,按照每天 1,000 名客人计算,每天不会有感染者进门的机率有多少?答案如下图,可看出从 3 月 15 日开始,机率越来越低。有趣的是,星巴克也在那一天宣布关闭纽约市所有门市。
他还做过一个有趣的计算:如果不听劝,非要出门活动,且有 90% 信心不会碰到感染者──要满足你的舒适度底线,城市最大人口数是多少?
他算出在 3 月初,美国人还没意识到疫情会多严重时,城市人口最多可不到 100 万人;如果 95% 不会碰到感染者是你的舒适度底线,城市人口约 40 多万人;97% 对应 25 万人左右;99%=约 10 万。
但随着疫情逐渐升级,能满足舒适度的人口极限数量快速下降。在这个推导模型,到了 3 月底,无论你认为自己的运气有多好,出门都几乎一定会碰见感染者。
由此他希望说明,在这样的危机时刻,居家隔离是保护自己的最佳方式,而出入公共场合十分危险。
Kevin Systrom 是谁
Kevin Systrom 和 Mike Krieger 在 2018 年突然宣布离开 Facebook 及创立的 Instagram。
Instagram 是美国在行动网路时代的第一个现象级产品。Systrom 从小热爱程式设计,曾经是 AOL 旗下 AIM 软体商骇客,开发可发送大量垃圾讯息导致对方帐号断线的外挂。
本科毕业后,Systrom 先后加入 Twitter、Google,虽然并非电脑科学专业,但一直自学程式设计,就读史丹佛大学期间和 Krieger 都参加过史丹佛享誉盛名的 Mayfield Fellow Program 创业培训课程。
两人第一次创业做的是名叫 Burbn 的签到软体,但后来发现用户很喜欢用里面的照片滤镜功能,经过一番争论,最终他们做出了 Instagram,Systrom 担任 CEO,受过正规电脑训练的 Krieger 担任工程负责人。新产品上线当天,用户量就突破 2.5 万,一週突破 10 万,第二个月 100 万,到了第二年月活跃用户突破 5,000 万。
Facebook 收购后,Instagram 想过维持小而独立的规模,但最终未能倖免 Facebook 的野心。两位联合创始人对祖克柏事无鉅细的管理和产品设计风格的侵犯,感到十分厌烦,甚至遭祖克柏撤回对 Instagram 产品增长支持的威胁。最终,两人都离开了公司。
Rt.live 是两人在从 Instagram 离职之后首次携手开发的新产品。Systrom 主要负责数据分析和演算法设计,Krieger 负责产品和网站设计。