Cv新冠(COVID-19;新冠肺炎)大流行让世界许多国家的医疗资源达到临界点,也因如此,有许多人希望 AI 人工智慧加快患者筛检速度,以减轻临床工作人员的压力。但 Google Health 进行的「首次检视深度学习在实际临床环境之影响」研究表明,即使最準确的 AI,如果不根据工作的临床环境量身订做调整,就会使情况更糟。
在临床环境部署 AI 的现有规则(例如美国 FDA 许可标準或欧洲 CE 标章)主要关注重点在于準确性。目前对 AI 必须改善患者预后状况并没有明确要求,这主要是因为此类试验尚未进行。但这需要改变,Google Health 使用者体验(UX)研究人员 Emma Beede 表示:「AI 工具广泛部署及使用前,我们必须了解工具将如何在特定环境(尤其是医疗照护领域)为人们服务。」
Goolge 首次在泰国测试医疗 AI 準确性,部署检测糖尿病视网膜病变的 AI 系统
Google 第一次在真实环境测试工具的机会来自泰国。泰国卫生部设定年度目标,要对 60% 糖尿病患者筛检糖尿病视网膜病变,如果不及早发现,此病可能导致失明。由于泰国约有 450 万名患者,但却只有 200 家视网膜专科诊所(患者与诊所比率约为美国 2 倍),因此很难达成目标。Google 已通过 CE 认证(适用泰国),但仍在等待 FDA 批准。因此,为了解 AI 能否有帮助,Beede 和同事为泰国 11 间诊所配备可经训练发现糖尿病患者眼部疾病迹象的深度学习系统。
泰国使用的系统中,护士会在检查时为患者眼睛拍照,然后将照片送到其他地方的专科医生检查,此过程可能需要长达 10 週。Google Health 开发的 AI 可从眼睛扫描辨识出糖尿病视网膜病变的徵象,準确率超过 90%(团队认为此準确率已达「人类专家等级」水準),且原则上可在 10 分钟内得出结果。系统透过分析图像来判定病症,例如血管阻塞或渗漏。
这听起来颇让人印象深刻,但实验室準确性评估就到此为止。上述系统并没有透露 AI 在複杂混乱的现实环境表现如何,这就是 Google Health 团队想搞清楚、弄明白的地方。过去几个月,他们观察护理师如何扫描眼部,并询问使用新系统的体验感受,但护理师的体验结果并不完全都是好的。
如果运行良好,AI 确实可以加快速度。但有时根本无法有结果。就和大多数影像辨识系统一样,深度学习模型经过高品质扫描训练;为了确保準确性,设计上会拒绝低于一定品质阈值的图像。但由于护士每小时扫描数十名患者,并经常在光线不足的情况下拍照,所以超过五分之一照片被拒绝。
凡是照片被踢出系统的患者会被告知必须改天去另一家诊所看医生。如果他们无法请假或没有车,就会非常不方便。护理师感到很沮丧,尤其是被拒绝的扫描没有显示任何疾病迹象,且没必要后续预约时特别感到无力,甚至有时会浪费时间尝试重新拍摄或编辑被 AI 拒绝的照片。
网路基础设施速度也成为关键,实验室準确性只是第一步
由于系统必须将照片上传到云端处理,但一些诊所的网际网路连线有问题造成延迟。「病患想要立即看到结果,但网路速度很慢,病患因此抱怨连连,」一位护理师表示:「他们从早上 6 点开始等,最初 2 小时我们只能筛检 10 位病患。」
Google Health 小组正在与当地医务人员一起合作设计新工作流程。例如,护理师可训练在不确定情况下自行判断。同时还可调整模型,以便更妥善处理不完美的照片。
「对于任何有兴趣亲自动手并在真实环境执行 AI 解决方案的人来说,都是至关重要的研究。」加拿大滑铁卢大学(University of Waterloo)从事医疗成像 AI 研究的 Hamid Tizhoosh 表示。Tizhoosh 一直对急于发表因应 Covid-19 的 AI 工具表示不满。他指出,在某些情况下,很多工具都是由没有医疗专业知识的团队开发和发表。他认为 Google 的研究及时提醒大众,在实验室建立準确性只是第一步。
- Google’s medical AI was super accurate in a lab. Real life was a different story