瑞士苏黎世联邦理工学院(ETH Zúrich)、卡罗林斯卡医学院、哈利法大学等机构联合发布的一项系统性综述与元分析指出,目前全球范围内所有基于人工智能的无袖带血压监测系统均未达到临床验证标准。该研究发表于《npj Digital Medicine》,涵盖2017至2025年间发布的86项相关研究,核心为:算法技术持续进步,但现有系统在验证方法、数据代表性及报告规范方面存在严重缺陷,无法支持其在真实医疗场景中的安全应用。
研究强调,高血压是全球心血管疾病的主要可调节风险因素。据文中引用数据,在接受评估的150万成年人中,32%从未测量过血压,34%患有高血压,其中41%患者并不知情。这一现状推动了以光电容积脉搏波描记法(PPG)、心电图(ECG)等生理信号为基础的可穿戴设备发展,旨在实现非侵入式、连续性的家庭或移动环境血压监测。这些设备的实际性能仍远未达到临床可用水平。
研究团队提出一个三维度分类框架,用于系统化梳理现有技术路径:第一类为血流动力学模型,依赖脉搏传导时间等生物标志物;第二类为基于数据的回归模型,采用机器学习或深度学习从信号特征中推导血压值;第三类为动脉压波形重建模型,通过深度神经网络生成完整的血压波形。分析发现,73%的研究集中于第二类回归模型,而仅11%尝试完整波形重建,反映出行业对“预测数值”而非“还原生理过程”的过度偏好。
在信号采集方式上,PPG在86项研究中有70项被使用,常与ECG联合应用,显著优于仅依赖心电信号的方案。这表明光学传感在便携式设备中的主导地位已确立,但也暴露出对单一信号源的依赖风险——当光照条件、皮肤接触压力或运动干扰变化时,信号质量波动可能直接影响算法输出稳定性。
更关键的是,研究揭示出极高的结果异质性:平均收缩压误差仅为1.12 mmHg(95%置信区间0.76–1.47),但异质性指数高达98.8%,意味着不同研究间的性能差异几乎无法归因于随机误差。进一步分析显示,采用“个体验证”(即模型在训练外人群测试)的研究,平均偏差为0.81 mmHg;而使用“记录级验证”(即训练与测试集存在信息泄露风险)的研究,偏差上升至1.50 mmHg,凸显数据隔离不足带来的性能虚高问题。
研究团队还基于QUADAS-2和PROBAST工具开发了一套适用于AI医疗模型的偏倚风险评估框架,评估覆盖五个方法学领域。结果显示,全部86项研究在“验证独立性”维度均未达到低风险标准,且无一获得整体低风险评级。这表明当前绝大多数研究未能建立真正独立的外部验证队列,也缺乏对数据来源、处理流程和模型部署细节的完整披露。
在人群代表性方面,严重不足:仅有1项研究记录了受试者皮肤色素等级(Fitzpatrick量表),仅2项报告了种族背景,性别分层分析仅见于3项研究,年龄分层2项,高血压分期分层5项,而抗高血压药物使用状态仅在1项研究中部分提及。这种数据结构的不完整性,直接导致模型在不同人群中的泛化能力存疑,尤其对中国市场而言,若设备训练数据以欧美白人为主,其对东亚人群的适用性将面临显著挑战。
研究还发现,所有86项研究均未提供基准模型对比结果,即未说明其算法性能是否优于简单的人群平均血压值。这意味着许多所谓“高精度”成果,可能只是对总体趋势的合理拟合,而非真正捕捉到个体生理动态变化。
针对上述问题,研究团队提出名为BP-Card的标准化报告工具,借鉴其他AI领域使用的“模型卡片”理念,要求未来研究必须明确标注模型临床目标、数据集特征、验证策略及性能指标,无论是否需要校准。该框架旨在提升透明度,便于监管机构、医生和采购方判断技术成熟度。
对中国医疗器械制造商、智能穿戴设备企业及外贸出口商而言,该研究释放出明确信号:当前市场上大量宣称“无袖带精准测压”的产品,大多基于未经充分验证的算法,其临床可靠性存疑。在拓展欧洲、北美等高监管市场时,应避免仅依赖实验室环境下的短期测试结果。建议在研发阶段即引入多样化人群样本,确保数据覆盖不同性别、年龄、肤色、体重指数及慢性病状态,并建立独立验证流程。应主动参考BP-Card框架完善技术文档,为后续注册认证(如CE、FDA)积累合规证据。
从供应链角度看,国内厂商若计划切入高端可穿戴健康设备赛道,需重点关注传感器与算法的协同优化能力。PPG模块成本较低,但其在运动伪影抑制、信号信噪比提升方面的技术门槛正在提高。未来具备自适应滤波、多模态融合能力的硬件平台将成为竞争关键。由于多数研究仍在临床控制环境下进行,真实世界中的长期佩戴表现仍是未知数,设备的电池续航、佩戴舒适度与数据隐私保护机制也需同步强化。
