• 周日. 6 月 16th, 2024

上海市医疗器械行业协会

admin

10 月 31, 2023 #智能化测评, #测评

【AI智能医疗器械创新合作平台成果巡展】积极构建智能医疗器械技术评价体系

作者单位:中国信息通信研究院 赵阳光? 滕一山? 崔日红

智能化测评手段_智能化测评_智能化测评技术/

评估技术研究工作组

评估技术研究工作组由中国信息通信研究院牵头。 作为组长,组织人工智能医疗器械数据质量控制和产品验证评价工作,研究数据质量要求和产品评价方法。

评估技术研究工作组根据人工智能医疗器械产品的发展现状和技术特点,提出了一套评估体系,包括可实施的评估方法,以及综合的指标体系和指标计算方法,可以证明产品的安全性在某种程度上。 功效方面,它还具有以下三个优点。

首先,第三方数据库具有样本量丰富、信息量大、多维度的特点,可以更好地评价算法的泛化能力。

其次,人工智能技术是数据驱动的,具有快速更新迭代的特点。 产品进行数据驱动更新后,可以通过第三方测试数据库来验证其算法性能是否发生了显着变化。

三是可以支持企业或第三方评估机构明确网络安全漏洞扫描流程和扫描方法。

融合人工智能等技术的医疗器械作为新兴产品,具有数据驱动、快速迭代、高流通的特点。 传统的基于软件质量模型的测试方法无法实现对其安全性、有效性的全面验证,迫切需要建立面向智能化的医疗器械专有技术评价体系规范技术标准。 人工智能医疗器械创新合作平台评价技术研究工作组(以下简称工作组)牵头研究建设了一套包括检测公共服务平台、产品性能标准、网络等安全、权威、可追溯的评价技术安全漏洞扫描等系统,为监管提供依据,促进智能医疗器械行业持续健康发展。

建立算法评测公共服务平台

工作组建立了人工智能医疗器械算法评价公共服务平台。 目前,该平台已与北京协和医院建设的“糖尿病视网膜病变常规眼底彩色摄影AI标准数据库”对接,具备对糖尿病视网膜病变AI辅助决策产品进行评价工作的能力,支持是否是否需要转诊以及是否患有糖尿病视网膜病变。 (DR),国际分期DR,是否结合其他病变、图像质量等检测要求。 平台可动态接入第三方测试数据库,为不同医疗AI产品提供测试环境,实现医疗AI产品算法性能的自动化测试并输出测试报告。

平台采用分布式数据库建设模式,可灵活连接多个评估数据库。 通过整合第三方机构资源,充分保证数据库来源的可信度和可靠性。 分布式数据库建设将数据库建设工作委托给第三方机构,可以保证评估数据库具有产权清晰、高质量、规模化、多样化、动态更新、灵活扩展、可持续发展的特点。 平台接入“糖尿病视网膜病变常规眼底彩色摄影AI标准数据库”。 数据库建设过程各阶段的参与者均完成了相应的培训并通过了考核。 该数据库收集了全国8个省共14个地区的真实数据,共计15000张糖尿病患者眼底彩色照片,涵盖了目前市场上主要的眼底相机型号; 经过伦理审查和数据脱敏、数据标注和数据库建设流程均满足平台相关质量控制要求,并于2020年7月17日作为人工智能医疗器械创新合作平台成果发布。

人工智能医疗器械算法评价公共服务平台与第三方检测数据库之间的数据交互,以及待检测产品在平台上的部署,均采用专用的加密VPN通道,保证数据库的安全以及待测试的产品。 待测产品部署所使用的VPN通道有时间限制,并遵循“只进不许出”的原则。 整个测试过程在封闭的沙​​箱环境中完成,物理隔离; 整个测试过程自动化且加密,遵循“无人干预”的原则。

平台可以自动记录每次检测的完整过程以及检测数据的元属性。 流经检测节点的所有关键数据记录均可查询,确保测试可追溯。

起草产品性能规格和测试方法

工作组组织相关单位共同起草了《基于眼底彩色摄影的糖尿病视网膜病变辅助决策产品性能指标和测试方法》和《肺结节辅助决策产品性能指标和测试方法》两个技术文件基于胸部CT的成像”。 目前,已在人工智能医疗器械创新合作平台上发布。 稿件内容包括范围、规范性引用文件、术语和定义、性能指标和测试方法五个部分,用于指导人工智能医疗器械算法评价公共服务平台开展相关产品的性能评价。 两篇稿件都提出,人工智能医疗器械产品的性能指标分为两部分,即临床性能指标和其他性能指标。

其中,针对不同的技术场景制定了临床性能指标。 所有场景可以分为四类,即判别分类、目标检测、图像分割和定量计算。 不同类型的产品都有这些技术场景中的一种或多种。 例如,糖网辅助诊断产品的技术场景是判别式分类; 大多数肺结节辅助诊断产品的技术场景是目标检测、图像分割和定量计算,部分产品还包括判别分类。

其他性能指标分为三个部分,即鲁棒性、泛化性和再现性。

鲁棒性是指系统在一定的(结构、尺寸)参数扰动下保持一定性能的特性。 测试方法为:提取部分测试数据,进行随机基本变换,测试产品的稳健性。 其中,基本变换包括裁剪原图像边长5%、左右翻转、上下翻转、增大对比度(5%)、减小对比度(5%)、增大亮度(5%)、减小亮度(5%),并增加一定量。 信号幅度的高斯白噪声 (5%)。 实际的测试过程应该至少包括其中的三种转换,具体选择哪种转换由产品声明决定。 基本变换数据应占总测试样本量的10%。 将转换后的测试数据和剩余未转换的数据倒入封闭的沙箱中,计算临床性能指标结果,分析是否存在统计学差异。

泛化性是指算法预测训练集之外的样本类别的能力。 检验方法为:在临床性能测试的基础上,根据不同维度的数据属性统计测试结果,计算不同属性下的临床性能指标,分析是否存在统计差异。 例如,统计维度为不同地区,则每种类型的数据属性为中部地区、北部地区、南部地区等。具体统计维度可以包括不同地区、不同采集设备厂家等。

再现性是指在算法测试环境和初始条件相同的情况下,对于相同或相似的数据集,算法的不同测试结果之间的一致性。 测试方法为:根据上次临床性能测试所用的相同数据集进行第二次测试,得到的临床性能指标应不差于上次测试结果。

编制网络漏洞识别与评估方法文件

2022年11月,工作组编制的《医疗器械网络安全漏洞识别与评估办法(征求意见稿)》就人工智能医疗器械创新合作平台向社会征求意见。 本文件旨在规范医疗器械网络安全漏洞评估流程和方法,指导相关单位开展网络安全漏洞检测工作,提高医疗器械网络安全防护能力。

征求意见稿将网络安全漏洞评估分为五个流程:

一是评估范围分析。 医疗器械网络安全漏洞的评估不仅要关注医疗器械产品本身,还要综合考虑产品实际使用的运行环境,包括产品中描述的必要的软硬件、运行环境等技术要求。

二是确定漏洞扫描策略。 在扫描网络安全漏洞之前,需要确定产品的结构和组成,并根据不同的产品结构特征和组成类型确定相应的扫描、检测和评估方法。

三是进行漏洞扫描。 通过发现目标网络或主机,进一步收集目标信息,包括操作系统类型、开放端口、运行的服务、使用的协议类型等。漏洞扫描工具根据收集到的信息,向搜索到的目标发送请求信息,分析其中的漏洞信息。返回信息,最终判断是否存在安全漏洞。

四是漏洞扫描检测结果评价。 完成医疗器械产品的扫描检测后,描述扫描检测情况,记录检测过程中的信息,说明漏洞分布,输出漏洞信息。

五是已知遗留漏洞的维护。 根据扫描后已知的剩余漏洞和漏洞分布情况,注册申请人将根据剩余漏洞的具体信息、漏洞风险级别、漏洞所在位置、漏洞修复难度、漏洞修复紧急程度,对剩余漏洞进行综合分析,对产品安全的影响,确定网络安全策略,制定漏洞维护计划。

推动研究成果落地

人工智能医疗器械算法评估公共服务平台和医疗器械网络安全漏洞检测方法已支持多个产品完成训练优化和测试验证工作,为产品上市过程中的安全性和有效性评估提供了有力支撑。

申请过程中,人工智能医疗器械算法评价公共服务平台根据产品类型和检测要求提交检测任务。 测试数据库根据测试任务准备测试数据集,并将提取的测试数据分为图像数据和金标准数据标签。 两部分。 将图像数据与被测产品一起倒入封闭安全的测试环境中,运行产品,产品输出预测的数据标签。 通过与金标准数据标签进行对比,基于指标体系计算出各项绩效指标。

对于医疗器械网络安全漏洞的检测方法,现阶段工作组对网络安全的研究主要集中在辅助治疗、医学图像处理等人工智能医疗器械软件,以及外科手术等有源医疗器械。机器人和基因测序系统。 、连续血糖监测系统、病人监护仪等。

以腹腔镜手术系统为例,其结构组件主要包括医生控制台、患者手术平台、三维腹腔镜内窥镜、图像处理平台等,每个组件都是一个独立的功能模块,并包含自己的控制。 通过网络连接协同工作的系统。 在产品设计方面,医生控制台、三维腹腔镜内窥镜、图像处理平台多采用通用计算平台,采用Windows或Linux系统; 患者手术平台通常对实时性、可靠性和小型化有更高的要求。 使用嵌入式系统,如嵌入式Linux、Vxworks、QNX等。在扫描网络安全漏洞时,针对不同的结构单元采用不同的扫描策略。 如上述情况,在扫描医生控制台、三维腹腔镜内窥镜、图像处理平台时,采用基于网络的扫描方式,将检测工具连接到其内部网络进行扫描,以检测和发现操作系统、组件、协议、数据库、网络系统等方面的漏洞; 患者手术平台使用嵌入式系统,对其固件进行静态扫描和检测,并使用逆向工程来发现二进制固件中的漏洞。