导读:为全国范围内肿瘤信息互联互通提供基础支撑,向各级医院提供肿瘤诊疗协作服务。从总体框架、技术架构包括云中心物理架构以及业务架构几个层面规划并设计信息系统。设计肿瘤大数据中心信息系统,能够采集、存储、分析各级医院恶性肿瘤诊疗信息,并提供远程医疗服务。建设肿瘤大数据中心实现区域各级肿瘤专科医院与综合性医院肿瘤信息聚合,并提供远程服务,对优化调整癌症防控策略与防治工作意义重大。
目前我国癌谱兼具发展中国家与发达国家癌谱特征,以肝癌、胃癌、食管癌、宫颈癌为主的发展中国家癌谱和以肺癌、乳腺癌、结直肠癌为主的发达国家癌谱将在一定时期内并存。随着老龄化进程的加快,我国癌症发病、死亡率还将不断上升,国家、社会和个人经济负担逐年递增。《“十三五”全国人口健康信息化发展规划》(国卫规划发〔2017〕6号)明确提到集成基因组学、蛋白质组学等国家医学大数据资源,构建心血管、肿瘤等医学数据示范中心的具体要求。因此,构建面向全国范围内各地医疗机构的肿瘤大数据中心,为采集、存储、共享、分析各级医院恶性肿瘤诊疗信息提供技术支撑十分必要。
肿瘤大数据中心建设内容分析
肿瘤大数据中心拟建成供各级肿瘤医院进行数据存储、共享的交互型平台,可接入远程医疗设备,提供远程诊疗服务。在对各级医院电子病历、图像影像、临床检验等结构化、非结构化、半结构化数据的分析研究基础上,构建肿瘤疾病预防、个性治疗诊断、病情恶化等模型,并对肿瘤的预防、诊疗、康复提供诊断工具。最终,在机器学习技术的基础上,形成能够对语义、语音、图像进行智能识别的远程智能医疗决策服务。
云数据中心基础设施包括肿瘤大数据机房、数据中心网络及软硬件支撑环境。
肿瘤大数据中心基础支撑平台及数据库包括肿瘤大数据协作网络(专网)、肿瘤大数据交换与共享系统、肿瘤大数据中心数据库。
肿瘤大数据远程协作服务涵盖基因协作系统、病理协作系统、影像协作系统等几部分。其中,基因协作系统包括科研级高端基因测序分析子系统、桌面级基因测序分析子系统、诊断级基因测序分析子系统、肿瘤影像设备及辅助诊断子系统等,为肿瘤筛查及辅助诊断提供服务支撑。此外还包括高级肿瘤会诊室、专家肿瘤诊疗室、移动触屏一体机等远程诊疗环境建设。
医院端信息平台包括建立或完善各级接入医院院内信息平台(Hospital Information Platform,HIP)和临床数据中心(Clinical document Repository,CDR)。
通过上述划分,从协作网络物理环境、支撑平台及数据中心数据库、远程诊疗以及医院端数据集成四个层面,最终实现各级医院与肿瘤大数据中心之间规范化、常态化的数据交换共享,服务各机构实时远程医疗协作,支撑肿瘤大数据在科研、医疗、疾病控制等各方面的应用。
系统设计
总体框架肿瘤大数据中心在共享机制建立的情况下,可通过肿瘤大数据交换与共享系统与各级医院信息平台(或集成平台)进行业务层与数据层对接,并建立全系统协同与共享机制,总体框架见图1。
图1 肿瘤大数据中心总体框架
通过各级医院信息平台收集HIS、CIS、PACS等不同院内系统数据并进行整合,利用肿瘤大数据交换与共享系统接入各级医院的信息平台和临床数据中心CDR实现数据集成。基于临床路径和HL7等医疗标准,建立包括肿瘤业务库(涵盖结肠癌、直肠癌、胃癌、食管癌、乳腺癌、肝癌、肺癌、宫颈癌等)、交换库、基础库、目录库为核心的肿瘤大数据平台中心数据库。基于肿瘤大数据平台,建设影像协作平台、基因协作平台、病理协作平台等众多业务应用平台。肿瘤大数据中心物理环境采用虚拟化+超融合技术实现,为各机构数据互联互通,开展远程协作和数据采集等工作提供基础支撑环境。
技术架构采用面向服务的架构(Service-Oriented Architecture,SOA)作为肿瘤大数据中心骨干支撑体系结构,可有效解决全系统资源共享及业务协同的技术支撑问题。图2所示为总体技术架构。
图2 肿瘤大数据中心技术架构
总体技术架构自下而上分为基础层、数据资源层、应用支撑层、应用层、随访层五部分。此外还包括标准规范、安全保障、运行规范体系。
基础层基础层主要解决全系统基础支撑运行环境问题。内容包括硬件服务器、网络、存储、安全设备及最基础的软件系统(包括数据库系统、操作系统、中间件等)。此外,在硬件设备之上还需进行云基础设施服务平台(包括虚拟化&资源池化、资源调度&管理等)的搭建,为系统运行提供高可用性、扩展性强的弹性云服务资源环境。
数据资源层利用分布式数据收集、存储等技术,汇聚肿瘤基础数据信息(包括患者、单位、机构的核心信息和肿瘤病案首页信息)、肿瘤业务数据等持久性信息,进行数据初步预处理及质控,将业务数据整合规范化。同时,梳理包括基础信息、业务数据、与相关单位的交换数据、多维分析产生的决策数据,设计数据存储模型并进行分类管理。
应用支撑层应用支撑层分为三部分:数据混合处理支撑服务,肿瘤大数据交换与共享系统,以及应用系统支撑服务。
其中,数据混合处理支撑服务主要利用关系型数据库、分布式数据库、Hadoop Hbase与Hive等多种数据存储和处理技术,对涉及到肿瘤患者相关的疾病和临床治疗信息进行大数据存储和深度处理。包括影像、病理、检验、电子病历等结构化、非结构化、半结构化等不同形式的信息。
肿瘤大数据交换与共享系统主要完成基于消息的路由管理、内容管理等内容,并对接入医院信息平台的接口进行统一管理,以及运行监控等功能。其核心为符合IHE(Integrating the Healthcare Enterprise)框架的企业服务总线。
应用系统支撑服务主要提供应用系统建设中基础公共支撑功能,并以可调用临床信息和组学应用编程接口(Clinical and genomics API)的形式支撑业务功能实现,主要包括:研发服务:面向临床科研人员提供开发工具,包括开发者门户,SDK(Software Development Kit)包,服务发布等功能;规则服务:根据业务需要提取出一定的业务规则进行封装,为业务应用提供规则依据,适应卫生政策的变化需求,将政策实现的业务逻辑与程序代码分离,以易于变更的业务规则来表现业务逻辑,做到随需应变;流程服务:完成系统内部业务流程统一,与ESB中的消息服务结合实现穿越系统边界的业务流程管理,为平台提供一体化的工作流支持;消息服务:建立消息传送机制,为各功能模块之间、各机构、单位之间的消息格式转换和通信提供保证;日志服务:提供系统日志的记录和查询、维护等功能,支撑实现系统安全审计功能和操作留痕。此外还包括全系统的认证服务、主索引服务、权限服务等。
应用层肿瘤大数据中心建设的业务应用系统包括影像协作平台、基因协作平台、病理协作平台等示范应用。
访问层主要是针对肿瘤医院、卫生行政管理部门、其它第三方机构、专家学者等提供不同渠道的访问接入,包括PC浏览器、App客户端、移动终端Web、触摸屏一体机等。
云中心物理架构肿瘤大数据云中心的基础设施涵盖机房建设、数据中心网络、云管理平台、计算资源池、存储资源池、网络资源池的建设,以及云安全体系建设众多方面。通过云中心的定制化建设,提供网络、安全、计算、存储、容灾备份、链路、基础软件等服务,以满足未来灵活、复杂、多变的业务发展需要。规划云中心总体网络架构见图3。
图3 中心总体网络架构图
肿瘤大数据中心总体网络架构包括两大部分,中心私有云和互联网云。中心私有云包括核心交换区、远程协作核心业务区、数据交换区、开发测试区、内联区、安管区、专家远程接入区,共计七大区域模块;互联网云包括互联网应用服务区、互联网Web服务区、互联网接入区三大区域模块,另外,还包括异地灾备中心及外联第三方数据中心机房接入。其中,远程协作核心业务区主要用于承载肿瘤大数据中心的核心业务系统,可用性、稳定性及安全性要求较高,划分为基因分析区、影像处理区、决策支持区三部分。专家远程接入区用于为知名肿瘤诊治医生远程视频会商、远程诊断服务提供接入渠道。互联网接入区为省市各级肿瘤医院、综合性医院提供数据接入途径,各级医院数据中心的肿瘤信息,通过互联网云汇聚到中心私有云,同时利用在互联网应用服务区与Web服务区部署的远程协作系统,为各级医院使用者提供各类远程协作服务。
在运维管理层面通过资源管理、网络拓扑管理、配置管理、日志管理、告警管理、报表管理、性能管理等多维度,提供运维工具集,确保云中心正常运行。
业务应用系统基于肿瘤大数据中心的应用主要包括远程协作系统、肿瘤辅助诊疗决策支持系统等。
远程协作系统涵盖基因分析协作、病理协作以及影像协作等不同业务方向。基因分析协作可提供测序、生命组学数据质控、血浆游离循环肿瘤DNA检测、癌症重要变异位点筛选比对服务等[6]。病理协作系统可提供病理切片数字化及管理服务、病理云存储服务。影像协作系统为各级医疗机构提供影像三维后处理服务,并向临床医生提供肿瘤早期筛查服务。
肿瘤辅助诊断决策支持系统集成临床与组学分析模型库以及各类肿瘤主题分析,构建基于大数据技术的肿瘤辅助诊断决策支持子系统,实现肿瘤临床路径的知识发现,提供临床诊疗路径、关联分析,给予疾病诊断治疗的过程建议以及政策制定的决策支持。通过肿瘤临床路径知识库的建立,可及时发现肿瘤诊疗过程中存在的不规范问题,最终达到通过质控规范诊疗行为的目的。
关键技术问题
由于肿瘤大数据形式多样且具有较强的专业性和复杂性,在系统实施过程中,需要重点研究下列问题。
中文电子病历的自然语言处理针对中文电子病历中存在的书写不规范、拼写错误多以及语义理解等问题,研究自然语言处理及其结构化标准化技术。
海量医疗元数据语义关联索引组织策略应通过SNOMED CT、ICD10、药典库、诊断库等构建医疗临床专业语料库,并构建非结构化分析引擎和业务模型。同时可采用Lucene/Solr/ElasticSearch等开源分布式搜索和分析引擎的REST API实现多模态多粒度医疗元数据格式的定义、快速上传和高效索引构建。
针对多模态多粒度检索与计算问题首先利用关系代数等价变换算法对用户查询进行分解,然后对多种模态数据进行相似性匹配,结合时间、疗程、地理位置等维度的多粒度数据进行检索,最后将查询结果组合排序。
临床信息与与生命组学融合研究包括采用机器学习模型将结构化和非结构化的医学数据映射到临床表型本体上;开发基于GATK流程的国际通用基因组测序分析软件;采用re-calibration方法对碱基的质量分数进行校正;采用基于HaplotypeCaller方法的变异检测技术,建立数学模型去评估新的变异;基因组Variant/基因表达/蛋白质/代谢物等分别与表型进行PheWAS相关性分析等。
融合人工智能技术实现流程自动化在系统中融合人工智能技术,通过现有肿瘤大量数据训练学习机,提高诊断精准度,最终实现医生可信任的诊断模型系统的构建,为开发有效的诊断决策支持系统提供支撑。从数据采集阶段对数据自动化清洗、组织以及存储,数据应用阶段通过不断地训练学习,调整自动化模型,使其更加符合应用与协同需求,满足医务工作人员需求。
医院信息化发展过程中累积了海量数据,亟需采取措施把分布在各级医院HIS、LIS、EMR等系统的信息集中和提炼出来,并融合院前健康管理与院后康复的医疗健康等信息资源,建立全国范围内的肿瘤大数据协作网络,研发肿瘤大数据中心平台,构建远程诊疗平台,为各级医疗机构提供健康辅助、诊断辅助、治疗辅助、随访辅助等远程服务,并总结出肿瘤诊疗的内在规律,提升我国癌症防控、治疗、诊断水平。