大数据指的是庞大而复杂的数据集合,具有极大量、多种类、生成速度快、准确性高等特征。围绕信用卡、互联网、手机和社交网络的使用,特别是来自微信、微博、视频和音频网站的非结构化数据在近些年经历了指数级增长。


虽然数据挖掘具有探索隐藏模式和规律的巨大潜力,但其本质上是异构的,需要以有组织的形式搜集并予以整合;加之测量技术、数据存储设备以及链接不同数据集的能力特别是机器学习和人工智能等处理技术应用成本的降低,搜集、组织和分析大数据集以发现有用信息的价值得以极大凸显。虽然大数据在传染病监测方面的初步应用较好地拟合了现实,显示巨大的潜力和光明的前景,但将其应用于我国公共卫生管理实践,在数据挖掘和共享、数据集成和处理技术、隐私保护、管理体制和人才储备等方面仍存在不小挑战。


数据挖掘和共享的困难


一方面,数据尚未完全嵌入相关组织的业务流程和组织管理实践中。在许多情况下,患者监测数据并未整合到临床诊断和治疗中,临床数据也未整合到公共卫生服务和传染病监测中,因而需要更多的数据集成。另一方面,对数据的有限访问是实现大数据潜力的主要障碍。公共卫生大数据分散在不同的数据池中,这些数据集之间没有太多联系,由于数据共享机制不完善,医院、科研单位和其他机构之间存在着严重的信息壁垒,在机构之间共享结构化数据效率低下,而在不同组织之间共享非结构化数据则更难以实现。


已有的全球疾病监测组织和系统集成度较差,并且生成的数据报告格式不完整、不一致且不兼容。随着数据全球化的加快,公共卫生中的大数据也将面临不同程度的语言、术语和标准化障碍。


数据集成和处理技术的挑战


当前的标准和技术尚不足以满足公共卫生大数据集成应用的要求。数据缺乏统一的标准、一致的描述格式和表示方法,很难实现不同级别的结构化、半结构化和非结构化数据集成;各种数据库使用不同的软件和数据格式,使得数据比较、分析、传输、共享变得非常困难。涉及数据不准确性、数据丢失和选择性测量的问题会影响预测建模的结果和决策,模型校准中的缺陷也可能会干扰推断。


尽管结合了传统传染病监测方法和大数据的新型混合模型显示较好的前景,但当前技术手段在处理异构和实时数据方面依然效率不高,很难同时兼顾分布式系统的可用性、一致性和分区容错性,信噪比问题尤其具有挑战性,预测的可靠性尚无法与气候学等领域相比,任何新颖的数据流在投入使用前都必须根据已建立的传染病监测数据和系统进行验证。已有研究表明,将流行弹性行为纳入有望提升模型的解释力,因为从风险感知到勤洗手、戴口罩、改变社交距离和减少出行行为等预防措施的采用,都将显著影响疾病在人群中的传播速度和传播途径。


隐私保护与公共利益间的权衡难题


公共卫生大数据比其他类型的大数据更加敏感,患者数据泄漏可能会带来被孤立、名誉受损、伤害、歧视等严重后果。云计算等大数据技术、医疗保健信息的集中化趋势和一些大型数据库的建立,使得私人医疗数据面临受到攻击的巨大风险,并为第三方出于商业目的在未经授权的情况下滥用患者的健康信息提供了便利。


对于数据隐私保护问题,尚无完美的解决方案。即使大数据库使用匿名的个人加密数据,仍然存在重新标识用户身份的风险,并且可能通过数据链接技术重新确定个人身份;而完全删除被认为是识别信息的内容,也将限制跨不同来源链接数据的用途。考虑到卫生大数据在道德和伦理等方面的潜在问题,有必要就如何界定其在公共卫生中的伦理用途和不道德用途进行广泛讨论,特别是患者数据隐私风险如何与公共利益之间妥善权衡。


管理体制和人才储备不适应大数据应用的要求


大数据的价值取决于其对公共卫生从业者和政策制定者的效用。目前,公共卫生基础设施尚不具备分析和使用这些异构大数据的能力,跨学科的方法集成不够,同时拥有数据处理技术和医学知识的专业人才非常缺乏。


在国家级公共卫生监测系统是监测系统中心的前提下,需要改革管理体制和机制设计,以便将这些非常规来源生成的大数据转换为可直接操作的信息。地方公共卫生部门存在人力资源和预算限制,妨碍了其访问和有效利用各种大数据资源。为此,应创造适当的制度和政策环境,探索实现共享公共卫生数据的做法。比如,将数字疾病监测组织作为公共卫生系统的正式合作伙伴,以系统的方式将可操作的数据输入监视系统。

点赞(0)

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部