解读HealthLake服务如何用机器学习革新医疗数据分析-洪萨配资

某中心机器学习总监解释全新HealthLake服务的重要性

在某中心年度机器学习主题演讲期间，该机构副总裁宣布推出Amazon HealthLake。这是一项符合HIPAA（健康保险流通与责任法案）资格的服务，使医疗机构、医疗保险公司及制药公司能够在云端以PB级规模存储、转换、查询和分析健康数据。

这项新服务使客户能够运用机器学习发现健康数据中的趋势与异常，从而为单个患者及整个人群提供更精准的护理。

新服务背后的科学家之一Taha Kass-Hout博士，是该机构的机器学习总监。作为一名医师和生物信息学家，他在过去二十年中为服务客户不断创新，并在医疗保健与生命科学、精准医学和人工智能领域处于前沿地位。

在宣布之前，Kass-Hout花时间回答了关于这项新服务的一些问题。

问：我们的医疗体系有从被动反应转向主动预防、提供更多预防性护理的愿望。HealthLake可以在加速这一趋势中扮演什么角色？

首先，HealthLake是一项符合HIPAA资格的服务，允许我们的医疗保健和生命科学客户将以前以多种不同格式存储在各个数据孤岛中的分散健康信息，汇集到一个由他们拥有和控制的安全数据湖中。

新兴的开放标准，如快速医疗互操作性资源（FHIR），旨在通过提供一致的格式来描述和跨系统交换结构化数据以应对这一挑战。然而，这些数据中有很多是非结构化信息，如临床记录、PDF实验室报告、保险索赔、X光和MRI图像、录音对话、心脏心电图或脑电图迹线等，这意味着数据在被搜索和分析之前需要被提取和转换。

HealthLake以FHIR V4格式摄取数据，然后对这些信息进行标准化处理，并对日期以及任何关键的事件描述（如药物、程序、诊断）进行标记，这些事件贯穿患者整个健康历史中的每一次诊疗。接着，它会为所有信息建立索引以便后续搜索。现在，您拥有了一个患者个体历史的完整视图，其细致程度足以让您能够对所有这些数据（而不仅仅是其子集）应用高级分析或使用新的机器学习模型来预测一系列有趣的事情。

问：HealthLake的“秘方”是什么？

从高层次上讲，它是在一个安全的数据湖中创建综合数据集的能力，该数据集可以按不同属性进行组织，然后使用高级分析和机器学习进行查询和分析。这种搜索并应用高级分析，或使用机器学习模型（包括医疗资源利用率指标或成本）预测潜在疾病结果的能力非常强大。好处在于，现在您可以比以往更早地进行预测，或快速干预以改善护理并降低成本。

另一个好处是，现在您可以通过基于标准的API访问所有这些信息，允许您（在患者同意的情况下）在医疗系统之间以及流行的第三方应用程序、分析平台等之间共享这些数据。提供者可以更有效地协作，患者可以不受限制地访问他们的医疗信息。使用HealthLake，您现在拥有了一个结构化、按时间线组织的患者完整医疗信息，允许您运行众多模型来评估慢性病风险、管理总体医疗费用，或预测患者出院后再入院的可能性——无论是在个体层面还是人群层面。

问：如果您今天仍然是一名执业医师，这个解决方案最让您兴奋的是什么？

最让我兴奋的是，在诊疗点，医生现在可以查看眼前的个体，并为每个患者确定当时相关的内容。他们还可以放大视角，查看整个人群，用数据驱动的决策来比较和管理更广泛的人群。这将实现更高质量的护理，因为医生可以利用数据来了解哪些措施有效，哪些无效。

想象一下，您有一位正在管理的糖尿病患者，两个月后，其糖化血红蛋白或血糖水平对您开具的治疗方案仍然没有反应。想象一下，您可以对该患者进行比较分析，找出可能具有类似特征的其他个体，看看哪些方法对他们有效或无效。既然您现在拥有了关于该患者以及整个人群的全面信息，您就可以做出由整体数据证据驱动的诊疗点决策。这是非常深刻的一点。这正是迫切需要用来弥补护理差距、确保为每位患者提供应得的最高质量护理，并找出对更大人群有效或无效的方法。

问：如果十年前您在相关机构工作时就有HealthLake可用，那会如何改变您的工作方式？

毫无疑问，我们将能够更早地发现大人群中的异常情况。我们可以做更多的预测分析，并更早地判断干预措施是否有效，例如在我处理过的H1N1大流行期间。拥有这种审视所有信息然后从数据中获取洞察的能力，无论是关于新发疫情，还是评估社区内传播的某些状况，然后识别护理差距，或找出可能导致疾病易感性差异的因素，都会非常有帮助。

在相关机构，您要处理的信息量是巨大的。例如，以药物上市后监测为例。这是一种新药获得批准后，您试图在整个人群中进行追踪以确定是否有任何不良反应，或试图理解为什么某部分人群反应积极，而另一部分则不然。在这些情况下，我们经常需要处理大量以各种形式出现的非结构化数据，无论是患者报告的信息，还是医生、药剂师，或是制药公司必须提交的数据。数据通常是非结构化的，比如手写笔记，包含错别字、缩写和拼写错误。在大量的文本中，存在许多丢失的信号，而像HealthLake这样的解决方案绝对有助于识别这些信号。这是因为HealthLake会考虑语义和上下文来提取并建立实体之间的关系，例如某种药物及其针对某种医疗状况的剂量，以及相关的不良反应。它将提供在庞大的非结构化医疗数据“大海”中“捞针”的机会，并更早地发现任何不良事件。

如果十年前所有这些工具都可用，我可以想象我们能够提前预测任何社区的疫情爆发或疾病传播，并理解每次事件相关的复杂性。然后，我们可以应用建模和模式识别的组合，从而为公众带来更好的结果。

问：开发像HealthLake这样的服务是您四年前决定加入该机构的原因之一吗？

绝对是。我的使命一直专注于做出更明智的健康决策，无论是在诊疗点为患者考虑，还是作为一名公共卫生官员试图确定在人群层面的正确公共卫生干预措施。能成为构建工具和机制团队的一员，帮助医疗服务提供者、公共卫生官员和其他人在最先进、最准确的科学工具的帮助下，安全、大规模地执行其使命，我深感荣幸。这些技术的民主化，使得像我这样的临床医生无论技术深度如何都能使用这些工具，具有巨大的价值。该机构最棒的事情之一不仅是免除了所有这些组件的繁重工作，而且揭开了机器学习和人工智能的神秘面纱。我们简化了对这些工具的访问，以便可以将其插入并根据个人需求进行定制，无论您是处于技术栈底层——拥有深厚专业知识的人——还是新手从业者。HealthLake的强大之处在于，您可以将所有数据汇集到一个只有您可以访问的安全环境中，然后从所有数据中推导出趋势、洞察和发现，以做出临床决策、提出建议，或许还能制定新政策。这就是一个学习型医疗系统的承诺。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

解读HealthLake服务如何用机器学习革新医疗数据分析

微信小程序的家政服务APP

惠普暗影精灵促销活动：购买指定型号赠送DDColor Token

VQA任务从零开始：使用ms-swift训练视觉问答模型完整流程

开源神器登场：支持300+多模态大模型训练、微调与部署全流程

【20年架构师亲授】：TPU固件吞吐量优化的7个关键代码段

对比Adobe Colorizer：DDColor作为开源替代方案的优势与不足