医疗知识图谱构建：GTE模型与Neo4j的完美结合-洪萨配资

医疗知识图谱构建：GTE模型与Neo4j的完美结合

想象一下，你是一位医学研究员，面对堆积如山的文献和病例报告，想要快速理清某种疾病的致病机理、相关药物和并发症之间的关系。传统方法可能需要你手动阅读、标记、整理，耗时耗力还容易出错。但现在，有一种方法能让机器自动从文本中“读懂”这些关系，并以直观的图谱形式呈现出来，这就是知识图谱的魅力。

今天，我们就来聊聊如何利用阿里达摩院的GTE文本嵌入模型和Neo4j图数据库，构建一个专属于医疗领域的知识图谱。整个过程就像教AI读医学文献，然后让它画出知识间的“关系网”，帮你一眼看清疾病的来龙去脉。

1. 为什么是GTE和Neo4j？

在开始动手之前，我们先简单了解一下为什么选择这两个工具。

GTE模型，全称General Text Embedding，是阿里达摩院推出的一款文本向量表示模型。你可以把它理解成一个“文本理解器”。给它一段文字，比如“糖尿病可能导致视网膜病变”，它能将这句话转换成一串有意义的数字（向量）。这串数字的神奇之处在于，语义相近的句子，它们的数字串在数学空间里也挨得很近。这对于从海量文本中自动发现相似概念和潜在关系至关重要。GTE模型对中文支持友好，且在通用领域表现出色，非常适合处理包含大量专业术语但逻辑相对规范的医学文本。

Neo4j则是一个知名的图数据库。和我们熟悉的使用表格的数据库（如MySQL）不同，Neo4j专门用来存储和查询“图”结构的数据。在图里，最基本的元素是“节点”和“关系”。比如，我们可以创建“疾病”节点和“症状”节点，然后用“表现为”关系把它们连接起来。这种存储方式对于表达医学知识中复杂的网络关系（一种病对应多种症状，一种药治疗多种疾病）再合适不过了。

把它们俩结合起来，思路就很清晰了：用GTE模型作为“大脑”，理解医学文献，抽取出实体（如药物、疾病、基因）和它们之间的关系；用Neo4j作为“画板”，把这些实体和关系存储起来，构建成一张可视化的知识图谱。

2. 从零开始：环境搭建与工具准备

工欲善其事，必先利其器。我们先来把需要的环境准备好。

2.1 安装必要的Python库

我们将主要使用Python来完成文本处理和数据库操作。打开你的终端或命令行，创建一个新的项目目录，然后安装以下依赖：

# 创建项目目录并进入 mkdir medical-kg-project cd medical-kg-project # 创建虚拟环境（可选但推荐） python -m venv venv # Windows激活: venv\Scripts\activate # Mac/Linux激活: source venv/bin/activate # 安装核心库 pip install torch transformers # 用于加载和运行GTE模型 pip install py2neo # Neo4j的Python驱动，方便我们用代码操作数据库 pip install pandas # 用于数据处理

2.2 启动Neo4j数据库

Neo4j提供了免费的社区版，非常适合学习和开发。最方便的方法是使用Docker一键启动：

docker run \ --name medical-neo4j \ -p 7474:7474 -p 7687:7687 \ -d \ --env NEO4J_AUTH=neo4j/your_password_here \ # 设置用户名和密码，请替换‘your_password_here’ neo4j:latest

运行成功后，你可以在浏览器中打开http://localhost:7474，使用用户名neo4j和你设置的密码登录Neo4j Browser。这是一个图形化的管理界面，你可以在这里直接查看和查询图谱数据。

2.3 准备GTE模型

我们选择GTE的中文基础版模型，它在效果和资源消耗之间取得了不错的平衡。模型会自动从Hugging Face模型库下载。

# 先写一段代码测试模型是否能正常加载 from transformers import AutoTokenizer, AutoModel import torch.nn.functional as F model_name = "Alibaba-NLP/gte-base-zh" # 使用GTE中文基础模型 tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModel.from_pretrained(model_name, trust_remote_code=True) # 测试一下 test_texts = ["糖尿病", "胰岛素分泌不足"] inputs = tokenizer(test_texts, padding=True, truncation=True, return_tensors='pt') with torch.no_grad(): outputs = model(**inputs) # 取[CLS]位置的向量作为句子表示 embeddings = outputs.last_hidden_state[:, 0] embeddings = F.normalize(embeddings, p=2, dim=1) similarity = (embeddings[0] @ embeddings[1].T).item() print(f"‘{test_texts[0]}’ 和 ‘{test_texts[1]}’ 的语义相似度: {similarity:.4f}")

如果看到输出了一个相似度分数（比如0.85），说明模型加载成功。这个分数越接近1，表示两个短文本的语义越相近。

3. 实战演练：构建心血管疾病知识图谱

接下来，我们以一个具体的场景为例：从一段关于心血管疾病的医学描述中，自动构建一个小型知识图谱。

3.1 第一步：定义知识图谱的“骨架”

在投喂数据给AI之前，我们需要先设计好图谱里有哪些类型的节点和关系。这就像先画好表格的标题栏。

对于心血管疾病领域，我们初步设计：

节点类型（实体）：
- Disease（疾病）：如“高血压”、“冠心病”。
- Symptom（症状）：如“胸痛”、“头晕”。
- Drug（药物）：如“阿司匹林”、“硝酸甘油”。
- Examination（检查手段）：如“心电图”、“冠状动脉造影”。
关系类型：
- HAS_SYMPTOM（具有症状）：疾病 -> 症状。
- TREATS（治疗）：药物 -> 疾病。
- CAUSES（导致）：疾病 -> 疾病（并发症）。
- DIAGNOSED_BY（通过...诊断）：疾病 -> 检查手段。

在Neo4j中创建这些类型约束和索引，可以提升查询效率。我们在Python中完成这个初始化步骤：

from py2neo import Graph, Node, Relationship # 连接到本地Neo4j数据库 graph = Graph("bolt://localhost:7687", auth=("neo4j", "your_password_here")) # 替换为你的密码 # 清理旧数据（如果是第一次运行，可能没有数据，这步可跳过或保留） # graph.run("MATCH (n) DETACH DELETE n") # 为每种节点类型创建唯一性约束（确保同名实体只有一个节点） try: graph.run("CREATE CONSTRAINT IF NOT EXISTS FOR (d:Disease) REQUIRE d.name IS UNIQUE") graph.run("CREATE CONSTRAINT IF NOT EXISTS FOR (s:Symptom) REQUIRE s.name IS UNIQUE") graph.run("CREATE CONSTRAINT IF NOT EXISTS FOR (dr:Drug) REQUIRE dr.name IS UNIQUE") graph.run("CREATE CONSTRAINT IF NOT EXISTS FOR (e:Examination) REQUIRE e.name IS UNIQUE") print("数据库约束创建成功。") except Exception as e: print(f"创建约束时出错，可能已存在: {e}")

3.2 第二步：让AI阅读医学文本并提取实体

我们模拟一段医学文本，并编写一个简单的规则+语义匹配的方法来提取实体。在实际复杂场景中，你可能需要用到更专业的命名实体识别模型。

import re medical_text = """ 高血压（Hypertension）是常见的慢性病，其主要症状包括头晕、头痛和心悸。 长期高血压是冠心病（Coronary Heart Disease）的重要危险因素，可导致心肌梗死。 常用治疗药物包括硝苯地平（Nifedipine）和卡托普利（Captopil）。 诊断通常依靠血压测量和心电图（ECG）检查。 冠心病患者常出现胸痛（心绞痛）和呼吸困难。 """ # 简单的基于规则和关键词的实体提取函数（示例用，实际应用需要更复杂的NLP模型） def extract_entities(text): entities = {'Disease': [], 'Symptom': [], 'Drug': [], 'Examination': []} # 疾病提取（匹配中文病名及其后的英文） disease_pattern = r'([\u4e00-\u9fa5]+病|[\u4e00-\u9fa5]+高血压|冠心病)（([A-Za-z\s]+)）?' for match in re.finditer(disease_pattern, text): entities['Disease'].append(match.group(1)) # 症状提取 symptom_keywords = ['头晕', '头痛', '心悸', '胸痛', '心绞痛', '呼吸困难'] for keyword in symptom_keywords: if keyword in text: entities['Symptom'].append(keyword) # 药物提取（匹配中文药名及其后的英文） drug_pattern = r'([\u4e00-\u9fa5]+普利|[\u4e00-\u9fa5]+地平)（([A-Za-z\s]+)）?' for match in re.finditer(drug_pattern, text): entities['Drug'].append(match.group(1)) # 检查手段提取 exam_keywords = ['血压测量', '心电图', 'ECG', '冠状动脉造影'] for keyword in exam_keywords: if keyword in text: entities['Examination'].append(keyword) # 去重 for key in entities: entities[key] = list(set(entities[key])) return entities extracted = extract_entities(medical_text) print("提取到的实体：") for key, value in extracted.items(): print(f" {key}: {value}")

运行这段代码，它会输出从文本中识别出的各类实体列表。

3.3 第三步：利用GTE模型发现实体间关系

仅仅提取出实体还不够，我们需要知道它们之间如何关联。这里，GTE的语义理解能力就派上用场了。我们可以通过计算实体在上下文中的语义关联度，来推测它们之间可能存在的关系。

我们设计一个简单的“关系发现”策略：对于句子中共同出现的两个实体，用GTE模型计算整个句子的向量，并与预定义的关系描述进行相似度比较，从而判断最可能的关系类型。

def discover_relations(sentence, entities_in_sentence): """ 在一个句子中，发现实体对之间的关系。 entities_in_sentence: 这个句子中出现的所有实体，格式为 [('Disease', '高血压'), ('Symptom', '头晕'), ...] """ # 预定义的关系类型及其描述模板 relation_templates = { 'HAS_SYMPTOM': '疾病具有症状', 'TREATS': '药物治疗疾病', 'CAUSES': '疾病导致疾病', 'DIAGNOSED_BY': '疾病通过检查手段诊断', } # 为当前句子生成向量 inputs = tokenizer(sentence, padding=True, truncation=True, return_tensors='pt') with torch.no_grad(): outputs = model(**inputs) sentence_embedding = outputs.last_hidden_state[:, 0] sentence_embedding = F.normalize(sentence_embedding, p=2, dim=1) relations = [] # 遍历实体对 for i in range(len(entities_in_sentence)): for j in range(i+1, len(entities_in_sentence)): e1_type, e1_name = entities_in_sentence[i] e2_type, e2_name = entities_in_sentence[j] # 根据实体类型组合，猜测可能的关系类型 possible_rels = [] if e1_type == 'Disease' and e2_type == 'Symptom': possible_rels.append('HAS_SYMPTOM') if e1_type == 'Drug' and e2_type == 'Disease': possible_rels.append('TREATS') if e1_type == 'Disease' and e2_type == 'Disease': possible_rels.append('CAUSES') if e1_type == 'Disease' and e2_type == 'Examination': possible_rels.append('DIAGNOSED_BY') # 其他组合... # 为每种可能的关系生成描述，并计算与句子向量的相似度 for rel in possible_rels: template = relation_templates[rel] # 将模板中的占位符替换为具体实体 desc = template # 这里简化处理，实际可以生成如“高血压具有头晕”这样的描述 # 计算描述文本的向量 desc_input = tokenizer(desc, padding=True, truncation=True, return_tensors='pt') with torch.no_grad(): desc_output = model(**desc_input) desc_embedding = desc_output.last_hidden_state[:, 0] desc_embedding = F.normalize(desc_embedding, p=2, dim=1) # 计算相似度 sim = (sentence_embedding @ desc_embedding.T).item() if sim > 0.7: # 设定一个相似度阈值 relations.append((e1_name, rel, e2_name, sim)) return relations # 将文本拆分成句子（这里简单按句号分，实际可用更专业的句子分割器） sentences = [s.strip() for s in medical_text.split('。') if s.strip()] all_relations = [] for sent in sentences: # 找出这个句子中包含的实体（需要先实现一个函数匹配句子中的实体） # 这里为了示例，我们手动模拟一下第一个句子的结果 if "头晕" in sent: # 模拟实体识别结果 entities_in_sent = [('Disease', '高血压'), ('Symptom', '头晕'), ('Symptom', '头痛')] discovered = discover_relations(sent, entities_in_sent) all_relations.extend(discovered) print(f"句子: {sent}") print(f" 发现关系: {discovered}")

这个示例展示了如何利用语义相似度来辅助关系发现。在实际项目中，你可能需要结合更精确的实体链接、句法分析以及医学领域规则来提升准确率。

3.4 第四步：将实体和关系存入Neo4j

有了实体列表和关系列表，我们就可以把它们“画”到Neo4j这张画板上了。

def create_graph(entities_dict, relations_list): tx = graph.begin() # 1. 创建所有实体节点 node_map = {} for label, names in entities_dict.items(): for name in names: # 避免重复创建 if (label, name) not in node_map: node = Node(label, name=name) tx.create(node) node_map[(label, name)] = node print(f"创建节点: {label}:{name}") # 2. 创建关系 for rel_data in relations_list: source_name, rel_type, target_name, confidence = rel_data # 假设relations_list包含置信度 # 这里需要根据实体名找到对应的节点对象，我们假设关系两端的实体名是唯一的 # 在实际代码中，你需要更稳健的方式来查找节点，例如通过属性查询 source_node = None target_node = None for (l, n), node_obj in node_map.items(): if n == source_name: source_node = node_obj if n == target_name: target_node = node_obj if source_node and target_node: rel = Relationship(source_node, rel_type, target_node, confidence=confidence) tx.create(rel) print(f"创建关系: ({source_node['name']})-[:{rel_type}]->({target_node['name']})") else: print(f"警告：未找到节点，无法创建关系 {source_name}->{target_name}") graph.commit(tx) print("知识图谱数据已提交到Neo4j。") # 假设我们通过前面的步骤得到了以下结果（这里手动定义用于演示） demo_entities = { 'Disease': ['高血压', '冠心病', '心肌梗死'], 'Symptom': ['头晕', '头痛', '心悸', '胸痛', '呼吸困难'], 'Drug': ['硝苯地平', '卡托普利'], 'Examination': ['血压测量', '心电图'] } demo_relations = [ ('高血压', 'HAS_SYMPTOM', '头晕', 0.92), ('高血压', 'HAS_SYMPTOM', '头痛', 0.88), ('高血压', 'CAUSES', '冠心病', 0.85), ('冠心病', 'HAS_SYMPTOM', '胸痛', 0.90), ('硝苯地平', 'TREATS', '高血压', 0.87), ('高血压', 'DIAGNOSED_BY', '血压测量', 0.93), ] create_graph(demo_entities, demo_relations)

运行成功后，打开Neo4j Browser (http://localhost:7474)，在查询框中输入MATCH (n) RETURN n LIMIT 25，点击执行。你应该能看到一个可视化的图谱，各种颜色的节点通过箭头连接，一个关于心血管疾病的微型知识网络就跃然屏上了。

4. 知识图谱能做什么？应用场景展望

费了这么大劲构建出来的知识图谱，到底有什么用呢？它的价值在于将非结构化的文本，变成了结构化的、可查询、可推理的网络。

智能问答：你可以问系统：“高血压有哪些症状？” 系统只需在Neo4j中执行一个简单的查询MATCH (d:Disease {name:'高血压'})-[:HAS_SYMPTOM]->(s:Symptom) RETURN s.name，就能立刻返回答案。
疾病关联分析：想知道“高血压”可能引发哪些并发症？查询MATCH (d1:Disease {name:'高血压'})-[:CAUSES]->(d2:Disease) RETURN d2.name，图谱能清晰展示疾病发展的路径。
药物推荐辅助：虽然不能直接开处方，但可以为医生提供参考信息。查询治疗某种疾病的药物：MATCH (dr:Drug)-[:TREATS]->(d:Disease {name:'高血压'}) RETURN dr.name。
科研发现：当图谱规模足够大时，通过图算法（如社区发现、路径查找），可能发现文献中未明确记载的潜在药物-疾病关系或新的生物通路。