MGeo部署最佳实践：目录结构与权限设置规范-洪萨配资

MGeo部署最佳实践：目录结构与权限设置规范

1. 为什么目录结构和权限设置值得专门讲？

很多人部署MGeo时，第一反应是“跑通就行”，复制粘贴几行命令，看到输出结果就收工。但很快会遇到这些问题：

每次重启容器后，自己改的脚本不见了
在Jupyter里能运行，终端里却报ModuleNotFoundError
多人协作时，有人删了关键配置，没人知道谁动过什么
想加个新数据文件，发现不知道该放哪、有没有读写权限
日志写不进指定路径，排查问题全靠猜

这些问题，90%不是模型或代码的问题，而是目录组织混乱 + 权限配置随意导致的。MGeo虽小，但它处理的是中文地址这种高敏感、强业务耦合的数据，一旦路径错位或权限失控，轻则推理失败，重则数据误覆盖、日志丢失、调试断链。

本文不讲模型原理，也不堆参数调优——我们聚焦一个被严重低估的工程细节：如何用最朴素的方式，搭出稳定、可维护、易协作的MGeo运行环境。所有操作均基于4090D单卡镜像实测验证，适配阿里开源的MGeo地址相似度匹配项目（中文地址领域专用）。

2. 镜像启动后的默认状态与风险点

2.1 容器内初始目录结构一览

镜像启动后，你看到的根目录结构大致如下（已精简无关项）：

/root ├── 推理.py # 主推理脚本（只读？待验证） ├── config/ # 配置目录（含模型路径、分词器配置等） │ ├── model_config.json │ └── tokenizer_config.json ├── data/ # 示例数据目录（注意：默认无写入权限） │ └── sample_addresses.txt ├── models/ # 模型权重目录（通常只读） │ └── mgeo_chinese_v1/ ├── workspace/ # 用户工作区（推荐唯一可写目录） └── requirements.txt

关键事实：

/root目录下多数文件默认为只读（包括推理.py），这是镜像安全策略，防止误改核心逻辑；
/data和/models是挂载的只读层，直接写入会失败；
只有/root/workspace是明确赋予用户读写权限的持久化目录，且内容在容器重启后仍保留；
Jupyter 默认工作目录是/root/workspace，但终端默认在/root—— 这就是“Jupyter能跑、终端报错”的根源。

2.2 权限配置的三个常见误区

误区	表现	后果
直接 chmod 777 整个 /root	`chmod -R 777 /root`	破坏镜像安全基线，conda环境可能异常，下次更新镜像失效
把新数据扔进 /data 目录	`cp my_data.txt /root/data/`	命令看似成功，实际写入的是临时层，容器重启即消失
在 /root 下新建目录并运行	`mkdir /root/mytest && cd /root/mytest`	Python找不到包（路径不在sys.path）、日志无法写入、后续无法复现

这些不是“小问题”，而是可复现、可传播、可导致线上事故的确定性风险。下面给出真正落地的解决方案。

3. 推荐目录结构：清晰、隔离、可扩展

3.1 标准四层结构（已在4090D单卡镜像中验证）

我们不追求复杂，只建立四个明确职责的目录，全部位于/root/workspace下（确保可写、可持久、可备份）：

/root/workspace ├── 01_input/ # 仅存放原始输入数据（txt/csv/json） │ ├── addresses_batch1.txt │ └── addresses_batch2.csv ├── 02_output/ # 自动写入推理结果（脚本需配置此路径） │ ├── similarity_scores_20240520.json │ └── matched_pairs_20240520.csv ├── 03_scripts/ # 存放所有自定义脚本（含修改版推理.py） │ ├── 推理.py # ← 从 /root 复制后在此编辑 │ ├── batch_inference.py # 批量处理封装 │ └── eval_utils.py # 评估函数（如计算F1、可视化混淆矩阵） └── 04_logs/ # 日志统一落盘（需脚本显式指定） └── inference_20240520.log

为什么这样设计？

数字前缀强制排序：01_02_… 确保在Jupyter或ls中按逻辑顺序排列，避免“data”“input”“raw”混用；
职责绝对隔离：输入不碰输出，脚本不污染数据，日志独立归档，任何环节出错都可快速定位影响范围；
全路径可预测：所有路径都是绝对路径，无需反复cd，脚本中硬编码也安全（如open("/root/workspace/01_input/...")）；
天然支持版本管理：02_output/下按日期命名，历史结果自动归档，无需手动清理。

3.2 必须执行的初始化命令（一次配置，长期受益）

首次进入容器后，请严格按顺序执行以下三步（复制即用）：

# 步骤1：创建标准目录结构（一行搞定） mkdir -p /root/workspace/{01_input,02_output,03_scripts,04_logs} # 步骤2：安全复制推理脚本（保留原版，新脚本在03_scripts下编辑） cp /root/推理.py /root/workspace/03_scripts/ # 步骤3：赋予03_scripts目录执行权限（关键！否则Jupyter里无法保存修改） chmod -R u+rw /root/workspace/03_scripts

重要提醒：不要对/root/workspace整体chmod 777。只需确保03_scripts可读写，01_input和02_output可读写即可。其他目录保持默认权限更安全。

4. 权限设置实操指南：最小必要原则

4.1 用户、组与权限的底层逻辑（一句话说清）

容器内只有一个用户：root（UID=0）。所以权限控制的本质不是“用户间隔离”，而是防止脚本意外写错位置。我们采用“目录级白名单”策略：

目录	推荐权限	为什么这样设
`/root/workspace/01_input`	`u+rw,go+r`（即`644`）	允许你放数据，禁止他人写，防止恶意覆盖
`/root/workspace/02_output`	`u+rw,go+rx`（即`655`）	允许脚本写入，允许你`cat`查看，禁止他人修改结果
`/root/workspace/03_scripts`	`u+rw,go+r`（即`644`）	你可编辑脚本，他人可读（方便协作审查），但不可执行（执行权由Python进程控制）
`/root/workspace/04_logs`	`u+rw,go+rx`（即`655`）	日志可追加写，可`tail -f`，但不可删除（防误删）

执行命令（直接复制）：

chmod 644 /root/workspace/01_input chmod 655 /root/workspace/02_output chmod 644 /root/workspace/03_scripts chmod 655 /root/workspace/04_logs

4.2 修改推理.py：让输出自动落到规范路径

原始/root/推理.py默认将结果打印到控制台。我们只需两处修改，让它完全适配上述目录结构：

# --- 修改前（约第35行附近）--- # print("相似度结果：", scores) # --- 修改后（添加以下代码）--- import os import json from datetime import datetime # 强制指定输出路径（符合规范） output_dir = "/root/workspace/02_output" os.makedirs(output_dir, exist_ok=True) # 确保目录存在 # 生成带时间戳的文件名 timestamp = datetime.now().strftime("%Y%m%d_%H%M%S") output_file = os.path.join(output_dir, f"similarity_scores_{timestamp}.json") # 写入结构化结果 with open(output_file, "w", encoding="utf-8") as f: json.dump({ "timestamp": timestamp, "input_count": len(addresses), "results": [{"addr1": a1, "addr2": a2, "score": float(s)} for a1, a2, s in zip(addr1_list, addr2_list, scores)] }, f, ensure_ascii=False, indent=2) print(f" 结果已保存至：{output_file}")

效果：每次运行，都会在02_output/下生成一个带时间戳的JSON文件，内容结构清晰，可直接被下游系统读取，无需人工整理。

5. Jupyter与终端双环境协同工作法

5.1 终端里正确运行的完整流程

很多用户卡在“终端里跑不通”。根本原因是没切换环境 + 没切对路径。正确姿势如下：

# 1. 激活环境（必须！） conda activate py37testmaas # 2. 切换到工作区（必须！） cd /root/workspace # 3. 运行修改后的脚本（路径要对） python 03_scripts/推理.py # 4. 查看结果（路径可预测） ls 02_output/ cat 02_output/similarity_scores_20240520_*.json | head -n 20

关键点：

conda activate必须在cd之后执行（某些conda版本对PWD敏感）；
脚本路径用相对路径03_scripts/推理.py，而非绝对路径（更易迁移）；
所有路径都基于/root/workspace，零歧义。

5.2 Jupyter中高效开发的三个技巧

启动时自动加载工作区：
在Jupyter首页右上角 → “New” → “Terminal”，然后执行：
```
cd /root/workspace && conda activate py37testmaas
```
此后新建的Notebook默认继承该环境和路径。

一键刷新数据预览：
在Notebook中插入代码块，快速检查输入数据：

# 查看最新一批地址数据 with open("/root/workspace/01_input/addresses_batch1.txt", "r", encoding="utf-8") as f: lines = f.readlines()[:5] for i, line in enumerate(lines): print(f"{i+1}. {line.strip()}")

结果可视化嵌入Notebook：
直接读取刚生成的JSON，画相似度分布直方图：

import json import matplotlib.pyplot as plt # 自动找最新结果文件（不用记时间戳） import glob latest_json = sorted(glob.glob("/root/workspace/02_output/similarity_scores_*.json"))[-1] with open(latest_json, "r", encoding="utf-8") as f: data = json.load(f) scores = [item["score"] for item in data["results"]] plt.hist(scores, bins=20, alpha=0.7, color='steelblue') plt.title(f"地址相似度分布（共{len(scores)}对）") plt.xlabel("相似度分数") plt.ylabel("频次") plt.show()