LeWorldModel：单GPU训练的世界模型，让AI理解物理规律-洪萨配资

🚀 30+款热门AI模型一站整合，DeepSeek/GLM/Claude 随心用，限时 5 折。 👉 点击领海量免费额度

这次我们来看一个名为 LeWorldModel（简称 LeWM）的开源项目。它由 Yann LeCun 团队的核心成员主导，是一个基于 JEPA 架构的“世界模型”。简单来说，这个模型的目标是让 AI 学会理解物理世界的动态规律：给它看一张当前环境的画面，再告诉它一个动作，它就能预测出执行这个动作后，下一帧画面会变成什么样。

听起来很抽象？但它的应用场景非常直接：机器人规划、智能体控制、自动驾驶模拟等需要 AI 在复杂环境中做决策的任务。过去，这类模型要么需要海量数据和算力预训练，要么训练过程极其不稳定。LeWM 的核心突破在于，它用一套极简的架构和训练方法，实现了单 GPU 就能稳定训练和高效推理，并且在推箱子、机械臂操作等经典控制任务上，性能比肩甚至超越了需要大模型支撑的对手。

对于开发者、研究者以及对 AI 具身智能感兴趣的爱好者来说，LeWM 最大的吸引力在于其“平民化”的硬件门槛和清晰的代码实现。它没有动辄千亿的参数，整个模型只有 1500 万参数，论文中所有实验均在单张 NVIDIA L40S 显卡上完成，训练只需几小时。这意味着在消费级显卡（如 RTX 4090/4080）甚至云端单卡实例上，你都有机会复现或基于此进行二次开发。

本文将带你快速了解 LeWorldModel 的核心能力、技术原理，并重点拆解其开源代码的部署与验证流程。我们会关注几个实际的问题：环境如何搭建？如何用代码加载模型并进行简单的“预测未来”测试？在本地运行时，显存和计算资源占用情况如何？通过实操，你可以直观感受这个“世界模型”是如何理解并预测推箱子、移动红点这类简单物理交互的。

1. 核心能力速览

在深入细节之前，我们先通过一个表格快速把握 LeWorldModel 的关键信息，这有助于你判断它是否是你的菜。

能力项	具体说明
项目类型	基于 JEPA 架构的世界模型（World Model），用于视频预测与智能体规划
核心功能	输入当前帧图像和动作，预测下一帧图像的特征表示；支持基于预测的轨迹规划
开源团队	核心作者包括 Lucas Maes (Mila)、Quentin Le Lidec (NYU, 与 Yann LeCun 合作)、Damien Scieur (三星)、Randall Balestriero (布朗大学)
模型规模	约 1500 万参数，属于轻量级模型
硬件门槛	单 GPU 即可。论文实验使用 NVIDIA L40S，理论上 RTX 3090/4090 或类似算力的消费级显卡均可运行训练与推理。
显存占用	未在材料中明确给出具体数值。鉴于模型参数量小，且处理的是经过编码的 latent 特征（非原始像素），推理期显存占用应显著低于常见视觉大模型。实际占用需以具体任务和 batch size 为准。
训练数据	需要特定任务（如 Push-T, Reacher）的环境交互数据（图像-动作对）
代码框架	PyTorch
开源地址	GitHub:`https://github.com/lucas-maes/le-wm`
核心优势	1.训练稳定简单：仅需两个损失函数，超参数少，避免了传统 JEPA 训练的复杂技巧。 2.推理速度快：规划速度比对比方案（DINO-WM）快48 倍（1秒 vs 47秒）。 3.物理理解强：在 latent 空间中隐式学习了位置、角度等物理信息，能识别物理违规事件。
适合场景	机器人控制算法研究、强化学习环境模型、具身智能仿真、AI 物理推理基础模型开发

2. 适用场景与使用边界

LeWorldModel 不是一个开箱即用的应用级产品（比如文生图工具），而是一个供研究和开发使用的基础模型框架。理解它的适用边界，能帮你更好地决定是否投入时间。

它非常适合：

AI 与机器人领域的研究者/学生：希望探索世界模型、JEPA 架构、视频预测、模型基座控制等前沿方向。LeWM 代码简洁，是极佳的学习和实验基线。
强化学习/智能体开发者：需要为智能体构建一个快速、轻量的“环境模型”（Dynamics Model），用于想象（imagination）或规划（planning）。LeWM 的高效预测能力可以加速训练或改进策略。
对“AI 理解物理”感兴趣的工程师：想验证 AI 如何从像素中学习物理规律，并尝试将其应用于简单的模拟环境（如游戏、物理引擎）中。

它可能不适合：

寻求即插即用工具的普通用户：如果你期待下载后直接输入文字或图片就能得到炫酷结果，LeWM 不符合你的需求。它需要你具备一定的深度学习、PyTorch 和环境配置知识。
复杂的真实世界视觉任务：当前开源版本主要针对特定仿真环境（如 MuJoCo, 自定义 2D/3D 任务）进行训练和测试。直接将其用于真实世界的 RGB 视频预测，需要大量的适配工作和数据。
商业产品直接集成：作为一个前沿研究项目，其稳定性、泛化能力和生产环境下的性能尚未经过大规模验证。更适合用于原型验证和前期研究。

合规与伦理边界：

数据合规：如果你使用 LeWM 训练自己的模型，必须确保所使用的图像、视频数据拥有合法授权，不侵犯个人隐私与肖像权。
应用导向：将此类预测模型用于机器人、自动驾驶等安全关键领域时，必须进行充分的仿真测试与安全验证，防止因预测错误导致现实世界的事故。
研究诚信：使用其代码或思想进行后续研究时，应遵循学术规范，正确引用原论文与开源项目。

3. 环境准备与前置条件

要运行或实验 LeWorldModel，你需要准备以下软硬件环境。以下清单基于其开源代码库的常规要求进行推断，具体请以官方README.md和requirements.txt为准。

操作系统：推荐 Linux (Ubuntu 20.04/22.04) 或 macOS。Windows 可通过 WSL2 运行，但可能涉及额外的配置。
Python 环境：建议使用 Python 3.8 或 3.9。使用conda或venv创建独立的虚拟环境是最佳实践。
```
# 使用 conda 创建环境的示例 conda create -n lewm python=3.9 conda activate lewm
```

深度学习框架：项目基于 PyTorch。你需要安装与你的 CUDA 版本匹配的 PyTorch。

# 例如，安装 CUDA 11.8 对应的 PyTorch 2.0+ pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

CUDA 与显卡驱动：如需 GPU 加速，需安装 NVIDIA 显卡驱动和对应的 CUDA Toolkit。建议 CUDA 版本 >= 11.7。
其他依赖：项目可能依赖numpy,matplotlib,gym,mujoco(用于某些测试环境)，imageio等库。通常可以通过pip install -r requirements.txt一键安装。
硬件检查：
- GPU：确保显卡驱动正常，可通过nvidia-smi命令查看。
- 显存：准备至少 8GB 显存以备训练和推理（保守估计，实际可能更低）。
- 内存：建议 16GB 以上系统内存。
- 磁盘：预留 5-10GB 空间用于存放代码、数据和模型。

4. 安装部署与启动方式

LeWorldModel 是一个研究代码库，其“启动”指的是克隆代码、安装依赖、并运行训练或评估脚本。我们假设你已经准备好了上述环境。

步骤 1：克隆代码库

git clone https://github.com/lucas-maes/le-wm.git cd le-wm

步骤 2：安装 Python 依赖查看项目根目录下是否有requirements.txt或pyproject.toml文件。

# 如果存在 requirements.txt pip install -r requirements.txt # 也可能通过 setup.py 安装 pip install -e .

如果官方没有提供明确的依赖文件，你可能需要根据代码中的import语句手动安装缺失的包。

步骤 3：准备数据或预训练模型

对于训练：你需要准备特定任务的数据集。论文中提到了Push-T,Reacher,OGBench-Cube,Two-Room等任务。这些数据可能来自仿真环境（如 Gym、MuJoCo）。代码库中可能会提供数据加载脚本或指引。
对于推理/评估：你可能需要下载作者提供的预训练模型检查点（checkpoint）。请关注项目 GitHub 的README或Releases页面，看是否有提供。

步骤 4：理解项目结构通常，这类项目会包含以下几个关键目录/文件：

src/或le_wm/：核心模型定义（编码器、预测器）的源代码。
configs/：训练和模型参数的配置文件（YAML 或 JSON 格式）。
scripts/或train.py,eval.py：训练和评估的入口脚本。
requirements.txt：依赖列表。

步骤 5：运行训练脚本（示例）假设项目提供了train.py，你可能需要通过配置文件来启动训练。

# 假设使用 config/push_t.yaml 配置训练 Push-T 任务 python train.py --config configs/push_t.yaml

训练脚本会开始数据加载、模型初始化、损失计算和反向传播。你可以在终端看到损失下降的日志，或使用 TensorBoard 等工具可视化训练过程。

步骤 6：运行评估与可视化脚本（示例）训练完成后，或使用预训练模型，你可以运行评估脚本查看模型效果。

# 评估模型在测试集上的预测性能 python eval.py --checkpoint path/to/checkpoint.pt --task push_t # 可能存在的可视化脚本，用于生成预测视频 python visualize.py --checkpoint path/to/checkpoint.pt --episode_id 0

评估脚本通常会输出一些定量指标（如 MSE，成功率），而可视化脚本会生成.gif或.mp4文件，直观对比真实视频序列和模型预测的视频序列。

5. 功能测试与效果验证

由于 LeWM 是一个模型框架，其功能测试围绕“预测准确性”和“规划有效性”展开。我们无法像测试一个 WebUI 应用那样点击按钮，但可以通过运行其评估代码来验证核心能力。以下测试流程基于对项目代码的合理推测。

5.1 测试一：加载预训练模型与简单前向传播

目的：验证环境配置正确，模型能成功加载并执行一次前向计算。

# test_load_model.py import torch from le_wm import LeWorldModel # 假设模型类在此导入 from configs import get_config # 假设配置加载函数 # 1. 加载配置 cfg = get_config(‘push_t‘) # 2. 初始化模型 model = LeWorldModel(cfg) model.eval() # 切换到评估模式 # 3. 加载预训练权重 (如果存在) checkpoint = torch.load(‘pretrained/push_t_best.pt‘, map_location=‘cpu‘) model.load_state_dict(checkpoint[‘model_state_dict‘]) # 4. 创建随机输入 (模拟一个 batch) batch_size = 2 # 假设输入：当前帧图像 [B, C, H, W]， 动作 [B, action_dim] dummy_image = torch.randn(batch_size, 3, 64, 64) # 假设图像尺寸 64x64 dummy_action = torch.randn(batch_size, 2) # 假设动作维度为 2 # 5. 前向传播：预测下一帧的 latent 特征 with torch.no_grad(): predicted_latent = model(dummy_image, dummy_action) print(f“预测的 latent 特征形状: {predicted_latent.shape}“) # 预期输出形状可能是 [B, latent_dim]，例如 [2, 512]

成功标准：代码不报错，能成功打印出 latent 特征的形状。这说明模型定义、权重加载和基本计算图是通的。

5.2 测试二：在标准任务上评估性能

目的：使用项目提供的标准评估脚本，定量测试模型在 Push-T（推箱子）等任务上的性能。操作：直接运行官方评估脚本。

python scripts/evaluate_push_t.py --model.path path/to/checkpoint.pt

预期输出：脚本会输出在测试集上的评估结果，例如：

Success Rate: 96.2%
MSE (Mean Squared Error): 0.015
Planning Time (avg): 0.8s判断成功：将得到的成功率、MSE 等指标与论文中报告的数据（Push-T 成功率 96%）进行粗略对比。如果数值在同一量级或相近，说明模型性能正常。

5.3 测试三：可视化预测序列

目的：直观感受模型“预测未来”的能力。操作：运行可视化脚本，指定一个测试 episode（一段交互序列）。

python scripts/visualize.py \ --checkpoint path/to/checkpoint.pt \ --task reacher \ --episode_idx 5 \ --output_video ./prediction_ep5.mp4

预期输出：生成一个视频文件prediction_ep5.mp4。视频可能包含三行：

Ground Truth：真实的连续帧。
Reconstruction：模型编码后再解码的当前帧（测试编码器能力）。
Prediction：模型根据当前帧和动作预测的下一帧。判断成功：观察“Prediction”行。对于机械臂够物（Reacher）任务，预测的机械臂末端位置和姿态应与下一帧的真实情况大致吻合。对于推箱子（Push-T），预测的箱子移动方向应正确。

5.4 测试四：验证物理违规检测（高级）

目的：测试模型 latent 空间是否真的编码了物理信息。操作：这可能需要修改数据加载器，人为制造“违规”数据。例如，在某个时间步，将箱子的位置随机跳变（模拟瞬移），然后观察模型预测的 latent 与正常情况下的 latent 的差异（例如，计算预测误差的突然增大）。

# 伪代码思路 normal_pred_error = mse(model(normal_img, action), normal_next_latent) perturbed_pred_error = mse(model(perturbed_img, action), normal_next_latent) # 注意：这里 next_latent 还是对应正常情况 if perturbed_pred_error >> normal_pred_error: print(“模型检测到了物理违规！”)

判断成功：在物理违规发生时，模型的预测误差（或论文中提到的“惊讶值”）显著高于正常情况。

6. 接口 API 与批量任务

作为研究代码库，LeWorldModel 通常不直接提供 HTTP API 服务。但其核心的预测和规划功能可以很容易地被封装成函数，集成到你的智能体系统或仿真 pipeline 中，并处理批量任务。

6.1 核心函数接口

假设我们已经有一个训练好的model和配套的预处理函数preprocess_image、preprocess_action。

class LeWMInterface: def __init__(self, checkpoint_path, config): self.model = load_model(checkpoint_path, config) self.model.eval() self.device = torch.device(‘cuda‘ if torch.cuda.is_available() else ‘cpu‘) self.model.to(self.device) def predict_next_latent(self, current_image, action): """预测给定图像和动作后的下一时刻 latent 特征""" # 预处理 img_tensor = preprocess_image(current_image).to(self.device) # [1, C, H, W] act_tensor = preprocess_action(action).to(self.device) # [1, action_dim] with torch.no_grad(): next_latent = self.model(img_tensor, act_tensor) return next_latent.cpu().numpy() def plan_trajectory(self, start_image, goal_image, horizon=10): """规划从当前状态到目标状态的动作序列（简化版，实际可能使用CEM等优化器）""" # 这是一个简化示例，真实规划器更复杂 planned_actions = [] current_latent = self.model.encode(start_image) goal_latent = self.model.encode(goal_image) for _ in range(horizon): # 简单策略：计算动作以减少当前 latent 与目标 latent 的差异 # 实际 LeWM 可能提供了基于梯度的规划器 action = self._simple_planner(current_latent, goal_latent) planned_actions.append(action) # 预测执行该动作后的新状态 current_latent = self.model(current_latent, action) return planned_actions

6.2 批量任务处理

在强化学习训练或大规模仿真中，经常需要批量处理。

def batch_predict(model, batch_images, batch_actions): """ 批量预测下一帧 latent。 batch_images: [B, C, H, W] 的 tensor batch_actions: [B, action_dim] 的 tensor 返回: [B, latent_dim] 的 tensor """ with torch.no_grad(): batch_next_latents = model(batch_images, batch_actions) return batch_next_latents # 示例：处理一个数据加载器 for batch_idx, (imgs, acts, next_imgs) in enumerate(data_loader): imgs, acts = imgs.to(device), acts.to(device) pred_latents = batch_predict(model, imgs, acts) # 计算损失或进行其他操作 loss = mse_loss(pred_latents, model.encode(next_imgs))

关键点：确保数据在送入模型前已在同一个设备（GPU/CPU）上，并组织成批量的 Tensor。

6.3 封装为 Web API（可选）

如果你想提供 HTTP 服务，可以使用 FastAPI 快速封装。

from fastapi import FastAPI, File, UploadFile import torch import numpy as np from PIL import Image import io app = FastAPI() model_interface = LeWMInterface(‘path/to/checkpoint.pt‘, config) @app.post(“/predict/“) async def predict(current_image: UploadFile = File(...), action: str): # 解析动作 (例如 JSON 字符串 “{"dx": 0.1, "dy": -0.05}“) action_dict = json.loads(action) # 读取并预处理图像 image_data = await current_image.read() img = Image.open(io.BytesIO(image_data)) img_tensor = preprocess_image(img) # 调用预测函数 next_latent = model_interface.predict_next_latent(img_tensor, action_dict) return {“next_latent“: next_latent.tolist()} # 运行: uvicorn api:app --host 0.0.0.0 --port 8000

这样，其他系统就可以通过 REST API 调用你的世界模型进行预测了。

7. 资源占用与性能观察

运行 LeWorldModel 时，监控资源占用对于调整参数和确保稳定运行至关重要。

1. 显存占用观察在 Python 脚本中，你可以在关键步骤前后使用torch.cuda.memory_allocated()来监控。

import torch print(f“初始显存: {torch.cuda.memory_allocated(0) / 1024**2:.2f} MB“) model = LeWorldModel(config).cuda() dummy_input = torch.randn(4, 3, 64, 64).cuda() # batch_size=4 dummy_action = torch.randn(4, 2).cuda() print(f“加载模型后显存: {torch.cuda.memory_allocated(0) / 1024**2:.2f} MB“) with torch.no_grad(): output = model(dummy_input, dummy_action) print(f“前向传播后显存: {torch.cuda.memory_allocated(0) / 1024**2:.2f} MB“)

影响因素：

Batch Size：这是影响显存的最主要因素。尝试从 1 开始，逐步增加。
图像分辨率：输入图像越大，编码器部分的显存消耗越大。LeWM 论文中可能使用了固定的、较小的分辨率（如 64x64）。
模型参数：1500万参数本身占用的显存不大，但中间激活值（activations）会随着 batch size 和序列长度增长。

2. 推理速度测试使用torch.cuda.Event来精确测量 GPU 推理时间。

start_event = torch.cuda.Event(enable_timing=True) end_event = torch.cuda.Event(enable_timing=True) start_event.record() with torch.no_grad(): for _ in range(100): # 预热 _ = model(dummy_input, dummy_action) torch.cuda.synchronize() end_event.record() torch.cuda.synchronize() elapsed_time_ms = start_event.elapsed_time(end_event) print(f“100次推理平均时间: {elapsed_time_ms / 100:.3f} ms“)

论文中提到规划速度比 DINO-WM 快 48 倍，这得益于其轻量级架构和 latent 空间预测（数据量缩小约200倍）。你可以在本地对比测试，感受其速度优势。

3. CPU 与 GPU 模式如果没有 GPU，也可以在 CPU 上运行，但速度会慢很多。只需在加载模型和 tensors 时不调用.cuda()或.to(device)即可。对于小 batch size 的推理或学习代码，CPU 模式是可行的。

4. 性能优化建议

梯度检查点：如果训练时显存不足，可以考虑使用 PyTorch 的梯度检查点技术。
混合精度训练：使用torch.cuda.amp进行自动混合精度训练，可以节省显存并加速训练。
数据加载：使用DataLoader的num_workers参数进行多进程数据加载，避免 I/O 成为瓶颈。

8. 常见问题与排查方法

在部署和运行 LeWorldModel 过程中，你可能会遇到以下典型问题。这里提供排查思路。

问题现象	可能原因	排查方式	解决方案
`ImportError`或`ModuleNotFoundError`	1. 依赖库未安装。 2. Python 路径问题。 3. 项目未以可编辑模式安装。	1. 检查`pip list`确认缺失的包。 2. 检查`sys.path`。 3. 确认是否在项目根目录运行。	1.`pip install`缺失的包。 2. 在项目根目录运行，或设置`PYTHONPATH`。 3. 运行`pip install -e .`。
CUDA out of memory	1. Batch size 过大。 2. 模型或数据意外留在 GPU 上。 3. 其他进程占用显存。	1. 减小`batch_size`参数。 2. 使用`nvidia-smi`查看显存占用。 3. 检查是否有其他 Python/Jupyter 进程。	1. 在配置文件中降低`batch_size`。 2. 在代码中手动释放不用的变量：`del var; torch.cuda.empty_cache()`。 3. 重启 kernel 或终止无关进程。
训练损失不下降或为 NaN	1. 学习率过高。 2. 数据未归一化。 3. 损失函数权重 λ 设置不当。 4. 梯度爆炸。	1. 检查训练日志开头几轮。 2. 检查输入数据范围（是否在 [0,1] 或 [-1,1]）。 3. 检查`SIGReg`损失项的权重 λ。	1. 大幅降低学习率（如从 1e-3 降到 1e-4）。 2. 对图像数据进行标准化。 3. 调整 λ，论文中可能给出了参考值。 4. 使用梯度裁剪 (`torch.nn.utils.clip_grad_norm_`)。
评估脚本找不到预训练模型	1. 模型路径错误。 2. 模型文件未下载或损坏。	1. 检查`--checkpoint`参数路径。 2. 检查文件大小是否合理。	1. 使用绝对路径或正确的相对路径。 2. 从项目官方链接重新下载模型文件。
可视化视频全是黑色或乱码	1. 图像张量值域未转换到 [0, 255]。 2. 解码器未正确加载或训练。 3. 视频编码器不支持。	1. 检查生成图像的张量值范围（应是 [0,1] 或 [0,255]）。 2. 确认可视化脚本是否调用了正确的解码器。	1. 将模型输出的 latent 通过解码器后，用`img = (img * 255).astype(np.uint8)`转换。 2. 确保用于可视化的解码器与训练时使用的编码器匹配。
规划结果完全错误	1. 动作空间与模型训练时不一致。 2. 规划器（如 CEM）超参数设置不当。 3. 模型在目标任务上未充分训练。	1. 对比训练配置中的`action_dim`和实际输入的动作维度。 2. 检查规划器的迭代次数、种群大小等参数。 3. 在训练集上测试模型的基础预测能力。	1. 确保输入动作的维度和归一化方式与训练数据一致。 2. 参考论文或代码库默认参数调整规划器。 3. 增加训练轮数或检查数据质量。

9. 最佳实践与使用建议

为了更高效、更稳定地利用 LeWorldModel 进行研究和开发，遵循以下实践建议会事半功倍。

从复现开始：第一次接触时，不要急于修改模型结构或训练任务。首先严格按照项目README的步骤，在官方提供的标准任务（如 Push-T）上，复现训练和评估流程。成功复现是后续所有工作的基石。
版本控制与环境隔离：使用conda或pipenv严格管理依赖版本，并记录在environment.yaml或Pipfile中。这能保证你自己和合作者环境的一致性。
数据预处理标准化：LeWM 的输入是图像和动作。确保你的数据预处理管道（缩放、裁剪、归一化）与模型训练时完全一致。一个常见的错误是归一化方式（(x/255)-0.5与x/127.5 - 1）不匹配导致性能大幅下降。
理解 latent 空间：LeWM 的强大在于其 latent 特征。花时间分析这些特征：尝试用 PCA/t-SNE 可视化不同状态下的 latent，或者训练一个简单的 probe（如线性回归）从 latent 预测物体位置。这能帮你直观理解模型学到了什么。
从小规模实验开始：在尝试新的任务或环境时，先用极小的数据集（如 100 个样本）、极短的训练时间（如 1-2 个 epoch）跑通整个 pipeline。这能快速验证代码和数据加载的正确性，避免在错误的方向上浪费大量计算资源。
系统化记录实验：使用wandb(Weights & Biases) 或TensorBoard记录每一次实验的超参数、损失曲线、评估指标和可视化结果。这对于分析模型行为、比较不同设置的效果至关重要。
安全与合规地使用：如果你的研究涉及模拟真实机器人或自动驾驶，记住仿真是第一步。在将基于 LeWM 的规划器部署到真实硬件前，必须进行成千上万次的仿真安全测试，并建立可靠的安全边界和人工接管机制。

10. 总结与下一步

LeWorldModel (LeWM) 的价值在于它用一个极其简洁优雅的架构，证明了构建高效、可理解的世界模型是可行的，并且门槛可以很低——单张 GPU 就够了。它剥离了传统 JEPA 方法的复杂技巧，回归预测与正则化的本质，不仅在标准测试任务上表现优异，其 latent 空间蕴含物理信息的特性也为可解释 AI 提供了新思路。

对于想要上手实践的读者，我建议的下一步是：

克隆仓库，跑通示例：立刻去 GitHub 克隆项目，按照本文第 4、5 节的步骤，争取在 Push-T 或 Reacher 任务上跑通评估脚本，看到可视化结果。这是建立信心的第一步。
深入代码，理解架构：重点阅读src/目录下的模型定义文件，搞懂Encoder、Predictor以及SIGReg损失是如何实现的。代码的简洁性是其最大的优点之一。
尝试迁移到简单新环境：在完全吃透原有任务后，可以尝试将其应用到一个你自己定义的、更简单的 2D 网格世界环境（比如一个点移动到目标点）。自己生成数据，从头训练一个小型 LeWM，观察它能否学会这个简单世界的动力学。
关注后续发展：世界模型是 Yann LeCun 倡导的 AI 发展核心路径之一。LeWM 作为一个重要的开源实现，很可能会持续更新。关注其 GitHub 仓库的 Issues、Discussions 和 Releases，了解社区的最新进展和最佳实践。

这个项目或许只是从“推箱子”和“移红点”开始，但它所代表的“让 AI 通过观察学习世界运行规律”的方向，正是迈向更通用、更智能的自主系统的关键一步。现在，门槛已经降低到你我的显卡可以触及的范围，剩下的就是动手去实验和探索了。