news 2026/4/25 11:09:01

ARIS:基于跨模型协作与Markdown技能的AI自动化研究副驾驶

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ARIS:基于跨模型协作与Markdown技能的AI自动化研究副驾驶

1. 项目概述:ARIS,一个让AI在你睡觉时做研究的“副驾驶”

如果你是一名机器学习或深度学习领域的研究者,或者是一名需要频繁产出技术文档、进行代码审查的工程师,那么你一定对“时间不够用”和“灵感枯竭”这两个问题深有体会。阅读海量文献、构思创新点、设计实验、编写代码、撰写论文、应对审稿意见……每一个环节都耗时耗力,更别提那些需要反复迭代的“脏活累活”了。ARIS(Auto-Research-In-Sleep)这个项目,就是为了解决这些痛点而生的。它的核心愿景非常直接:在你睡觉的时候,让AI帮你完成研究流程中那些可以自动化、但极其繁琐的环节,让你醒来时,发现工作已经有了实质性的进展。

ARIS不是一个臃肿的平台或框架,它本质上是一套基于纯Markdown文件定义的技能(Skills)集合。这些技能可以被Claude Code、Cursor、Trae等AI编程助手调用,也可以作为一个独立的命令行工具(ARIS-Code CLI)运行。它的设计哲学是“轻量级”和“无锁定”。没有复杂的依赖,没有需要维护的数据库,没有必须配置的Docker容器。每一个技能都是一个独立的SKILL.md文件,任何大语言模型(LLM)都能读懂。这意味着你可以轻松地将其适配到你的工作流中,无论是使用Claude Code、OpenAI的Codex,还是其他任何你偏好的AI代理。

ARIS最核心的创新在于其跨模型协作的工作流。它并不依赖单一模型进行“自我博弈”,因为那容易陷入思维定式。相反,它让一个模型(如Claude Code)负责快速执行和生成,而让另一个模型(如GPT-5.4)扮演一个严谨、挑剔的“审稿人”角色。这种“执行者×审稿人”的对抗性模式,被证明能更有效地发现盲点、提升产出质量。项目已经成功帮助社区成员从初步想法开始,自动化完成了包括文献调研、实验设计、代码实现、论文撰写乃至审稿回复在内的完整研究流程,并产出了被顶级会议接受的论文。

2. 核心设计理念与架构拆解

2.1 为什么是“技能”而非“平台”?

在AI工具层出不穷的今天,很多项目倾向于构建一个封闭的、一体化的平台。ARIS反其道而行之,选择了一条更灵活、更持久的道路。将核心功能拆解为一个个独立的“技能”,带来了几个关键优势:

首先是极致的可移植性和抗风险能力。平台可能会过时、服务可能会关闭、API可能会变更。但Markdown文件是永恒的。即使未来Claude Code不再流行,你依然可以轻松地将这些技能描述迁移到下一个主流的AI编程工具上。项目文档中已经提供了适配OpenClaw、Cursor、Trae、Antigravity等不同环境的指南,这本身就证明了其架构的灵活性。

其次是降低了使用和定制的门槛。你不需要学习一套新的框架或DSL。要理解一个技能做了什么,直接阅读它的SKILL.md文件即可,里面用自然语言清晰地描述了输入、输出、工作流程和注意事项。如果你想修改或创建一个新技能,也只需要编辑或新建一个Markdown文件。这种“所见即所得”的透明性,极大地鼓励了社区贡献和个性化定制。

最后是实现了真正的“无状态”和“可组合性”。每个技能在运行时产生的中间文件(如想法列表、实验计划、审稿意见)也都是Markdown或纯文本格式。这使得整个流程的每一步都是可中断、可检查、可手动干预的。你可以像搭积木一样,将不同的技能组合成自定义的流水线,而不是被限定在预设的几条路径上。

2.2 跨模型审阅:对抗性优化的精髓

许多AI辅助工具只使用单一模型,让同一个模型既生成内容又评价内容。ARIS的创始人敏锐地指出了这种“自我博弈”的局限性:它很容易陷入“局部最优解”,因为模型会倾向于认可自己熟悉的模式和风格,而忽略根本性的缺陷。

一个来自实战的教训:在早期测试中,我们尝试让Claude Code自己审阅自己生成的论文初稿。结果发现,它往往会对一些模糊的表述、缺乏支持的论断“网开一面”,给出的修改建议也流于表面,比如调整措辞、重组段落。但当引入GPT-5.4作为外部审稿人后,情况截然不同。GPT-5.4会尖锐地指出:“你在第三节声称方法A比B效率高30%,但实验部分完全没有对比B的基准数据。这是无效主张。” 这种来自不同模型“视角”的挑战,迫使生成模型必须用更扎实的证据和更清晰的逻辑来捍卫自己的观点,从而显著提升了最终产出的严谨性。

ARIS将这种设计类比为“对抗性多臂老虎机”问题。单一模型的自我审阅像是“随机性”噪声,而跨模型审阅则是“对抗性”的,审稿人会主动寻找执行者未曾预料到的弱点。理论和实践都表明,对抗性设置能产生更鲁棒、更难以被“糊弄”的结果。

那么,为什么是两个模型,而不是三个或更多?这涉及到效率与收益的权衡。两个模型是打破自我博弈盲区的最小配置,其交互(类似于二人博弈)收敛到纳什均衡的效率远高于多人博弈。增加更多审稿人固然可能带来更多视角,但也会指数级增加API调用成本、协调开销和决策复杂度,而边际收益却急剧下降。ARIS选择的“Claude Code(快速执行)+ GPT-5.4(严谨审阅)”组合,恰好平衡了速度与深度。

2.3 四大核心工作流:覆盖研究全生命周期

ARIS并非一堆零散技能的简单堆砌,它通过精心设计的管道(Pipeline),将技能串联成覆盖研究关键阶段的核心工作流。理解这些工作流,你就掌握了ARIS的用法精髓。

工作流1:想法发现与验证 (/idea-discovery)这是研究的起点。你只需要输入一个大致的研究方向(例如:“离散扩散语言模型中的因子化间隙”),ARIS便会启动一个自动化流程:

  1. 文献调研:它会从你配置的多个源(Zotero库、Obsidian笔记、本地PDF文件夹、arXiv、Semantic Scholar)搜索相关论文。
  2. 想法生成:基于文献综述,它会头脑风暴出8-12个具体的研究想法。
  3. 新颖性核查:每个想法都会经过跨模型(Claude + 审稿模型)的核查,判断其是否真正新颖,避免重复造轮子。
  4. 试点实验:为排名靠前的想法自动编写并运行小规模的GPU试点实验,用初步数据验证想法的可行性。
  5. 生成报告:最终输出一份包含所有想法、新颖性评估和试点实验结果的排名报告 (IDEA_CANDIDATES.md),供你决策。

工作流1.5:实验桥接与执行 (/experiment-bridge)当你从工作流1中选定了一个想法,或者自己已经有了一个成熟的实验计划时,这个工作流负责将“计划”变为“结果”。它会:

  1. 代码生成与审阅:根据实验计划,生成完整的、可执行的训练/评估脚本。生成后,会先交由GPT-5.4进行代码审阅,查找潜在bug、性能问题或逻辑错误。
  2. 实验部署:将审阅通过的代码同步到你配置的GPU服务器(本地、远程SSH或Vast.ai云GPU),并在后台(如screentmux会话中)启动实验。
  3. 结果监控与收集:实验运行时,ARIS会定期检查日志,监控关键指标(如损失、准确率)。实验完成后,自动收集结果文件、日志和可视化图表(如果配置了W&B)。
  4. 生成实验日志:将所有细节,包括代码、参数、输出、曲线图,整理成一份结构化的EXPERIMENT_LOG.md

工作流2:自动化审阅循环 (/auto-review-loop)这是ARIS的“炼金炉”。你给它一个论文草稿或研究范围,它就会模拟顶级会议的审稿流程,进行多轮“审稿-修改-再审稿”:

  1. 初始化审稿:GPT-5.4扮演审稿人,对稿件进行深度评审,给出分数(1-10分)和详细的修改意见,包括需要补充的实验。
  2. 自动修改与实验:Claude Code根据审稿意见修改论文。如果审稿人要求新的实验证据,它会自动触发/experiment-bridge来设计并运行这些实验。
  3. 迭代提升:这个过程会循环进行(默认4轮)。每一轮,论文都会根据新的审稿意见被改进,并可能伴随新的实验。项目展示了一个真实案例:一篇初始评分仅5.0(边缘拒稿)的论文,经过一夜的自动化循环和20多个GPU实验后,评分提升到了7.5(可接受状态)。
  4. 可配置的“人性化”检查点:你可以设置human checkpoint: true,在每一轮审阅后暂停,让你亲自阅读评分和意见,甚至给出自定义的修改指令,实现人机协同。

工作流3:论文撰写与成稿 (/paper-writing)当你有了成熟的研究成果(叙事报告、实验数据)后,这个工作流负责将其转化为格式规范的学术论文。

  1. 从叙事到结构:它接受一个NARRATIVE_REPORT.md(描述你做了什么、发现了什么),并将其转化为结构化的论文大纲。
  2. 图表与公式:可以根据描述自动生成示意图(通过Gemini API或Mermaid)、绘制结果图表、甚至协助进行公式推导。
  3. LaTeX生成与编译:根据目标会议(ICLR, NeurIPS, CVPR等)的模板,生成完整的LaTeX源文件,并自动编译生成PDF。
  4. 抗幻觉引用:一个关键特性是,它通过集成DBLP/CrossRef服务来获取真实的BibTeX引用条目,彻底杜绝了LLM常见的那种“虚构参考文献”的问题。
  5. 自动润色:生成的初稿会经过2轮自动改进审阅,进一步提升语言质量和逻辑连贯性。

工作流4:审稿回复撰写 (/rebuttal)这是针对论文被审阅后的阶段。当收到审稿意见时,你可以将论文和审稿意见文件交给ARIS。

  1. 解析与原子化:它会逐条解析审稿人的所有意见,并将其分解为原子化的、可操作的要点。
  2. 制定回复策略:为每一条意见规划回复策略(接受并修改、反驳并提供证据、澄清误解等)。
  3. 起草回复:在严格的字符限制内,起草结构清晰、有理有据的回复草稿。
  4. 安全门检查:确保回复中没有捏造(所有声称必须对应论文或已确认的结果)、没有过度承诺(所有承诺需经用户确认)、覆盖了所有关切点
  5. 压力测试:让GPT-5.4以“噩梦”难度对回复草稿进行攻击性审阅,模拟最苛刻的审稿人,确保回复足够坚固。
  6. 生成终稿:输出两个版本:PASTE_READY.txt(严格符合字数限制,可直接粘贴到投稿系统)和REBUTTAL_DRAFT_rich.md(包含更多细节的扩展版,供你进一步编辑)。

2.4 可选高级功能:让ARIS拥有记忆并自我进化

除了上述核心工作流,ARIS还引入了两个革命性的可选功能,使其从一个工具向一个“研究伙伴”演进。

研究维基 (/research-wiki)灵感来源于Karpathy的LLM维基,这是一个持久化的研究知识库。初始化后,它会在你的项目目录下创建一个research-wiki/文件夹。此后,ARIS的所有相关活动都会与这个维基互动:

  • /research-lit在调研文献时,会将论文信息存入维基。
  • /idea-creator在构思新想法前,会先读取维基,了解已有工作和失败尝试,避免重复,并将新想法写回维基。
  • /result-to-claim会将实验结果与维基中的研究主张(Claim)关联,更新其状态(证实/证伪)。核心价值:失败的实验和想法不会被遗忘,而是成为“反重复记忆”。ARIS在后续的研究中会主动避开这些已知的无效路径,从而随着使用次数的增加变得越来越“聪明”。

元优化 (/meta-optimize)这是一个让ARIS优化自身技能的设计。通过在Claude Code中启用钩子(hooks),ARIS会被动地记录所有技能调用、工具调用、失败和参数覆盖的使用数据。运行/meta-optimize命令后,它会分析这些积累的日志,并提出数据驱动的技能改进建议(例如:“用户经常在/experiment-bridge后手动修改batch_size参数,建议将该参数设为可配置选项”)。这些改进建议会经过审稿模型(GPT-5.4)的评估和你的最终批准,然后被应用到技能文件中。这意味着ARIS可以根据你的使用习惯,不断优化自己的工作方式。

3. 从零开始:详细配置与实操指南

3.1 基础环境搭建与技能安装

ARIS的核心是那些SKILL.md文件,因此安装过程本质上是将这些文件放到AI助手能识别的位置。

步骤1:克隆仓库与安装技能

# 克隆ARIS仓库到本地 git clone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep.git cd Auto-claude-code-research-in-sleep # 为Claude Code创建技能目录(如果不存在) mkdir -p ~/.claude/skills/ # 复制所有技能到Claude Code的技能目录 cp -r skills/* ~/.claude/skills/

注意:不同AI助手的技能目录可能不同。对于Cursor,路径可能是~/.cursor/skills/;对于Trae,则需要参考其项目中的适配指南。请务必查阅对应文档。

步骤2:配置审稿模型(以Codex MCP为例)ARIS默认依赖一个外部的“审稿人”模型,通常通过OpenAI的Codex MCP服务器来调用GPT系列模型。

# 全局安装Codex CLI npm install -g @openai/codex # 运行设置向导,按照提示登录并选择模型(强烈推荐选择 gpt-5.4) codex setup # 将Codex MCP服务器添加到Claude Code的MCP服务器列表中 claude mcp add codex -s user -- codex mcp-server

执行完codex setup后,请检查~/.codex/config.toml文件,确认其中model = "gpt-5.4"。这个配置决定了审稿模型的能力。

步骤3:验证安装启动Claude Code (claude),在对话中输入/,你应该能看到一长串以/开头的ARIS技能列表,例如/idea-discovery/research-pipeline等。如果能看到,说明技能安装成功。

3.2 核心配置文件详解:CLAUDE.md

CLAUDE.md是ARIS项目的“大脑”,它定义了项目的元数据、GPU配置、API密钥等关键信息。你需要在你每个使用ARIS的研究项目根目录下创建这个文件。一个完整的CLAUDE.md示例如下:

# Project: Your Paper Title **Research Goal:** Briefly describe what you're trying to achieve. ## Configuration ### API Keys (Optional, for specific features) # GEMINI_API_KEY: "your_gemini_key_here" # 用于 paper-illustration 技能 # WANDB_API_KEY: "your_wandb_key_here" # 用于实验监控和可视化 ### GPU Setup # 选择一种GPU配置方式: # 1. 本地GPU (默认) gpu: local # local_gpu_id: 0 # 指定本地GPU ID,默认为0 # 2. 远程SSH服务器 # gpu: remote # remote_user: "your_username" # remote_host: "your.server.ip" # remote_port: 22 # remote_gpu_id: 0 # remote_project_path: "/path/to/your/project/on/server" # 必须与本地路径结构一致 # 3. Vast.ai 云GPU租赁 (无需自有GPU) # gpu: vast # vast_api_key: "your_vast_ai_api_key" # 更多vast配置详见 skills/vast-gpu/SKILL.md # 4. Modal 无服务器GPU # gpu: modal # 需要先运行 `pip install modal` 和 `modal setup` 进行配置 ### Experiment Monitoring # wandb: true # 启用Weights & Biases日志 # wandb_project: "your-project-name" # W&B项目名 # wandb_entity: "your-username" # W&B团队或个人用户名 ### Model Configuration (Overrides) # 如果你想使用非默认的模型组合,在此处指定 # 例如,使用MiniMax作为执行者,GLM作为审稿人: # executor_model: "minimax" # 对应 skills/skills-minimax/ 中的配置 # reviewer_model: "glm" # 对应 mcp-servers/llm-chat/ 中的配置 ### Research Wiki (Optional) # 启用持久化研究记忆 research_wiki_enabled: true

关键配置解析与避坑指南:

  1. GPU配置:这是自动化实验的核心。

    • local:最简单,但要求你的本地机器有NVIDIA GPU且驱动、CUDA、PyTorch等环境已正确安装。ARIS生成的脚本会直接在本机运行。
    • remote:适合在实验室服务器或云主机上运行。你需要确保本地和远程的项目目录路径完全一致,否则文件同步会失败。另外,务必配置好SSH免密登录,否则每次同步都需要输入密码。
    • vast:对于没有GPU的用户是福音。你需要去Vast.ai注册并获取API Key。ARIS会根据你的预算和需求(GPU型号、显存)自动寻找最便宜的机器,租用、运行实验、然后销毁,按小时计费。注意:首次使用需要仔细阅读skills/vast-gpu/SKILL.md,配置竞价策略和实例过滤器,避免租到不合适的机器。
    • modal:另一种无服务器方案,提供每月$30的免费额度。适合快速试运行小实验。
  2. W&B集成:强烈建议开启。将wandb设为true并配置好项目名后,ARIS会在生成的实验脚本中自动插入W&B日志代码。之后,你可以使用/monitor-experiment技能来实时拉取训练曲线,非常直观。避坑:确保你的Python环境已安装wandb库 (pip install wandb),并且已通过wandb login在命令行登录。

  3. 模型覆盖:如果你没有Claude或OpenAI的API,可以通过executor_modelreviewer_model指定其他模型。这需要你事先按照项目文档配置好对应的技能文件夹和MCP服务器。例如,使用国产模型组合(MiniMax + GLM)的完整指南在docs/MiniMax-GLM-Configuration.md中。

3.3 首次运行:从想法到论文的完整管道体验

让我们从一个最简单的完整流程开始,体验ARIS的威力。假设我们想探索“在视觉Transformer中引入动态稀疏注意力”这个方向。

步骤1:启动想法发现管道在Claude Code中,进入你的项目目录(包含CLAUDE.md),然后输入:

/research-pipeline "dynamic sparse attention in vision transformers"

这个命令会串联起工作流1、1.5、2、3,实现端到端的自动化。但首次运行,我建议先拆解,以便理解每个环节。

步骤2:独立运行工作流1 (/idea-discovery)

/idea-discovery "dynamic sparse attention in vision transformers" — sources: all, arxiv_download: true
  • sources: all:从所有配置的源(Zotero, Obsidian, local, web)搜索文献。
  • arxiv_download: true:自动下载相关性最高的arXiv论文PDF到本地papers/文件夹,方便后续深度阅读。

这个过程可能需要10-20分钟。完成后,你会得到IDEA_CANDIDATES.md文件,里面列出了8-12个 ranked ideas。每个想法都附带了新颖性分析、初步实验计划(如果可行)和预估的GPU小时数。此时,ARIS会暂停并询问你是否要继续推进某个想法。这是第一个重要的人机交互检查点。仔细阅读报告,选择一个最有潜力的想法。

步骤3:基于选定想法运行实验 (/experiment-bridge)假设你选择了“idea #3: Dynamic Token Pruning for Efficient ViT”。ARIS会自动基于这个想法生成详细的实验计划,并开始执行。你可以在终端看到它:

  1. 生成Python训练脚本。
  2. 调用GPT-5.4进行代码审阅(如果code_review: true)。
  3. 通过rsync将代码同步到配置的GPU服务器。
  4. 在服务器的screen会话中启动训练。
  5. 开始监控日志,等待实验完成。

步骤4:启动自动化审阅循环 (/auto-review-loop)实验完成后,ARIS会整理结果并生成一份初步的“叙事报告”。此时,你可以运行:

/auto-review-loop "dynamic token pruning for efficient vision transformers" — difficulty: hard, human_checkpoint: true
  • difficulty: hard:审稿人将拥有“记忆”,并能与执行者进行多轮辩论,挑战更深入。
  • human_checkpoint: true:在每一轮审阅结束后暂停,让你查看评分和意见。你可以选择“批准并继续”,或“注入自定义指令”来引导修改方向。

接下来,你就可以去休息了。ARIS会进行多轮“审稿-修改-实验-再审稿”的循环。第二天早上,检查项目目录,你应该能看到:

  • 每一轮的审稿意见和分数(review_round_*.md)。
  • 不断更新的论文草稿(paper_draft_*.mdpaper_draft_*.pdf)。
  • 新增的实验日志(experiments/目录下)。
  • 最终,一份评分显著提升、实验证据充实的论文终稿。

3.4 高级配置与集成

Zotero与Obsidian集成如果你使用Zotero管理文献,使用Obsidian做笔记,ARIS可以直接读取这些本地知识库,让文献调研更精准。

  • Zotero:ARIS通过Zotero的本地SQLite数据库来读取你的文献库。你需要确保Zotero的数据库路径正确(通常在~/Zotero/zotero.sqlite)。在CLAUDE.md中无需特殊配置,ARIS会自动探测。
  • Obsidian:ARIS会扫描你指定的Obsidian仓库目录(通过环境变量OBSIDIAN_VAULT_PATH设置或技能参数指定),读取其中的Markdown笔记,提取与研究方向相关的概念和引用。

飞书/Lark通知(可选但强大)对于长时间运行的任务,你肯定不想一直盯着终端。ARIS支持飞书/Lark机器人通知。

  1. 在飞书开放平台创建一个自定义机器人,获取Webhook URL。
  2. CLAUDE.md中配置:
    feishu_webhook: "https://open.feishu.cn/open-apis/bot/v2/hook/your_token" feishu_mode: "push" # 可选: "off", "push", "interactive"
    • push模式:实验完成、检查点到达、发生错误或整个管道完成时,会向群组发送通知卡片。
    • interactive模式:除了推送,还会在私人聊天中与你交互,你可以直接批准或拒绝某个步骤,甚至发送自定义指令。注意:交互模式配置更复杂,需要处理事件回调,建议先从push模式开始。

使用替代模型组合如果你无法使用Claude和GPT-5.4,ARIS完全支持其他模型。核心是配置好对应的MCP服务器。

  1. 以MiniMax (执行者) + GLM (审稿人) 为例
    • 按照docs/MiniMax-GLM-Configuration.md,配置好MiniMax的API(例如通过阿里云灵积)。
    • skills/skills-minimax/目录复制到你的技能文件夹。
    • 配置一个指向GLM API的MCP服务器(项目提供了mcp-servers/llm-chat/示例,可修改为GLM端点)。
    • CLAUDE.md中设置:executor_model: "minimax"reviewer_model: "glm"
  2. 关键点:确保你的MCP服务器配置正确,并且Claude Code能成功连接到它。可以通过claude mcp list命令查看已连接的MCP服务器状态。

4. 实战经验、避坑指南与进阶技巧

经过多个项目的实际使用,我积累了一些宝贵的经验和教训,这些在官方文档中不一定能找到。

4.1 如何写出一个能激发高质量想法的研究方向描述

/idea-discovery的输入质量直接决定了整个管道的起点。避免使用过于宽泛的词语。

  • 反面例子:“研究NLP”或“改进目标检测”。这太模糊了,ARIS无法聚焦,产生的想法会流于表面。
  • 正面例子:“探索在低资源语言上,对比学习预训练中负样本采样的偏差问题及其缓解方法”。这里包含了领域(低资源语言NLP)、方法(对比学习预训练)、具体问题(负样本采样偏差)、目标(缓解方法)。ARIS会基于这些具体约束去搜索文献、构思创新点。
  • 进阶技巧:使用RESEARCH_BRIEF.md。对于复杂方向,不要试图把所有信息塞进一行命令。在项目根目录创建一个RESEARCH_BRIEF.md文件,详细阐述背景、相关工作、初步假设、可用数据、计算资源等。ARIS会自动检测并使用这个文件,想法生成的质量会高得多。

4.2 管理GPU资源与实验成本

自动化实验虽好,但失控的实验也会烧掉大量预算。

  • 为每个实验设置预算和超时:在CLAUDE.md中,可以为vastGPU配置max_bid_pricemax_duration_hours。对于remoteGPU,可以在实验脚本开头加入timeout命令或使用slurm作业系统的超时参数。
  • 善用“试点实验”/idea-discovery阶段会为每个想法运行小型试点实验(通常1-2个GPU小时)。认真查看试点实验的结果(pilot_results/)。如果某个想法的试点结果平平,甚至比基线还差,那么在/research-pipeline的决策点,就应该果断放弃它,而不是投入大量资源进行完整实验。
  • 监控实验状态:不要完全撒手不管。定期使用/monitor-experiment(如果集成了W&B)或直接SSH到服务器查看screen会话的日志 (screen -r)。关注损失曲线是否正常、是否有NaN错误、显存是否溢出。

4.3 与“审稿人”有效互动:利用human_checkpoint

human_checkpoint设为true是我最推荐的配置。它让你在关键时刻掌握控制权。

  • 审阅后不要立即点“批准”。仔细阅读GPT-5.4的审稿意见。有时审稿人可能误解了你的方法,或者提出的实验要求不切实际(例如要求收集无法获取的新数据集)。此时,你应该点击“注入自定义指令”,向Claude Code澄清:“审稿人#2误解了我们的方法,我们并不是在比较A和B,而是在改进A。请修改回复,重点解释我们的改进点,并引用实验3和4的数据作为证据,不要承诺新的数据集实验。”
  • 在分数停滞时干预:如果经过两三轮循环,论文分数卡在某个水平(比如6.5)上不去了,审稿意见开始重复。这可能意味着当前的数据和论述已经达到了极限。此时,你应该暂停循环,手动审视一下:是核心创新不够强?还是实验设计有根本缺陷?可能需要你手动调整研究方向,或者补充一个关键实验,然后再重启ARIS。

4.4 处理LaTeX编译与格式问题

/paper-writing工作流最终会生成LaTeX并编译PDF。跨平台(macOS/Linux/Windows)和不同TeX发行版(TeX Live/MiKTeX)可能导致编译失败。

  • 确保本地LaTeX环境完整:安装完整的TeX Live或MacTeX发行版,而不仅仅是基础包。缺少latexmkbibtex或某些字体包是常见失败原因。
  • 使用Docker容器(推荐):最稳健的方法是在CLAUDE.md中配置使用Docker进行LaTeX编译。ARIS支持配置latex_compiler: docker,并指定一个包含完整TeX环境的Docker镜像(如blang/latex)。这能保证环境一致性。
  • 手动调试:如果编译失败,查看生成的*.log文件。常见的错误包括:缺失的\usepackage,错误的BibTeX引用键,或者包含特殊字符的文件名。ARIS的/codex:rescue技能现在能自动诊断一些编译错误,但复杂问题仍需人工介入。

4.5 社区技能与自定义扩展

ARIS的生态是其生命力所在。不要只局限于核心技能。

  • 探索社区技能:例如,/paper-poster可以帮你从论文自动生成学术海报的PDF和PPTX;/grant-proposal能辅助撰写项目申请书;/dse-loop是针对芯片设计/电子设计自动化领域的专用设计空间探索循环。在你的项目需要时,可以主动让Claude Code去读取这些技能的SKILL.md文件来使用它们。
  • 创建你自己的技能:如果你有重复性的任务,完全可以为其编写一个SKILL.md。结构非常直观:描述技能目标、输入输出格式、分步工作流程、以及所需的工具(如调用Python脚本、读写文件等)。然后将其放入~/.claude/skills/your_skill/目录即可。你的私人技能不会与ARIS的核心技能冲突。

5. 常见问题排查与解决方案速查表

在实际使用中,你可能会遇到一些问题。下面是一个快速排查指南。

问题现象可能原因解决方案
Claude Code中看不到ARIS技能 (/列表为空)1. 技能文件未正确复制到~/.claude/skills/
2. Claude Code版本过旧,技能目录路径已变更。
1. 检查~/.claude/skills/目录下是否有大量SKILL.md文件。
2. 尝试在~/.config/claude-desktop/~/.cursor/下寻找skills目录。查阅Claude Code官方文档确认路径。
运行技能时报错MCP server error1. Codex MCP服务器未启动或配置错误。
2. API密钥失效或额度不足。
3. 网络问题导致连接超时。
1. 运行claude mcp list查看codex服务器状态。尝试重启:claude mcp restart codex
2. 运行codex status检查OpenAI API状态和额度。
3. 检查网络连接,特别是代理设置。
实验代码同步到远程服务器失败1. SSH免密登录未配置。
2. 本地与远程项目路径不一致。
3. 远程服务器防火墙或SSH配置限制。
1. 确保可以使用ssh user@host直接登录。
2. 核对CLAUDE.mdremote_project_path与本地项目在服务器上的绝对路径是否一致。
3. 检查服务器~/.ssh/authorized_keys文件权限是否为600。
GPU实验启动后立即失败1. 环境依赖缺失(如特定Python包)。
2. 数据路径错误。
3. GPU驱动/CUDA版本不兼容。
1. 查看生成的实验脚本,在远程服务器上手动安装缺失的包 (pip install -r requirements.txt)。
2. 检查脚本中数据加载部分的路径,确保在远程服务器上可访问。
3. 在远程服务器上运行nvidia-smipython -c "import torch; print(torch.cuda.is_available())"验证环境。
/paper-writing编译LaTeX失败1. 缺少LaTeX宏包。
2. BibTeX引擎错误。
3. 文件编码或特殊字符问题。
1. 安装完整TeX发行版。或配置使用Docker编译 (latex_compiler: docker)。
2. 检查.bib文件格式是否正确,引用键是否唯一。
3. 尝试在CLAUDE.md中设置latex_engine: xelatex以获得更好的Unicode支持。
审稿意见空洞或重复1. 审稿模型(如GPT-5.4)的“温度”(temperature)设置可能过高,导致随机性大。
2. 论文草稿本身信息量不足,审稿人无话可说。
3. 进入了“局部循环”,审稿人和作者在互相附和。
1. 尝试在命令中增加— reviewer_temperature: 0.2以降低随机性,使审稿更聚焦。
2. 确保你的输入(论文草稿或研究范围描述)足够具体、包含初步结果。
3. 启用difficulty: nightmare模式,让审稿人直接阅读代码仓库,提出更技术性的尖锐问题。
/research-wiki初始化后技能不感知技能与维基的集成钩子未正确加载。确保在运行任何技能前,已在项目目录中执行过/research-wiki init。维基感知是技能内部逻辑,需要技能主动去读取research-wiki/目录。检查技能文件(如idea-creator/SKILL.md)中是否有读取维基的步骤。

ARIS不是一个魔法黑盒,而是一个高度可配置、可干预的自动化研究副驾驶。它的价值不在于替代研究者,而在于将研究者从重复性劳动中解放出来,并提供一个持续、严谨的“第二意见”。通过理解其设计哲学、熟练配置核心工作流、并善用社区生态,你完全可以让它融入你的日常研究,真正实现“在睡眠中推进研究”。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/25 11:08:43

Yakit指纹扫描实战:不碰端口,如何悄无声息识别Web框架与中间件?

Yakit指纹扫描实战:不碰端口,如何悄无声息识别Web框架与中间件? 在Web安全测试中,信息收集往往是最关键的第一步。传统的端口扫描虽然能快速发现开放服务,但也极易触发安全设备的告警。本文将分享如何利用Yakit的HTTP指…

作者头像 李华
网站建设 2026/4/25 11:06:33

Oumuamua-7b-RP惊艳效果展示:高拟真度日语女仆角色‘桜’对话实录

Oumuamua-7b-RP惊艳效果展示:高拟真度日语女仆角色桜对话实录 1. 项目概述 Oumuamua-7b-RP是一款专为日语角色扮演对话设计的Web界面大语言模型,基于Mistral-7B架构开发。这个模型能够创造出令人惊叹的沉浸式对话体验,特别是其预设的女仆角…

作者头像 李华
网站建设 2026/4/25 11:05:43

别再问网管了!手把手教你给Win10电脑设置固定IP(保姆级图文教程)

告别网络波动!Win10固定IP配置全指南:从原理到实战 每次打印文件时都要重新连接共享打印机?远程桌面总是莫名其妙断开?NAS访问速度时快时慢?这些问题很可能源于动态IP分配的不稳定性。对于家庭工作室、小型办公室或游戏…

作者头像 李华
网站建设 2026/4/25 11:05:42

Google Jules:AI编程助手的技术解析与实践

1. Google Jules:下一代自主编程助手的深度解析 作为一名长期关注AI编程工具的技术从业者,我最近花了大量时间测试Google DeepMind推出的Jules——这个基于Gemini模型的自主编程助手正在重新定义我们与AI协作的方式。与传统的代码补全工具不同&#xff…

作者头像 李华
网站建设 2026/4/25 11:04:44

基于CNN的文本情感分析实战:从原理到92.3%准确率

1. 项目概述:基于深度卷积神经网络的文本情感分析第一次接触情感分析任务时,我尝试用传统的机器学习方法,结果准确率卡在85%死活上不去。直到改用深度卷积神经网络(CNN),才发现原来文本分类可以像图像识别一…

作者头像 李华
网站建设 2026/4/25 11:04:20

Stacking集成学习:原理、Python实现与优化技巧

1. 项目概述:Stacking集成学习的基本概念Stacking(堆叠泛化)是一种高阶的集成学习方法,它通过组合多个基础模型的预测结果来构建一个更强大的元模型。与Bagging和Boosting这类并行或串行集成方法不同,Stacking采用分层…

作者头像 李华