AI Scraping：从XPath到语义理解的网页抓取范式升级-洪萨配资

1. 项目概述：当“爬虫”开始读得懂网页的潜台词

你有没有试过在凌晨三点，盯着一个刚改版的电商页面发呆？昨天还好好工作的XPath表达式，今天突然全军覆没，页面结构像被重新洗过牌——class名换了、div嵌套深了两层、关键价格数据藏进了JavaScript动态渲染的异步请求里。我干这行十年，亲手写过上百个爬虫脚本，也修过数不清的“半夜告警”。传统爬虫就像一个只认图纸不看现场的施工队：图纸（CSS选择器）一改，整个工程就得停工重画。而AI Scraping，不是给旧工具加个“智能滤镜”，它是把施工队升级成了能自己看懂建筑蓝图、还能根据现场水泥标号和天气湿度实时调整浇筑节奏的工程师。

核心关键词——AI Scraping、Towards AI - Medium——指向的不是某个具体工具或平台，而是一种范式迁移：从“按图索骥”到“理解意图”。它解决的痛点非常具体：动态页面抓取失败率高、维护成本爆炸式增长、非文本内容（PDF、图片、视频字幕）无法处理、语义混淆（比如把“$199”识别成普通数字而非价格）、以及最棘手的伦理模糊地带——我们到底该不该抓？怎么抓才不算越界？这篇文章，就是我用真实项目复盘的方式，把AI Scraping从概念拆解成可落地的肌肉记忆。它适合三类人：正在被反爬策略折磨的初级开发者、需要稳定获取竞品数据的产品经理、以及对技术伦理有切实困惑的数据合规负责人。你不需要是AI专家，但得愿意放下“写死选择器”的执念，跟我一起看看，当代码开始真正“阅读”网页时，工作流会怎样重构。

2. 核心思路拆解：为什么AI不是“更聪明的规则”，而是“新物种”

2.1 传统爬虫的“脆弱性”根源：它本质上是个高级复制粘贴员

很多人误以为传统爬虫失败是因为“技术不够强”，其实恰恰相反——它的强大在于极致的确定性，而这种确定性，在现代Web面前就是原罪。我拿一个真实案例说明：去年帮一家跨境选品公司抓取亚马逊商品页。他们用Selenium+BeautifulSoup，逻辑很清晰：定位<span class="a-price-whole">取整数部分，再找<span class="a-price-fraction">取小数。上线一周后，亚马逊把价格容器class从a-price-whole悄悄改成a-offscreen，并把价格文本塞进一个带aria-hidden="true"的span里。结果？所有价格字段返回空值。工程师花了两天时间翻源码、抓Network请求，最后发现价格其实是通过一个独立的AJAX接口返回的JSON数据。问题来了：这个接口URL是动态生成的，参数里带着一个每小时刷新一次的token。传统方案只能硬着头皮去逆向JS，而逆向的结果是——下一次改版，token生成逻辑又变了。

提示：传统爬虫的崩溃点永远在“结构假设”上。它假设HTML标签名、class名、DOM层级是稳定的契约，但现代前端框架（React/Vue）的虚拟DOM、服务端渲染（SSR）、渐进式Web应用（PWA）让这个契约形同虚设。你维护的不是代码，而是一份随时可能被单方面撕毁的纸质协议。

2.2 AI Scraping的底层逻辑：从“匹配结构”到“推理语义”

AI Scraping不是用大模型直接去调用requests.get()，而是构建了一个三层认知体系。我把它比作一个资深编辑审稿的过程：

第一层：视觉与结构感知（Computer Vision + DOM Analysis）
就像编辑先快速扫一眼文章排版，AI模型（如LayoutParser或基于YOLOv8微调的检测器）会把整个网页截图+HTML源码作为输入，自动标注出“标题区”、“正文段落”、“价格标签”、“购买按钮”、“评论列表”等语义区块。它不关心<h1>标签叫什么，而是通过字体大小、加粗程度、上下文位置、周围元素密度等特征，判断“这里大概率是主标题”。我在Arxiv项目里就用了这招：论文标题在HTML里可能被包裹在<div class="title is-5">或<h2 class="mathjax">里，但视觉模型总能稳定地框出那个最大号、居中、上方有作者信息的文本块。
第二层：上下文理解（NLP + Entity Recognition）
编辑看到“$199.99”不会只当它是字符串，他会结合前文“MSI Gaming Laptop”和后文“Free Shipping”判断这是“产品售价”。AI用spaCy或Hugging Face的dslim/bert-base-NER模型做同样的事：输入一段提取出的文本，模型输出{"text": "199.99", "label": "PRICE", "context": "MSI Gaming Laptop"}。更关键的是，它能处理歧义。比如某新闻页里同时出现“Apple Inc.”（公司）和“apple pie”（食物），传统正则/apple/i会全抓，而NER模型能根据前后词性（Inc. vs. pie）、句子结构（主语vs宾语）精准区分。
第三层：决策与适应（LLM as Orchestrator）
这是最颠覆的部分。传统流程是线性的：请求→解析→提取→存储。AI流程是闭环反馈的：请求→初步解析→发现关键数据缺失（如价格未找到）→调用LLM分析缺失原因（“页面加载了JS但未执行？”“价格在iframe里？”“需要登录态？”）→动态生成补救策略（启动无头浏览器执行JS/切换代理IP/模拟登录）→重试。我在金融舆情项目里就部署了这个逻辑：当爬取雪球网股吧帖子时，如果发现热门帖的评论数显示为“加载中...”，LLM会立刻判断“需等待AJAX完成”，并注入page.wait_for_selector(".comment-item", state="visible")指令，而不是像传统脚本那样死等或报错。

注意：AI Scraping的“智能”不等于“免维护”。它把维护成本从“每天修XPath”降维到“每月调优提示词（Prompt）和微调小模型”。前者是体力活，后者是脑力活——但后者带来的稳定性提升是数量级的。

2.3 为什么必须放弃“纯代码思维”？数据管道的范式转移

很多开发者试图用Python写一个“AI爬虫函数”，比如def ai_scrape(url): return llm.invoke(f"Extract price from {html}")。这注定失败。真正的AI Scraping是一个数据管道（Data Pipeline），每个环节有明确分工：

环节	传统方案	AI增强方案	我的实操经验
请求层	`requests.get()`	智能代理池+JS渲染引擎（Playwright）+ 自适应User-Agent	别迷信“万能User-Agent”。我测试过，对知乎、小红书这类平台，用真实iOS Safari UA（带完整deviceMemory、hardwareConcurrency）成功率比随机UA高67%。但对政府网站，反而用Chrome旧版UA更稳——AI要做的，是根据目标域名自动匹配UA策略库。
解析层	BeautifulSoup.find()	多模态解析器（HTML+截图+OCR）+ 区块语义分割	单靠HTML解析PDF链接？几乎不可能。我的方案是：先用PyMuPDF提取PDF文本，再用Tesseract OCR识别扫描件PDF中的表格，最后用LLM对齐两种结果。实测下来，对银行财报PDF的表格抽取准确率从42%提升到89%。
提取层	正则/Selector硬编码	NER模型+LLM零样本抽取（Zero-shot Extraction）	对从未见过的医疗报告格式，我用提示词：“你是一个医学数据专家。请从以下文本中严格提取：1) 患者ID（格式：P-XXXXX）；2) 主要诊断（ICD-10编码开头的字符串）；3) 手术日期（YYYY-MM-DD）。忽略所有其他内容。”——无需训练，首次运行准确率就达78%。
存储层	CSV/MySQL	向量数据库（ChromaDB）+ 元数据图谱	抓Arxiv论文不只是存标题摘要。我把每篇论文的“方法论关键词”（如BERT、GAN）、“实验数据集”（如ImageNet）、“引用关系”都向量化，存入ChromaDB。后续查“哪些论文用ResNet50在CIFAR-10上做对比实验”，直接语义搜索，不用写复杂SQL关联。

这个管道不是银弹，但它把“人盯屏幕修bug”的被动模式，变成了“人设定规则、AI执行并反馈”的主动模式。而Towards AI - Medium这类技术社区的价值，正在于它提供了大量经过验证的管道组件（如开源的llama-index用于文档索引，langchain用于链式调用），让我们不必从零造轮子。

3. 实操细节解析：以Arxiv论文抓取为例，拆解AI管道的每一颗螺丝

3.1 为什么选Arxiv？它是最理想的AI爬虫“压力测试场”

Arxiv表面看是个静态学术站，实则暗藏玄机：

动态加载：首页“Recent Submissions”用JavaScript分页，点击“Next”不刷新页面；
反爬机制：对高频IP返回429，且要求User-Agent包含arXiv字样；
内容异构：论文页包含LaTeX公式（需MathJax渲染）、作者机构（多语言混排）、参考文献（格式不统一）；
伦理敏感：明确要求遵守robots.txt，且提供官方API（但限流严重）。

我选它，就是因为它逼你直面AI Scraping的所有核心挑战——不是炫技，而是生存。

3.2 工具链选型：拒绝“全家桶”，只选能解决具体痛点的刀

很多人一上来就想堆砌OpenAI+HuggingFace+Scrapy，结果环境配三天，跑通第一行代码就报17个依赖冲突。我的原则是：每个工具只解决一个明确问题，且能被轻松替换。以下是Arxiv项目最终采用的精简栈：

请求与渲染层：Playwright（Python）
不选Selenium，因为Playwright原生支持多浏览器上下文、自动等待网络空闲、内置拦截请求（可屏蔽广告JS减少干扰）。关键配置：

from playwright.sync_api import sync_playwright with sync_playwright() as p: browser = p.chromium.launch(headless=True, args=[ '--no-sandbox', '--disable-setuid-sandbox', '--disable-gpu' ]) context = browser.new_context( user_agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 arXiv" ) page = context.new_page() # 关键：设置超时和重试 page.goto("https://arxiv.org/list/cs.AI/recent", timeout=30000, wait_until="networkidle")

实操心得：wait_until="networkidle"比"domcontentloaded"可靠得多。Arxiv的JS资源加载慢，DOM就绪不代表数据就绪。我曾因用错这个参数，导致抓到的“最新论文列表”永远是缓存的旧数据。

结构解析层：BeautifulSoup + LayoutParser（轻量版）
不用纯CV模型，因为Arxiv HTML结构相对规范。但纯BS4又搞不定LaTeX公式。我的混合方案：
1. 用BS4提取<div class="list-title mathjax">内的原始HTML（含<span class="MathJax">标签）；
2. 对含mathjax的div，用Playwright的page.evaluate()执行MathJax.Hub.getAllJax()，再取innerHTML；
3. 对作者栏<div class="list-authors">，用LayoutParser的预训练模型（lp://PubLayNet/faster_rcnn_R_50_FPN_3x）识别“作者名”和“机构”区块——因为作者名常带超链接，机构名常是纯文本，CSS选择器极易混淆。
语义提取层：spaCy + 自定义NER + LLM Prompting
Arxiv的摘要（abstract）是纯文本，但标题（title）和作者（authors）需要深度理解：
- 标题清洗：用spaCy的en_core_web_sm模型识别命名实体，过滤掉“arXiv:”前缀和版本号（如v2）；
- 作者解析：Arxiv作者格式为Authors: John Doe, Jane Smith (Institution A), Bob Lee (Institution B)。正则r'Authors:\s*(.+?)\s*$(.+?)$'会把Jane Smith和Bob Lee的机构全抓成一个组。我的方案是：先用spaCy分句，再对每句用LLM做结构化抽取：
```
你是一个学术数据专家。请将以下作者字符串解析为JSON： {"authors": [{"name": "John Doe", "affiliation": null}, {"name": "Jane Smith", "affiliation": "Institution A"}, {"name": "Bob Lee", "affiliation": "Institution B"}]} 字符串：Authors: John Doe, Jane Smith (Institution A), Bob Lee (Institution B)
```
  这种零样本提示（Zero-shot Prompting）比训练NER模型快10倍，且对新格式泛化性极强。

向量存储层：ChromaDB（本地轻量版）
为什么不用PostgreSQL？因为我要做语义搜索。比如用户问：“找2023年关于大模型幻觉（hallucination）的综述论文”，传统关键词搜索会漏掉用“factual inconsistency”“confabulation”表述的论文。ChromaDB的方案：

import chromadb from chromadb.utils import embedding_functions client = chromadb.PersistentClient(path="./arxiv_db") openai_ef = embedding_functions.OpenAIEmbeddingFunction( api_key="your-key", model_name="text-embedding-3-small" # 比ada更准，成本更低 ) collection = client.create_collection( name="arxiv_papers", embedding_function=openai_ef, metadata={"hnsw:space": "cosine"} # 余弦相似度，适合文本 ) # 存储时，把标题+摘要+关键词拼接成document collection.add( documents=[f"{title} {abstract} {keywords}"], metadatas=[{"arxiv_id": "2301.00001", "date": "2023-01-01"}], ids=["2301.00001"] )

3.3 关键参数计算：别让“智能”变成“玄学”

AI Scraping最怕沦为调参玄学。所有参数必须有业务依据：

并发请求数（Concurrency）：
Arxiv官方robots.txt规定Crawl-delay: 10，即每10秒最多1次请求。但实际测试发现，用Playwright+真实UA，连续请求间隔≥3秒时，429错误率<5%。我的计算逻辑：
最大并发数 = 总可用时间 / 单请求耗时
单请求耗时实测≈8秒（含JS渲染、等待网络空闲），总可用时间按10秒算 → 并发数=1。但为防突发流量，我设为concurrent_requests=1，用队列控制节奏。

LLM调用频率：
OpenAI API有TPM（Tokens Per Minute）限制。一篇Arxiv摘要平均300 tokens，标题50 tokens。若每分钟处理10篇，则消耗3500 tokens。text-3-small模型TPM为50,000，理论可支撑14分钟/篇。但为留缓冲，我设max_calls_per_minute=8，并加入指数退避（Exponential Backoff）：

import time from functools import wraps def rate_limit(calls_per_min): min_interval = 60.0 / calls_per_min last_called = [0.0] def decorator(func): @wraps(func) def wrapper(*args, **kwargs): elapsed = time.time() - last_called[0] left_to_wait = min_interval - elapsed if left_to_wait > 0: time.sleep(left_to_wait) ret = func(*args, **kwargs) last_called[0] = time.time() return ret return wrapper return decorator @rate_limit(8) def extract_with_llm(text): return openai.ChatCompletion.create(...)

向量维度与距离算法：
text-embedding-3-small输出1536维向量。ChromaDB默认用L2距离，但对文本相似度，余弦距离更合理。我在创建collection时显式指定hnsw:space="cosine"，避免默认L2导致长文本（如摘要）和短文本（如标题）距离失真。

注意：所有这些参数都不是拍脑袋定的。我做了72小时的压力测试，记录每100次请求的失败率、平均响应时间、Token消耗，画出曲线图，才确定最终阈值。所谓“AI工程化”，第一步就是把玄学参数变成可测量的业务指标。

4. 完整实操流程：从零搭建Arxiv AI爬虫管道

4.1 环境准备与依赖安装：避开90%的初学者坑

别跳过这一步！我见过太多人卡在环境配置上。以下是经过验证的最小可行环境（Ubuntu 22.04 / macOS Monterey）：

# 1. 创建隔离环境（强烈推荐） python3 -m venv ai-scraping-env source ai-scraping-env/bin/activate # 2. 升级pip（避免依赖冲突） pip install --upgrade pip # 3. 安装核心依赖（按顺序！） pip install playwright==1.40.0 # 版本锁定！新版Playwright对Arxiv兼容性差 playwright install chromium # 下载浏览器二进制 pip install beautifulsoup4==4.12.2 pip install lxml==4.9.3 # BS4的高速解析器 pip install spacy==3.7.2 python -m spacy download en_core_web_sm pip install chromadb==0.4.24 pip install openai==1.12.0 # 4. 可选但强烈建议：安装OCR支持（处理PDF封面） pip install PyMuPDF==1.23.7 pip install pytesseract==0.3.10 # Ubuntu需额外：sudo apt-get install tesseract-ocr # macOS需额外：brew install tesseract

踩过的坑：
Playwright 1.42+版本对Arxiv的MathJax渲染有兼容问题，页面加载后公式不显示；
spacy download en_core_web_trf（Transformer模型）虽准但太重，单次NER耗时2秒，不适合爬虫实时调用；
ChromaDB 0.4.25有内存泄漏Bug，用0.4.24版稳定。

4.2 核心代码实现：可直接复制粘贴的生产级脚本

以下是我实际部署的arxiv_ai_scraper.py核心逻辑（已删减日志和异常处理，保留主干）：

from playwright.sync_api import sync_playwright from bs4 import BeautifulSoup import spacy import re import json import chromadb from chromadb.utils import embedding_functions import time # 初始化全局对象（避免重复创建开销） nlp = spacy.load("en_core_web_sm") openai_ef = embedding_functions.OpenAIEmbeddingFunction( api_key="YOUR_OPENAI_KEY", model_name="text-embedding-3-small" ) client = chromadb.PersistentClient(path="./arxiv_db") collection = client.get_or_create_collection( name="arxiv_papers", embedding_function=openai_ef, metadata={"hnsw:space": "cosine"} ) def scrape_arxiv_list_page(page_url: str): """抓取列表页，返回论文元数据列表""" papers = [] with sync_playwright() as p: browser = p.chromium.launch(headless=True, args=['--no-sandbox']) context = browser.new_context( user_agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 arXiv" ) page = context.new_page() try: page.goto(page_url, timeout=30000, wait_until="networkidle") # 等待论文条目加载 page.wait_for_selector("div.list-item", timeout=10000) # 获取所有论文条目的HTML html = page.content() soup = BeautifulSoup(html, 'lxml') for item in soup.select("div.list-item"): # 提取arXiv ID（关键！用于去重和后续详情页） id_tag = item.select_one("span.list-identifier a") if not id_tag or not id_tag.get_text().strip(): continue arxiv_id = re.search(r'arXiv:(\d+\.\d+)', id_tag.get_text()).group(1) # 标题（需处理MathJax） title_tag = item.select_one("div.list-title") if title_tag: # 执行JS获取渲染后的标题 rendered_title = page.evaluate( '''(el) => { const temp = document.createElement("div"); temp.innerHTML = el.outerHTML; MathJax.Hub.Queue(["Typeset", MathJax.Hub, temp]); return temp.textContent; }''', title_tag ) title = rendered_title.strip() if rendered_title else title_tag.get_text().strip() else: title = "" # 作者（用spaCy初步清洗） authors_tag = item.select_one("div.list-authors") authors_text = authors_tag.get_text().strip() if authors_tag else "" # 移除"Authors:"前缀 authors_clean = re.sub(r'^Authors:\s*', '', authors_text) # 摘要（通常在下一个兄弟div） abstract_tag = item.find_next_sibling("div", class_="list-abstract") abstract = abstract_tag.get_text().strip() if abstract_tag else "" papers.append({ "arxiv_id": arxiv_id, "title": title, "authors": authors_clean, "abstract": abstract, "url": f"https://arxiv.org/abs/{arxiv_id}" }) finally: browser.close() return papers def enrich_paper_with_llm(paper: dict) -> dict: """用LLM增强论文元数据""" # 构建提示词（Prompt Engineering的核心） prompt = f""" 你是一个AI学术助手。请严格按JSON格式输出，不要任何解释： {{ "keywords": ["string"], // 3-5个核心研究关键词，用英文，小写 "main_contribution": "string", // 一句话概括主要贡献（<30字） "methodology": "string" // 方法论类型（如"Transformer-based", "Reinforcement Learning", "Theoretical Analysis"） }} 论文标题：{paper['title']} 论文摘要：{paper['abstract']} """ # 调用OpenAI（带重试） import openai for _ in range(3): try: response = openai.ChatCompletion.create( model="gpt-4-turbo", messages=[{"role": "user", "content": prompt}], temperature=0.1, # 降低随机性，保证结果稳定 max_tokens=256 ) # 解析JSON enriched = json.loads(response.choices[0].message.content) return {**paper, **enriched} except Exception as e: time.sleep(2) continue # 失败时返回默认值（保证管道不中断） return {**paper, "keywords": [], "main_contribution": "", "methodology": ""} def store_to_chromadb(paper: dict): """存入向量数据库""" # 拼接文档用于向量化 doc_text = f"{paper['title']} {paper['abstract']} {' '.join(paper.get('keywords', []))}" collection.add( documents=[doc_text], metadatas=[{ "arxiv_id": paper["arxiv_id"], "title": paper["title"], "authors": paper["authors"], "url": paper["url"], "keywords": paper.get("keywords", []), "main_contribution": paper.get("main_contribution", ""), "methodology": paper.get("methodology", "") }], ids=[paper["arxiv_id"]] ) # 主流程 if __name__ == "__main__": # 抓取最近7天的AI领域论文 list_urls = [ "https://arxiv.org/list/cs.AI/recent", "https://arxiv.org/list/cs.LG/recent", "https://arxiv.org/list/cs.CL/recent" ] all_papers = [] for url in list_urls: print(f"Scraping {url}...") papers = scrape_arxiv_list_page(url) all_papers.extend(papers) time.sleep(3) # 遵守Crawl-delay # 批量增强（避免LLM调用过于频繁） print(f"Enriching {len(all_papers)} papers with LLM...") enriched_papers = [] for i, paper in enumerate(all_papers): if i % 5 == 0: # 每5篇休息1秒 time.sleep(1) enriched = enrich_paper_with_llm(paper) enriched_papers.append(enriched) print(f" Enriched {i+1}/{len(all_papers)}: {enriched['title'][:50]}...") # 存入数据库 print("Storing to ChromaDB...") for paper in enriched_papers: store_to_chromadb(paper) print("Done! Total papers:", len(enriched_papers))

4.3 运行与验证：如何确认你的AI爬虫真的“懂”了

别只看脚本是否跑通，要验证AI是否真正理解了内容。我的三步验证法：

结构验证（Structure Check）：
检查ChromaDB中存储的元数据是否完整。运行：

results = collection.query( query_texts=["large language models"], n_results=1 ) print(json.dumps(results['metadatas'][0], indent=2, ensure_ascii=False))

应看到类似：

{ "arxiv_id": "2305.12345", "title": "LLM-Hallucination: A Survey of Causes and Mitigations", "keywords": ["large language models", "hallucination", "survey"], "main_contribution": "Classifies hallucination types and evaluates 12 mitigation methods", "methodology": "Survey" }

如果keywords为空或main_contribution是胡言乱语，说明LLM提示词（Prompt）需要优化。

语义验证（Semantic Check）：
测试向量搜索是否符合人类直觉。手动构造一个查询：
```
# 查询“用强化学习优化大模型推理” results = collection.query( query_texts=["reinforcement learning for LLM inference optimization"], n_results=3 )
```
检查返回的论文标题是否真的相关。如果返回一堆“GAN图像生成”论文，说明：
- 嵌入模型（Embedding Model）选型不当（text-embedding-3-small对技术术语理解弱）；
- 或文档拼接方式有问题（摘要+标题+关键词的权重应不同）。
伦理验证（Ethics Check）：
最后也是最重要的一步：检查你的爬虫是否尊重robots.txt。访问https://arxiv.org/robots.txt，确认你的请求路径（如/list/cs.AI/recent）未被禁止，且User-Agent包含arXiv。用curl -H "User-Agent: test-bot arXiv" https://arxiv.org/robots.txt模拟请求，确保返回200而非403。

实操心得：我坚持“每次抓取前先人工检查robots.txt变更”。去年Arxiv把/search/路径加入disallow，而我的旧脚本还在用搜索API，差点触发封禁。AI再强，也强不过一份被忽视的文本协议。

5. 常见问题与排查技巧实录：那些深夜调试时的真实战场

5.1 动态内容抓取失败：页面明明有数据，BS4却抓不到

现象：Playwright能正常打开Arxiv论文页，page.content()返回的HTML里有<div class="abstract">，但用BS4解析时soup.select("div.abstract")返回空列表。

排查路径：

确认是否JS渲染：在Playwright中执行page.content()后，立即用page.screenshot()截屏。如果截图里有摘要，但page.content()返回的HTML没有，说明内容由JS动态插入。
解决方案：
- 方案A（推荐）：用page.inner_html("body")代替page.content()，它返回当前DOM状态（含JS修改）；
- 方案B：等待特定元素出现，page.wait_for_selector("div.abstract", state="visible")后再取HTML；
- 方案C：直接用Playwright的page.text_content("div.abstract")获取文本，绕过HTML解析。

注意：page.content()是初始HTML快照，page.inner_html()是实时DOM，二者本质不同。这是90%动态抓取失败的根源。

5.2 LLM抽取结果不稳定：同一段文本，三次调用返回三个不同JSON

现象：对同一篇论文摘要，enrich_paper_with_llm()返回的keywords有时是["transformer", "attention"]，有时是["NLP", "deep learning"]，甚至有时是空数组。

根本原因：temperature=1.0（默认值）让LLM过度发挥“创造力”。学术数据需要确定性，不是创意写作。

解决方案：

强制temperature=0.0（完全确定性）；
在Prompt末尾加约束：“必须严格遵循JSON Schema，不得添加任何额外字段或解释。”；

对关键字段（如keywords）加格式校验：

# 解析后校验 try: data = json.loads(response.choices[0].message.content) if not isinstance(data.get("keywords"), list) or len(data["keywords"]) < 1: raise ValueError("Keywords must be non-empty list") return data except Exception as e: # 降级为规则提取 keywords = extract_keywords_by_regex(paper['abstract']) return {**paper, "keywords": keywords}

5.3 ChromaDB搜索不准：明明文档里有“BERT”，搜索“BERT”却找不到

现象：存入的论文摘要含“BERT-based model”，但query_texts=["BERT"]返回空结果。

排查与修复：

检查嵌入模型：text-embedding-3-small对缩写词（BERT, GAN, RL）表征较弱。换成text-embedding-3-large或专用模型sentence-transformers/all-MiniLM-L6-v2（免费开源）；

检查查询预处理：ChromaDB默认不做文本清洗。确保查询词和文档都转为小写、去标点：

def normalize_text(text): return re.sub(r'[^\w\s]', ' ', text.lower()) query_normalized = normalize_text("BERT") results = collection.query(query_texts=[query_normalized], n_results=3)

检查距离算法：确认创建collection时指定了hnsw:space="cosine"。L2距离对稀疏向量（如缩写词）效果差。

5.4 反爬封禁：突然所有请求返回429或空页面

现象：脚本运行2小时后，所有page.goto()超时，或返回空白HTML。

系统性排查清单：

✅ 检查IP是否被封：用curl -x http://your-proxy:port https://arxiv.org测试，若同样失败，则IP被封；
✅ 检查User-Agent：Arxiv明确要求UA含arXiv，缺则必封；

✅ 检查请求头完整性：Playwright默认不发Accept-Language等头，手动添加：

context = browser.new_context( user_agent="...", extra_http_headers={ "Accept-Language": "en-US,en;q=0.9", "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8" } )

✅ 检查JS执行：Arxiv会检测navigator.webdriver，Playwright默认为true。需关闭：

context = browser.new_context( user_agent="...", java_script_enabled=True, # 关键：欺骗webdriver检测 bypass_csp=True ) page = context.new_page() page.add_init_script("Object.defineProperty(navigator, 'webdriver', {get: () => undefined})")