news 2026/4/23 1:03:15

python爬取时怎么获取头部header

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
python爬取时怎么获取头部header

在 Python 爬虫开发中,HTTP Header(请求头 / 响应头)是核心环节:请求头(Request Header)用于模拟浏览器身份、传递请求参数,避免被反爬;响应头(Response Header)包含服务器返回的状态、编码、Cookie 等关键信息。以下分场景详细讲解如何构造请求头从浏览器获取真实请求头提取响应头,并结合requestsSelenium等常用库给出示例。


一、核心概念:请求头 vs 响应头

类型作用常见字段
请求头客户端向服务器发送请求时携带的信息,用于标识请求身份、偏好等User-AgentRefererCookieAcceptAccept-EncodingOrigin
响应头服务器向客户端返回响应时携带的信息,包含响应状态、数据格式、Cookie 等Set-CookieContent-TypeContent-EncodingServerDate

二、场景 1:手动构造请求头(Request Header)

爬取普通网页时,最常用的方式是手动构造请求头,核心是设置User-Agent(模拟浏览器),复杂场景需补充CookieReferer等。

1. 基础示例(使用requests库)

import requests # 1. 构造请求头字典(核心字段按需添加) headers = { # 必选:模拟浏览器标识(关键反爬字段) "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36", # 可选:表示请求来源页面(部分网站会验证) "Referer": "https://www.jd.com/", # 可选:接受的数据格式 "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8", # 可选:接受的编码格式 "Accept-Encoding": "gzip, deflate, br", # 可选:语言偏好 "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8", # 可选:Cookie(需从浏览器获取,用于保持登录状态) "Cookie": "xxx=xxx; yyy=yyy;" } # 2. 发送请求时携带请求头 url = "https://www.example.com" response = requests.get(url, headers=headers) print("请求是否成功:", response.status_code) # 200表示成功

2. 常用请求头字段说明

字段名必选作用
User-Agent标识客户端类型(浏览器 / 爬虫),缺少或异常会被反爬拦截
Cookie携带用户登录状态、会话信息,爬取需要登录的页面时必须
Referer告诉服务器请求的来源,部分网站会验证该字段防止跨站请求
Origin跨域请求时携带,标识请求的源域名
Accept告诉服务器客户端能接受的响应数据格式

三、场景 2:从浏览器开发者工具获取真实请求头

手动构造的请求头可能不够 “真实”,尤其是面对反爬严格的网站(如京东、淘宝),直接复制浏览器的真实请求头是最可靠的方式。

操作步骤(以 Chrome 浏览器为例)

  1. 打开目标网页,按F12或右键→检查,打开开发者工具;
  2. 切换到Network(网络)标签,刷新页面(确保捕获所有请求);
  3. 在请求列表中找到目标请求(通常是第一个Doc类型的请求,或 API 接口请求);
  4. 点击该请求,在右侧Headers(标头)中找到Request Headers(请求头)
  5. 复制全部请求头(可右键→CopyCopy as cURLCopy headers),转换为 Python 字典。

四、场景 3:获取服务器返回的响应头(Response Header)

发送请求后,可通过requests库的响应对象直接提取响应头,用于获取 Cookie、响应编码、服务器信息等。

五、场景 4:用 Selenium 获取浏览器的真实请求头 / 响应头

对于动态渲染的页面(如 JS 加载的内容),Selenium可模拟真实浏览器的请求,通过抓包或浏览器日志获取请求头 / 响应头。

方法 1:直接获取 Selenium 的请求头(通过webdriver

from selenium import webdriver from selenium.webdriver.chrome.options import Options # 配置Chrome选项 chrome_options = Options() chrome_options.add_argument("--headless=new") # 无头模式(可选) driver = webdriver.Chrome(options=chrome_options) # 访问目标页面 driver.get("https://www.jd.com") # 执行JS获取浏览器的User-Agent(间接获取请求头核心字段) user_agent = driver.execute_script("return navigator.userAgent;") print("Selenium的User-Agent:", user_agent) # 关闭浏览器 driver.quit()

方法 2:通过mitmproxy/Charles抓包获取 Selenium 的请求头

如果需要完整的请求头 / 响应头,可使用抓包工具(如mitmproxy、Charles、Fiddler)拦截 Selenium 的请求,步骤如下:

  1. 启动抓包工具,设置代理端口(如8080);
  2. Selenium 配置代理,指向抓包工具;
  3. 访问目标页面,抓包工具会捕获所有请求的头信息。

六、实用技巧与注意事项


总结

获取和使用 Header 的核心是模拟真实浏览器的请求行为

简单场景:手动构造User-Agent等核心字段;

复杂场景:从浏览器复制真实请求头,或用抓包工具获取;

响应头:通过requestsresponse.headers直接提取。

结合反爬策略(如随机User-Agent、更新 Cookie),可大幅提升爬虫的稳定性和成功率。

  1. 请求头的大小写requests库会自动处理请求头的大小写(如user-agentUser-Agent等效),无需严格区分;
  2. Cookie 的时效性:Cookie 通常有过期时间,爬取需要登录的页面时,需定期更新 Cookie;
  3. User-Agent 池:为避免被识别为爬虫,可维护一个User-Agent池,每次请求随机选择一个;
  4. 避免过度携带字段:并非所有请求头字段都需要,核心字段(User-Agent)满足后,多数网站可正常访问;
  5. 遵守 robots 协议:爬取前查看网站的robots.txt(如https://www.jd.com/robots.txt),避免爬取禁止的内容。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/22 2:28:01

Java 大视界 -- 基于 Java 的大数据可视化在城市交通拥堵溯源与治理策略展示中的应用

Java 大视界 -- 基于 Java 的大数据可视化在城市交通拥堵溯源与治理策略展示中的应用引言正文一、城市交通拥堵现状与挑战1.1 拥堵现状1.2 面临挑战二、Java 大数据可视化技术基础2.1 大数据采集与存储2.2 可视化工具与技术三、基于 Java 的大数据可视化在交通拥堵溯源中的应用…

作者头像 李华
网站建设 2026/4/17 22:07:35

【Open-AutoGLM日志权限管控实战】:掌握企业级日志安全的5大核心策略

第一章:Open-AutoGLM日志权限管控的核心意义在构建企业级自动化推理系统时,Open-AutoGLM 的日志系统不仅是运行状态的“黑匣子”,更是安全审计与责任追溯的关键载体。若缺乏严格的权限管控机制,敏感操作日志可能被未授权访问、篡改…

作者头像 李华
网站建设 2026/4/20 5:59:56

紧急通知:Open-AutoGLM访问日志未正确留存将导致审计失败?

第一章:Open-AutoGLM访问日志留存的合规性挑战在人工智能系统日益普及的背景下,Open-AutoGLM作为一款开源自动化语言模型框架,其访问日志的收集与存储面临严峻的合规性挑战。随着《通用数据保护条例》(GDPR)、《个人信…

作者头像 李华
网站建设 2026/4/18 2:16:06

数据迁移项目的测试方案设计与风险控制

一、测试方案设计核心原则 数据迁移测试需遵循完整性覆盖、业务场景优先与自动化支撑三大原则。测试范围应覆盖源数据抽取、转换逻辑、装载规则及目标系统兼容性,同时结合业务价值链确定关键数据优先级。例如金融领域需重点关注客户账户流水与权限映射,…

作者头像 李华
网站建设 2026/4/18 1:39:01

LangFlow robots.txt配置最佳范例

LangFlow robots.txt配置最佳范例 在如今AI应用快速迭代的背景下,越来越多团队开始采用可视化工具来加速大语言模型(LLM)系统的构建。LangFlow 作为 LangChain 生态中炙手可热的图形化开发平台,正被广泛用于原型设计、教学演示和企…

作者头像 李华