Scrapy框架实战：从零开始搭建你的第一个爬虫项目（附完整流程图解析）-洪萨配资

Scrapy框架实战：从零开始搭建你的第一个爬虫项目

第一次接触Scrapy时，我被它强大的异步处理能力和清晰的架构设计所震撼。作为一个Python开发者，你可能已经尝试过用requests+BeautifulSoup的组合来抓取网页数据，但当面对大规模、复杂的爬取任务时，这种简单组合很快就会显得力不从心。Scrapy框架正是为解决这些问题而生，它提供了一套完整的解决方案，让你能够专注于数据提取逻辑，而不用操心请求调度、并发控制、异常处理等底层细节。

1. 环境准备与项目创建

在开始之前，确保你的开发环境满足以下要求：

Python 3.6或更高版本
pip包管理工具
虚拟环境（推荐但不强制）

安装Scrapy非常简单，只需一条命令：

pip install scrapy

验证安装是否成功：

scrapy version

如果看到版本号输出（如Scrapy 2.6.1），说明安装成功。接下来，让我们创建一个Scrapy项目：

scrapy startproject myproject

这个命令会生成一个标准的Scrapy项目结构：

myproject/ scrapy.cfg # 部署配置文件 myproject/ # 项目Python模块 __init__.py items.py # 项目项定义文件 middlewares.py # 中间件文件 pipelines.py # 项目管道文件 settings.py # 项目设置文件 spiders/ # 爬虫目录 __init__.py

提示：建议在虚拟环境中进行开发，避免包依赖冲突。可以使用python -m venv venv创建虚拟环境。

2. 理解Scrapy的核心架构

Scrapy的架构设计是其强大功能的基础。让我们深入理解它的核心组件及其交互方式：

2.1 主要组件解析

引擎(Engine)：控制所有组件之间的数据流，是整个框架的中枢神经系统
调度器(Scheduler)：接收引擎发来的请求，排队等待调度
下载器(Downloader)：负责获取网页内容并返回给引擎
爬虫(Spiders)：用户自定义的类，用于解析响应和提取数据
项目管道(Item Pipeline)：处理爬虫提取的数据（清洗、验证、存储等）
下载器中间件(Downloader Middlewares)：处理引擎和下载器之间的请求和响应
爬虫中间件(Spider Middlewares)：处理引擎和爬虫之间的输入和输出

2.2 数据流工作流程

Scrapy的数据流遵循以下顺序：

爬虫生成初始请求并提交给引擎
引擎将请求发送给调度器进行排队
调度器将排好序的请求返回给引擎
引擎通过下载器中间件将请求发送给下载器
下载器获取响应并通过下载器中间件返回给引擎
引擎将响应发送给爬虫进行处理
爬虫解析响应，可能产生新的请求或项目(item)
新的请求会回到步骤2，项目则被发送到项目管道
这个过程持续进行，直到没有更多的请求需要处理

# 典型爬虫类的基本结构示例 import scrapy class MySpider(scrapy.Spider): name = 'myspider' def start_requests(self): urls = ['http://example.com'] for url in urls: yield scrapy.Request(url=url, callback=self.parse) def parse(self, response): # 解析响应并提取数据的逻辑 pass

3. 编写第一个爬虫

现在，让我们动手编写一个实际的爬虫。假设我们要抓取一个图书网站的标题和价格信息。

3.1 定义项目(Item)

首先，在items.py中定义我们要抓取的数据结构：

import scrapy class BookItem(scrapy.Item): title = scrapy.Field() price = scrapy.Field() availability = scrapy.Field() rating = scrapy.Field()

3.2 创建爬虫

使用以下命令生成爬虫骨架：

scrapy genspider books books.toscrape.com

这会在spiders目录下创建一个名为books.py的文件。让我们修改它：

import scrapy from myproject.items import BookItem class BooksSpider(scrapy.Spider): name = 'books' allowed_domains = ['books.toscrape.com'] start_urls = ['http://books.toscrape.com/'] def parse(self, response): for book in response.css('article.product_pod'): item = BookItem() item['title'] = book.css('h3 a::attr(title)').get() item['price'] = book.css('div.product_price p.price_color::text').get() yield item next_page = response.css('li.next a::attr(href)').get() if next_page: yield response.follow(next_page, callback=self.parse)

3.3 解析技术详解

上面的代码使用了CSS选择器来提取数据，Scrapy也支持XPath表达式。以下是两种方式的对比：

提取需求	CSS选择器	XPath表达式
获取标题属性	`h3 a::attr(title)`	`.//h3/a/@title`
获取价格文本	`p.price_color::text`	`.//p[@class="price_color"]/text()`
获取下一页链接	`li.next a::attr(href)`	`.//li[@class="next"]/a/@href`

注意：在实际项目中，建议统一使用一种选择器语法以保持代码一致性。CSS选择器通常更简洁易读，而XPath在处理复杂文档结构时更强大。

4. 数据处理与存储

抓取到的数据通常需要经过清洗和存储。Scrapy提供了强大的管道(Pipeline)系统来处理这些需求。

4.1 配置项目管道

在settings.py中启用管道：

ITEM_PIPELINES = { 'myproject.pipelines.BookPipeline': 300, }

数字300表示管道的优先级，数值越小优先级越高。

4.2 实现数据处理管道

在pipelines.py中添加数据处理逻辑：

import json from itemadapter import ItemAdapter class BookPipeline: def open_spider(self, spider): self.file = open('books.json', 'w', encoding='utf-8') self.file.write('[\n') self.first_item = True def close_spider(self, spider): self.file.write('\n]') self.file.close() def process_item(self, item, spider): line = json.dumps(dict(item), ensure_ascii=False) if not self.first_item: line = ',\n' + line else: self.first_item = False self.file.write(line) return item

4.3 数据存储选项

Scrapy支持多种数据存储格式，可以通过命令行直接输出：

格式	命令示例	特点
JSON	`scrapy crawl books -o books.json`	易读，支持结构化数据
JSON Lines	`scrapy crawl books -o books.jl`	每行一个JSON对象，适合大数据
CSV	`scrapy crawl books -o books.csv`	表格格式，可用Excel打开
XML	`scrapy crawl books -o books.xml`	结构化标记语言

对于更复杂的存储需求（如数据库），可以在管道中实现相应的逻辑。以下是MySQL存储的示例：

import pymysql class MySQLPipeline: def __init__(self): self.conn = pymysql.connect( host='localhost', user='user', password='password', db='books_db', charset='utf8mb4' ) self.cursor = self.conn.cursor() def process_item(self, item, spider): sql = """ INSERT INTO books (title, price) VALUES (%s, %s) """ self.cursor.execute(sql, (item['title'], item['price'])) self.conn.commit() return item def close_spider(self, spider): self.conn.close()

5. 高级配置与优化

当爬虫项目变得复杂时，合理的配置和优化变得尤为重要。

5.1 常用配置项

在settings.py中，以下配置值得关注：

# 并发请求数 CONCURRENT_REQUESTS = 16 # 下载延迟(秒) DOWNLOAD_DELAY = 0.5 # 自动限速扩展 AUTOTHROTTLE_ENABLED = True AUTOTHROTTLE_START_DELAY = 5 AUTOTHROTTLE_MAX_DELAY = 60 # 用户代理设置 USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36' # 遵守robots.txt规则 ROBOTSTXT_OBEY = True # Cookie处理 COOKIES_ENABLED = False

5.2 中间件使用示例

中间件是Scrapy的强大扩展机制。以下是一个随机User-Agent中间件的实现：

from scrapy import signals import random class RandomUserAgentMiddleware: user_agents = [ 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)', 'Mozilla/5.0 (Linux; Android 10; SM-G960U)' ] def process_request(self, request, spider): request.headers['User-Agent'] = random.choice(self.user_agents)

在settings.py中启用它：

DOWNLOADER_MIDDLEWARES = { 'myproject.middlewares.RandomUserAgentMiddleware': 400, }

5.3 调试技巧

当爬虫不按预期工作时，以下技巧可能有用：

使用Scrapy shell：
```
scrapy shell 'http://books.toscrape.com'
```
这是一个交互式环境，可以快速测试选择器
日志记录：在settings.py中设置：
```
LOG_LEVEL = 'DEBUG'
```

导出请求和响应：使用-s选项保存请求和响应：

scrapy crawl books -s CLOSESPIDER_ITEMCOUNT=10 -s JOBDIR=crawls/books

6. 实战：处理复杂场景

真实世界的网站往往比我们的示例复杂得多。让我们看看如何处理一些常见挑战。

6.1 登录与表单提交

许多网站需要登录才能访问数据。Scrapy提供了FormRequest类来处理这种情况：

def parse(self, response): return scrapy.FormRequest.from_response( response, formdata={'username': 'user', 'password': 'pass'}, callback=self.after_login ) def after_login(self, response): # 检查登录是否成功 if "authentication failed" in response.text: self.logger.error("Login failed") return # 继续爬取

6.2 处理JavaScript渲染的内容

对于动态加载的内容，可以使用Splash或Selenium中间件：

class JSSpider(scrapy.Spider): name = 'js' def start_requests(self): url = 'http://example.com' yield scrapy.Request(url, self.parse, meta={ 'splash': { 'args': {'wait': 5}, 'endpoint': 'render.html' } }) def parse(self, response): # 处理渲染后的页面 pass

6.3 分布式爬取

对于大规模爬取任务，可以使用Scrapy-Redis实现分布式：

安装Scrapy-Redis：
```
pip install scrapy-redis
```

修改settings.py：

SCHEDULER = "scrapy_redis.scheduler.Scheduler" DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" REDIS_URL = 'redis://localhost:6379'

修改爬虫继承RedisSpider：

from scrapy_redis.spiders import RedisSpider class MyDistributedSpider(RedisSpider): name = 'distributed' redis_key = 'myspider:start_urls'

7. 最佳实践与常见陷阱

在长期使用Scrapy的过程中，我总结了一些经验教训：

尊重网站规则：
- 设置合理的DOWNLOAD_DELAY
- 遵守robots.txt
- 使用缓存避免重复请求

错误处理：

def parse(self, response): try: # 解析逻辑 except Exception as e: yield { 'url': response.url, 'error': str(e) }

性能优化：
- 使用CONCURRENT_REQUESTS_PER_DOMAIN限制对单个域名的并发
- 启用AUTOTHROTTLE自动调整爬取速度
- 使用HTTPCACHE_ENABLED缓存响应
维护性建议：
- 为每个爬虫编写详细的文档字符串
- 使用ItemLoader标准化数据处理
- 将配置参数化，便于在不同环境运行

# ItemLoader使用示例 from scrapy.loader import ItemLoader from myproject.items import BookItem def parse(self, response): loader = ItemLoader(item=BookItem(), response=response) loader.add_css('title', 'h3 a::attr(title)') loader.add_css('price', 'p.price_color::text') yield loader.load_item()

在实际项目中，我发现最常遇到的问题不是技术实现，而是如何设计可维护、可扩展的爬虫架构。将业务逻辑与爬取逻辑分离，使用中间件处理通用功能，以及建立完善的监控系统，这些都是确保爬虫长期稳定运行的关键。