news 2026/6/9 14:18:05

二、01 Python应用-网络爬虫简介

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
二、01 Python应用-网络爬虫简介

这篇网络爬虫简介,主要介绍一下什么是网络爬虫,不同的网页之间有什么区别,又该针对性的如何操作?

预计学习15分钟。


1.什么是网络爬虫?

网络爬虫:自动爬取网页的内容。

2.网页有哪些类型?

①静态网页:在页面初始加载时,就已经完成了数据的请求,因此通过页面的捕捉,就可以获取整个页面的内容;②动态加载的网页:在页面初始加载时,会先获取一些框架数据,之后通过用户的点击(加载更多等操作),或直接调用js来完成主体数据的加载,这类网址在访问时,需要注意主体内容的加载会有一点延迟)

3.不同类型页面的爬取

①静态页面爬取简单,可以获取整个html文本内容,然后使用BeautifulSoup

解析。

import requests from bs4 import BeautifulSoup response=requests.get("http://www.ccgp-henan.gov.cn/henan/list2?pageNo=1&pageSize=16&gglx=2&bz=0",timeout=10) html_content=response.text soup = BeautifulSoup(html_content, 'html.parser') print(soup.text)

然而目前大部分网页都是动态加载数据。

②动态页面爬取。有两种思路,1)通过开发者工具(F12),分析请求的网络地址,以此找到请求主体数据的api(url)、请求方式(get/post)、请求头信息,然后模拟请求,获取的数据可使用json解析,这类示例可以搜慕课爬取。2)可以直接使用模拟浏览器的工具(如selenium)完成数据的爬取(例子下节课讲)。

4.总结

网页的爬取,一定具体问题具体分析。有很多网上提供的爬取案例可能已经不能在正常使用,这可能因为网站已经做了更多的反爬机制,或者回收了api,不要着急,没事多试试。


课后练习

  1. 找几个网页,分析网页的特点,然后选择使用requests、selenium、Scrapy来尝试爬取。并切身体会它们之间的不同。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 14:18:00

TurboPFor在数据库中的应用:列式存储压缩的最佳实践

TurboPFor在数据库中的应用:列式存储压缩的最佳实践 【免费下载链接】TurboPFor-Integer-Compression Fastest Integer Compression 项目地址: https://gitcode.com/gh_mirrors/tu/TurboPFor-Integer-Compression TurboPFor作为一款高性能的整数压缩库&#…

作者头像 李华
网站建设 2026/6/9 14:17:16

思源宋体终极指南:7种免费商用字体完整使用教程

思源宋体终极指南:7种免费商用字体完整使用教程 【免费下载链接】source-han-serif-ttf Source Han Serif TTF 项目地址: https://gitcode.com/gh_mirrors/so/source-han-serif-ttf 还在为商业设计项目寻找高质量中文字体而烦恼吗?Source Han Ser…

作者头像 李华
网站建设 2026/6/9 14:10:57

99个公共Tracker完整指南:如何3分钟解决BT下载缓慢问题

99个公共Tracker完整指南:如何3分钟解决BT下载缓慢问题 【免费下载链接】trackerslist Updated list of public BitTorrent trackers 项目地址: https://gitcode.com/GitHub_Trending/tr/trackerslist 你是否正在为BT下载速度慢如蜗牛而烦恼?看着…

作者头像 李华
网站建设 2026/6/9 14:10:56

终极GTA5游戏辅助菜单:YimMenu完整防护与功能增强指南

终极GTA5游戏辅助菜单:YimMenu完整防护与功能增强指南 【免费下载链接】YimMenu YimMenu, a GTA V menu protecting against a wide ranges of the public crashes and improving the overall experience. 项目地址: https://gitcode.com/GitHub_Trending/yi/YimM…

作者头像 李华
网站建设 2026/6/9 14:10:55

暗黑破坏神2存档修改器终极指南:如何用Diablo Edit2打造完美角色

暗黑破坏神2存档修改器终极指南:如何用Diablo Edit2打造完美角色 【免费下载链接】diablo_edit Diablo II Character editor. 项目地址: https://gitcode.com/gh_mirrors/di/diablo_edit 想要完全掌控你的暗黑破坏神2游戏体验吗?Diablo Edit2是一…

作者头像 李华