news 2026/4/16 3:09:48

Python爬虫完整代码拿走不谢

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Python爬虫完整代码拿走不谢

对于新手做Python爬虫来说是有点难处的,前期练习的时候可以直接套用模板,这样省时省力还很方便。

使用Python爬取某网站的相关数据,并保存到同目录下Excel。

直接上代码:

import re import urllib.error import urllib.request import xlwt from bs4 import BeautifulSoup def main(): baseurl ="http://jshk.com.cn" datelist = getDate(baseurl) savepath=".\jshk.xls" saveDate(datelist,savepath) # askURL("http://jshk.com.cn/") findlink = re.compile(r'<a href="(.*?)">') findimg = re.compile(r'<img.*src="(.*?)"',re.S) findtitle = re.compile(r'<span class="title">(.*)</span') findrating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span') findjudge = re.compile(r'<span>(d*)人评价</span>') findinq= re.compile(r'<span class="inq">(.*)</span>') def getDate(baseurl): datalist =[] for i in range(0,10): url=baseurl+str(i*25) html=askURL(url) soup = BeautifulSoup(html,"html.parser") for item in soup.find_all('div',class_="item"): data = [] item = str(item) link = re.findall(findlink,item)[0] data.append(link) img=re.findall(findimg,item)[0] data.append(img) title=re.findall(findtitle,item)[0] rating=re.findall(findrating,item)[0] data.append(rating) judge=re.findall(findjudge,item)[0] data.append(judge) inq=re.findall(findinq,item) if len(inq)!=0: inq=inq[0].replace("。","") data.append(inq) else: data.append(" ") print(data) datalist.append(data) print(datalist) return datalist def askURL(url): head = { "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36"} request=urllib.request.Request(url,headers=head) html="" try: response=urllib.request.urlopen(request) html=response.read().decode("utf-8") # print(html) except urllib.error.URLError as e: if hasattr(e,"code"): print(e.code) if hasattr(e,"reason"): print(e.reason) return html def saveDate(datalist,savepath): workbook = xlwt.Workbook(encoding='utf-8') worksheet = workbook.add_sheet('电影',cell_overwrite_ok=True) col =("电影详情","图片","影片","评分","评价数","概况") for i in range(0,5): worksheet.write(0,i,col[i]) for i in range(0,250): print("第%d条" %(i+1)) data=datalist[i] for j in range(0,5): worksheet.write(i+1,j,data[j]) workbook.save(savepath) if __name__ == '__main__': main() print("爬取完毕")

直接复制粘贴就行。

若要更改爬取网站,则需要更改URL以及相应的html格式(代码中的“item”)。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 22:44:08

无线网络仿真:5G网络仿真_(3).5G关键技术和性能指标

5G关键技术和性能指标 1. 大规模MIMO技术 1.1 原理 大规模MIMO&#xff08;Multiple-Input Multiple-Output&#xff09;技术是5G网络中的一项重要技术&#xff0c;通过在基站和用户设备上部署大量的天线&#xff0c;可以显著提升无线通信系统的容量和频谱效率。大规模MIMO技术…

作者头像 李华
网站建设 2026/4/16 1:33:13

基于STM32的LCD12864显示控制实战案例

从零构建STM32驱动LCD12864的完整实践&#xff1a;不只是“点亮屏幕”你有没有遇到过这样的场景&#xff1f;项目需要一个显示界面&#xff0c;但TFT彩屏成本太高、功耗太大&#xff0c;而OLED在强光下又看不清。这时候&#xff0c;一块黑白点阵液晶屏——尤其是那块熟悉的LCD1…

作者头像 李华
网站建设 2026/4/11 20:28:35

Java Web 教学资源库系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

&#x1f4a1;实话实说&#xff1a;有自己的项目库存&#xff0c;不需要找别人拿货再加价&#xff0c;所以能给到超低价格。摘要 随着信息技术的快速发展&#xff0c;教育领域对数字化教学资源的需求日益增长。传统的教学资源管理方式存在资源分散、检索效率低、共享困难等问题…

作者头像 李华
网站建设 2026/4/3 3:26:35

JLink仿真器使用教程:超详细版烧录步骤解析

JLink仿真器实战指南&#xff1a;从零开始掌握高速烧录与深度调试你有没有遇到过这样的场景&#xff1f;项目临近交付&#xff0c;固件反复出问题&#xff0c;但串口打印日志慢得像“挤牙膏”&#xff0c;断点调试根本用不了。想改个参数还得重新编译、下载、重启——一天下来只…

作者头像 李华
网站建设 2026/4/11 20:36:46

Keil5开发环境搭建:手把手教程(从零配置)

Keil5开发环境搭建&#xff1a;从零开始的实战指南你有没有过这样的经历&#xff1f;买了一块崭新的STM32开发板&#xff0c;兴致勃勃地打开电脑准备“点灯”&#xff0c;结果卡在第一步——Keil打不开、编译报错一堆、下载程序失败……最后只能对着闪烁的ST-Link指示灯发呆。别…

作者头像 李华
网站建设 2026/4/15 23:08:24

当储能系统遇上代码:聊聊那些藏在电池里的“平衡术

储能逆变器&#xff0c;储能系统&#xff0c;soc均衡控制&#xff0c;soc均衡&#xff0c;蓄电池充放电控制&#xff0c;电动汽车充电桩控制&#xff0c;充电桩模拟 根据您提供的一段话&#xff0c;我重新表述如下&#xff1a;"储能逆变器是一种用于储能系统的设备&#x…

作者头像 李华