news 2025/12/28 18:50:22

Python 3.10.5使用lxml库的xpath用法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Python 3.10.5使用lxml库的xpath用法

网上的都太旧了,所以把这个能用的给发出来了

""" 1.导入lxml 2.将获取到的网页内容转换为xml 3.通过Xpath来定位和解析页面中的内容 """ from lxml import html import re # 读取 HTML 文件 with open("douban.html", "r", encoding="utf-8") as f: page = f.read() # 解析 HTML tree = html.fromstring(page) # 先构建解析树(Element对象) titles=tree.xpath("//*[@class='title'][1]/text()") # 解析树调用xpath,正确! print(titles) rating_num=tree.xpath("//*[@class='rating_num'][1]/text()") print(rating_num) year=tree.xpath('//*[@id="content"]/div/div[1]/ol/li[3]/div/div[2]/div[2]/p[1]/text()') for item in year: # print(item.strip().search("")) numbers = re.findall(r'\d+', item.strip()) print(numbers) print("******************************") #定位到包含所有数据内容的元素 data_list=tree.xpath('//ol/li') #对定位到包含所有元素的列表便可遍历,得到包含单条数据的元素 for i in data_list: #提取单条数据中的详细内容 titles=i.xpath(".//span[@class='title'][1]/text()") score=i.xpath(".//span[@class='rating_num'][1]/text()") number=i.xpath(".//div/div[2]/div[2]/div/span[4]/text()") print('电影的名称',titles[0],score[0],'评价人数',number[0])
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/20 2:46:51

25、电脑使用的家庭安全与无障碍功能指南

电脑使用的家庭安全与无障碍功能指南 在当今数字化的时代,电脑已经成为了我们生活中不可或缺的一部分。无论是家长希望保障孩子的上网安全,还是有特殊需求的用户需要更便捷地使用电脑,都有相应的解决方案。本文将详细介绍家庭安全设置以及电脑的无障碍访问功能。 家庭安全…

作者头像 李华
网站建设 2025/12/21 11:20:59

Langchain-Chatchat结合ClickHouse实现日志分析

Langchain-Chatchat 结合 ClickHouse 实现日志分析 在现代企业 IT 环境中,每天产生的日志数据动辄数 GB 甚至 TB 级别。从微服务调用链、数据库慢查询到安全审计事件,这些日志本应是运维决策的“金矿”,但现实中却常常因为格式混乱、存储分散…

作者头像 李华
网站建设 2025/12/22 3:34:16

Langchain-Chatchat构建景区导览智能问答系统实例

基于 Langchain-Chatchat 的景区导览智能问答系统构建实践 在智慧旅游快速发展的今天,游客不再满足于千篇一律的语音讲解或静态展板信息。他们更希望用最自然的方式——“问一句”,就能立刻获得关于门票政策、路线推荐、设施位置等个性化答案。然而&…

作者头像 李华
网站建设 2025/12/21 16:22:40

Langchain-Chatchat如何设置知识库访问白名单?

Langchain-Chatchat 如何实现知识库访问的精细化控制? 在企业加速推进数字化转型的今天,AI问答系统早已不再是“能不能用”的问题,而是“敢不敢用”的挑战。尤其在金融、医疗、法律等高敏感行业,哪怕是最智能的模型,一…

作者头像 李华
网站建设 2025/12/22 7:02:27

基于springboot的智能医院挂号系统(源码+论文+部署+安装)

感兴趣的可以先收藏起来,还有在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,我会一一回复,希望可以帮到大家。1. 程序背景传统医院挂号方式存在效率低下、用户体验差等问题,如患者需现场长时间排队&#x…

作者头像 李华
网站建设 2025/12/21 15:19:23

职场精英转变乐龄学员,红松小课为退休时光加“趣”

退休,对许多人而言意味着职业生涯的句点,但对另一群人来说,却可能是探索人生新领域的起点。在红松小课这个专注于服务中老年的线上兴趣学习平台,我们看到了越来越多退休人士打破年龄局限,勇敢跨界,在全新的…

作者头像 李华