news 2026/5/3 21:29:25

【BUG】【Python】【爬虫】爬取加载中的数据

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【BUG】【Python】【爬虫】爬取加载中的数据

示例网页链接:https://movie.douban.com/subject/36907263/

BUG

浏览器开发者模式可以看到所需信息有对应的HTML显式结构

但代码爬取时发现结构被hidden,需要二次加载

importrequests url='https://movie.douban.com/subject/36907263/'headers={'User-Agent':'Mozilla/5.0'}response=requests.get(url,headers=headers)print(response.text)


即便使用selenium将修改type属性,让其不隐藏,再取出被隐藏的数据,也不行

fromseleniumimportwebdriver driver=webdriver.Chrome()driver.get('https://movie.douban.com/subject/36907263/')js="document.getElementById('red').type='text';"driver.execute_script(js)content=driver.find_element(by='id',value='red').textprint(content)driver.quit()



其实我觉得这个逻辑是对的,但结果非预期,求助是不是哪块代码没写对? T^T 想打印下修改后的HTML也没打印出来 o(╥﹏╥)o

DEBUG

Selenium 的核心功能是模拟用户在浏览器中的操作,所以只需要增加等待时间,等待页面全部加载出来即可。加载后的页面就是我们在浏览器开发者模式下看到的全部HTML结构。

fromseleniumimportwebdriverimporttime driver=webdriver.Chrome()driver.get('https://movie.douban.com/subject/36907263/')time.sleep(5)# 等待页面加载content=driver.find_element(by='id',value='info').textprint(content)driver.quit()


注意加载后要找的就是加载后的数据,即id=info,不再是之前的id=red。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 10:23:13

Flutter for OpenHarmony 剧本杀组队App实战22:快速匹配功能实现

引言 快速匹配功能帮助用户自动寻找合适的队伍,无需手动浏览组队列表。本篇将实现带有匹配动画的快速匹配页面。快速匹配是现代社交应用的重要功能,通过算法自动配对用户,大大提升了用户体验和应用的活跃度。这个功能特别适合剧本杀组队场景…

作者头像 李华
网站建设 2026/5/1 8:05:52

云端VS本地 RFID资产管理系统怎么选?优缺点大揭秘

一、开篇:资产 “迷路”?RFID 系统部署抉择是关键 1.1 传统资产管理的 “老大难” 痛点 家人们,在企业的日常运营里,资产管理要是没做好,那可真是麻烦不断!就说传统的人工盘点方式,简直就是一…

作者头像 李华
网站建设 2026/4/20 13:41:26

大模型应用文本理解OpenAI使用入门篇

前言 本文介绍使用OpenAI完成特定文本理解任务。 构建环境 本地安装Ollama或通过阿里云百炼平台获取API_KEY ,https://bailian.console.aliyun.com/cn-beijing/?spma2c4g.11186623.0.0.2dab6323kanAoF&tabmodel#/api-key,配置到环境变量中后需要重启电脑生效。…

作者头像 李华
网站建设 2026/4/25 8:48:35

信号处理仿真:滤波器设计与仿真_18.实时信号处理仿真

18. 实时信号处理仿真 18.1 实时信号处理的基本概念 实时信号处理是指在信号采集或生成的同时进行处理,以满足特定的时延要求。在许多应用中,如通信系统、音频处理、视频处理等,实时处理是必不可少的。实时信号处理的关键在于系统能够在限定…

作者头像 李华
网站建设 2026/5/2 13:14:23

大厂迷思:为什么顶级工程师会产出难以维护的代码

当你终于通过几轮严苛的技术面试,加入一家享有盛誉的大型科技公司时,往往会对即将接触的代码库抱有极高的期待。你想象着整洁的架构、清晰的文档以及如教科书般完美的逻辑实现。然而现实往往极具冲击力:你所看到的可能是一个由无数补丁堆叠、…

作者头像 李华