news 2026/5/14 8:14:07

Python 去除 HTML 标签获取纯文本

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Python 去除 HTML 标签获取纯文本

方法1:使用 BeautifulSoup(推荐)

frombs4importBeautifulSoup html="<p>Hello <b>World</b>! <a href='#'>Click</a></p>"soup=BeautifulSoup(html,'html.parser')text=soup.get_text()print(text)# Hello World! Click

方法2:使用正则表达式(简单场景)

importre html="<p>Hello <b>World</b>! <a href='#'>Click</a></p>"text=re.sub(r'<[^>]+>','',html)print(text)# Hello World! Click

方法3:使用 html.parser(标准库)

fromhtml.parserimportHTMLParserclassMyHTMLParser(HTMLParser):def__init__(self):super().__init__()self.text=[]defhandle_data(self,data):self.text.append(data)defget_text(self):return''.join(self.text)html="<p>Hello <b>World</b>!</p>"parser=MyHTMLParser()parser.feed(html)print(parser.get_text())# Hello World!

方法4:使用 lxml(性能最好)

fromlxmlimporthtml html_str="<p>Hello <b>World</b>!</p>"tree=html.fromstring(html_str)text=tree.text_content()print(text)# Hello World!

📊 对比

方法优点缺点
BeautifulSoup简单易用,容错强需要安装第三方库
正则无需安装,速度快复杂HTML可能出错
html.parser标准库,无需安装代码稍多
lxml速度最快,功能强大需要安装C库

推荐:一般用BeautifulSoup,简单场景用正则

pipinstallbeautifulsoup4 lxml
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/14 8:02:13

三月七小助手:5分钟解放双手的星穹铁道自动化神器

三月七小助手&#xff1a;5分钟解放双手的星穹铁道自动化神器 【免费下载链接】March7thAssistant 崩坏&#xff1a;星穹铁道全自动 三月七小助手 项目地址: https://gitcode.com/gh_mirrors/ma/March7thAssistant 还在为《崩坏&#xff1a;星穹铁道》中重复的日常任务感…

作者头像 李华
网站建设 2026/5/14 8:01:33

5分钟掌握RePKG:Wallpaper Engine资源提取与格式转换的终极秘籍

5分钟掌握RePKG&#xff1a;Wallpaper Engine资源提取与格式转换的终极秘籍 【免费下载链接】repkg Wallpaper engine PKG extractor/TEX to image converter 项目地址: https://gitcode.com/gh_mirrors/re/repkg 你是否曾经面对Wallpaper Engine中的PKG资源包感到无从下…

作者头像 李华
网站建设 2026/5/14 7:58:05

第三辑:gptimage2.0生成旅游攻略 + 五张「没试过」的模板

文章目录一、香港 三日轻松游二、澳门 三日慢游三、深圳 三日活力行四、洗涤标志说明卡五、博物版画 高山杜鹃六、一菜流程图 番茄鸡蛋面七、虚构城市轨道交通图八、十二色色环 互补关系一、香港 三日轻松游 &#x1f4dd; 查看完整 Prompt 三日攻略信息图 香港 Gene…

作者头像 李华
网站建设 2026/5/14 7:57:09

Hadoop开发环境搭建

第1关&#xff1a;配置开发环境 - JavaJDK的配置解题思路mkdir /app cd /opt tar -zxvf jdk-8u171-linux-x64.tar.gz mv jdk1.8.0_171/ /app vim /etc/profile JAVA_HOME/app/jdk1.8.0_171 CLASSPATH.:$JAVA_HOME/lib/tools.jar PATH$JAVA_HOME/bin:$PATH export JAVA_HOME CLA…

作者头像 李华
网站建设 2026/5/14 7:57:06

010-Self-Attention

Self-Attention 机制&#xff1a;让 AI 真正理解上下文的"核心引擎"&#x1f4a1; 摘要&#xff1a;Self-Attention&#xff08;自注意力&#xff09;是 Transformer 的"心脏"&#xff0c;它通过 QKV 机制让序列中的每个词都能与其他词直接"对话"…

作者头像 李华