Python 中 HTML 与 XML 处理全解析
1. HTML 解析
在 Python 里,有多种方式可用于解析 HTML 文档,其中HTMLParser与BeautifulSoup较为常用。
1.1 HTMLParser 相关方法
HTMLParser类提供了多个方法来处理 HTML 文档中的不同部分:
-handle_comment(comment):用于处理注释,comment是<!--...-->内去掉分隔符后的字符串,不过HTMLParser对该方法的默认实现不做任何操作。
-handle_data(data):处理任意字符串数据,通常需要在子类中重写该方法,HTMLParser的默认实现也不做处理。
-handle_endtag(tag):处理结束标签,tag是小写的标签字符串,默认实现无操作。
-handle_entityref(ref):处理实体引用&ref;,默认实现无操作。
-handle_starttag(tag, attributes):处理标签,tag是小写的标签字符串,