推荐开源项目:HTML5-Parser - 高效的Python HTML解析库
from html.parser import HTMLParser
class MyHTMLParser(HTMLParser):
def handle_starttag(self, tag, attrs):
print("Encountered a start tag:", tag)
for attr, value in attrs:
print(" Attribute:", attr, "Value:", value)
# 使用MyHTMLParser解析HTML字符串
html_content = """
<html>
<head>
<title>Test Page</title>
</head>
<body>
<h1>Welcome to My Test Page</h1>
<a href="http://www.example.com">An example link</a>
</body>
</html>
"""
parser = MyHTMLParser()
parser.feed(html_content)
这段代码定义了一个MyHTMLParser
类,它继承自HTMLParser
。我们重写了handle_starttag
方法来处理遇到的每个开始标签,并打印出标签名和属性。然后,我们创建了一个MyHTMLParser
实例,并用一个HTML字符串作为输入进行解析。这个例子展示了如何使用HTMLParser
来进行基本的HTML解析任务。
评论已关闭