Pyhon网络爬虫学习笔记—抓取本地网页(一,python程序设计模板
# 导入Python内置的HTML解析库
import html.parser as hp
# 创建一个继承自HTMLParser的类,用于解析HTML
class MyHTMLParser(hp.HTMLParser):
def handle_starttag(self, tag, attrs):
# 打印出遇到的每一个开始标签
print("Encountered a start tag:", tag)
# 实例化自定义的HTML解析类
parser = MyHTMLParser()
# 读取本地HTML文件
with open('example.html', 'r') as file:
data = file.read()
# 使用解析器解析HTML内容
parser.feed(data)
这段代码首先导入了Python内置的HTML解析库html.parser
,然后定义了一个名为MyHTMLParser
的类,继承自HTMLParser
。在这个类中重写了handle_starttag
方法,用于打印出HTML中的每一个开始标签。接着实例化这个类,并使用open
函数读取本地的HTML文件。最后,使用feed
方法将读取的HTML内容交给解析器处理。这个过程展示了如何使用Python内置库进行基本的网络爬虫操作。
评论已关闭