爬虫-使用urllib库抓取静态网页数据
import urllib.request
# 要抓取的网页URL
url = 'http://example.com/'
try:
# 使用urllib.request.urlopen()方法打开网页,并读取内容
with urllib.request.urlopen(url) as response:
html = response.read()
# 将读取的内容转换为字符串
html_content = html.decode()
# 打印网页内容
print(html_content)
except urllib.error.URLError as e:
# 如果网页打开出现错误,比如404(未找到)或500(服务器内部错误)等HTTP状态码,则打印错误原因
print(e.reason)
这段代码使用了Python 3的urllib
库来抓取指定URL的静态网页数据。它首先尝试打开并读取网页内容,然后将读取的结果转换为字符串,并打印出来。如果在打开网页时发生错误,它会捕获一个URLError
异常,并打印出错误的原因。
评论已关闭