爬虫-使用urllib库抓取静态网页数据

作者：System 时间：2024年08月23日分类：所有,爬虫字数：588

这篇文章距离上次修改已过680天，其中的内容可能已经有所变动。




import urllib.request
 
# 要抓取的网页URL
url = 'http://example.com/'
 
try:
    # 使用urllib.request.urlopen()方法打开网页，并读取内容
    with urllib.request.urlopen(url) as response:
        html = response.read()
        
        # 将读取的内容转换为字符串
        html_content = html.decode()
        
        # 打印网页内容
        print(html_content)
 
except urllib.error.URLError as e:
    # 如果网页打开出现错误，比如404（未找到）或500（服务器内部错误）等HTTP状态码，则打印错误原因
    print(e.reason)

这段代码使用了Python 3的urllib库来抓取指定URL的静态网页数据。它首先尝试打开并读取网页内容，然后将读取的结果转换为字符串，并打印出来。如果在打开网页时发生错误，它会捕获一个URLError异常，并打印出错误的原因。

爬虫-使用urllib库抓取静态网页数据

评论已关闭

推荐阅读