Python爬虫urllib的基础使用详解

作者：System 时间：2024年08月07日分类：所有,ajax 字数：792

这篇文章距离上次修改已过484天，其中的内容可能已经有所变动。




import urllib.request
import urllib.parse
 
# 设置用户代理
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
values = {'q': 'query string', 'foo': 'bar'}
 
# 编码查询参数
data = urllib.parse.urlencode(values)
 
# 创建请求对象
request = urllib.request.Request('http://www.example.com/')
 
# 添加用户代理到请求头
request.add_header('User-Agent', user_agent)
 
# 发送数据和构造GET或POST请求
response = urllib.request.urlopen(request, data=data.encode('utf-8'))
 
# 读取响应数据
html = response.read()
 
# 解码响应数据（如果需要）
html = html.decode('utf-8')
 
print(html)

这段代码展示了如何使用urllib库发送一个带有特定查询参数的GET请求。首先，我们设置了用户代理，以模拟浏览器行为。然后，我们使用urlencode方法编码查询参数，并将它们附加到URL上。接着，我们创建一个Request对象，并添加用户代理头。最后，我们使用urlopen函数发送请求，并读取服务器的响应。

Python爬虫urllib的基础使用详解

评论已关闭

推荐阅读