Python爬虫urllib的基础使用详解
import urllib.request
import urllib.parse
# 设置用户代理
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
values = {'q': 'query string', 'foo': 'bar'}
# 编码查询参数
data = urllib.parse.urlencode(values)
# 创建请求对象
request = urllib.request.Request('http://www.example.com/')
# 添加用户代理到请求头
request.add_header('User-Agent', user_agent)
# 发送数据和构造GET或POST请求
response = urllib.request.urlopen(request, data=data.encode('utf-8'))
# 读取响应数据
html = response.read()
# 解码响应数据(如果需要)
html = html.decode('utf-8')
print(html)
这段代码展示了如何使用urllib
库发送一个带有特定查询参数的GET请求。首先,我们设置了用户代理,以模拟浏览器行为。然后,我们使用urlencode
方法编码查询参数,并将它们附加到URL上。接着,我们创建一个Request
对象,并添加用户代理头。最后,我们使用urlopen
函数发送请求,并读取服务器的响应。
评论已关闭