9.网络爬虫—理解并利用Cookie进行高级网页抓取
import requests
# 定义一个函数来发送带有Cookie的HTTP请求
def send_request_with_cookie(url, cookie):
headers = {
'User-Agent': 'your-user-agent',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
'Connection': 'keep-alive',
'Upgrade-Insecure-Requests': '1',
}
response = requests.get(url, headers=headers, cookies=cookie)
return response
# 示例URL和Cookie
example_url = 'http://www.example.com'
example_cookie = {'example_cookie_key': 'example_cookie_value'}
# 发送请求并获取响应
response = send_request_with_cookie(example_url, example_cookie)
# 打印响应内容
print(response.text)
这段代码定义了一个send_request_with_cookie
函数,它接受一个URL和一个Cookie字典,然后使用requests.get
方法发送一个带有这些Cookie的HTTP GET请求。这个函数可以用来抓取需要登录或者带有特定Cookie认证的网页。在这个例子中,我们假设example_cookie
是从之前的登录过程中获取的,并且已经知道了如何获取Cookie。
评论已关闭