认识爬虫:提取网站 cookie 信息,并使用 cookie 信息实现登录
import requests
# 定义一个函数来登录网站
def login_to_website(login_url, session, headers, login_data):
response = session.post(login_url, headers=headers, data=login_data)
print(f"登录结果: {response.status_code}")
# 定义一个函数来提取网站的cookies
def extract_cookies(session, url):
response = session.get(url)
for cookie in response.cookies:
print(f"{cookie.name} = {cookie.value}")
# 初始化requests会话
session = requests.session()
# 目标网站的登录URL
login_url = "http://example.com/login"
# 用户提供的headers和登录数据
headers = {
"User-Agent": "Mozilla/5.0",
# 其他需要的headers
}
login_data = {
"username": "user",
"password": "pass"
# 其他登录所需的数据
}
# 进行登录
login_to_website(login_url, session, headers, login_data)
# 提取并打印cookies
extract_cookies_url = "http://example.com"
extract_cookies(session, extract_cookies_url)
这段代码首先定义了两个函数,一个用于登录网站,另一个用于提取和打印网站的cookies。然后,它使用requests库初始化了一个会话对象,并使用这个会话对象来模拟登录,并获取登录后的cookies。最后,它打印出了提取到的cookies。这个例子展示了如何使用Python的requests库来进行基本的网络爬虫工作。
评论已关闭