使用proxy_pool来为爬虫程序自动更换代理IP | 开源IP代理
warning:
这篇文章距离上次修改已过190天,其中的内容可能已经有所变动。
import requests
from proxy_pool import ProxyPool
# 初始化代理池
proxy_pool = ProxyPool(
db_host='localhost',
db_port=27017,
db='proxypool',
db_username='',
db_password='',
)
# 获取代理
def get_proxy():
return proxy_pool.get_random_proxy()
# 使用代理发送请求
def send_request(url, method='GET', **kwargs):
proxy = get_proxy()
proxies = {'http': 'http://' + proxy, 'https': 'https://' + proxy}
response = requests.request(method, url, proxies=proxies, **kwargs)
return response
# 示例:使用代理发送请求获取Google首页的内容
url = 'http://google.com'
response = send_request(url)
print(response.text)
这段代码展示了如何使用proxy_pool
库来获取代理,并将其应用到requests
库的请求中。首先初始化了代理池,然后定义了一个获取随机代理的函数get_proxy
。send_request
函数接受一个URL和请求方法,使用获取到的代理发送请求,并返回响应。最后,我们用一个示例来获取Google首页的内容。这个例子简单明了地展示了如何在爬虫程序中使用代理,提高数据抓取的效率和安全性。
评论已关闭