认识爬虫:如何使用 requests 模块模拟浏览器请求爬取网页信息?
import requests
def fetch_url(url):
"""
使用 requests 模块发送 GET 请求,获取网页内容
:param url: 需要获取内容的网页URL
:return: 网页内容
"""
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
return "Error: 状态码不是200"
except requests.exceptions.RequestException:
return "Error: 请求发生异常"
# 示例使用
url = "http://example.com"
print(fetch_url(url))
这段代码定义了一个名为 fetch_url
的函数,它接受一个 URL 作为参数,使用 requests.get
方法发送一个 GET 请求,然后检查响应状态码,如果是 200,则返回网页内容。如果状态码不是 200,或者发生异常,它将返回一个错误信息。这个简单的函数展示了如何使用 requests
模块来进行基本的网络爬取。
评论已关闭