Python爬虫:爬虫基本概念、流程及https协议
import requests
# 爬取网页的函数
def crawl_page(url):
try:
response = requests.get(url) # 发送HTTP GET请求
if response.status_code == 200: # 请求成功
return response.text # 返回页面内容
else:
return "Error: " + str(response.status_code)
except requests.exceptions.RequestException as e:
return "Error: " + str(e)
# 使用示例
url = "https://www.example.com"
print(crawl_page(url))
这段代码使用了requests
库来简单地实现了一个HTTP爬虫。函数crawl_page
接收一个URL,尝试获取该URL的内容,并返回页面文本或错误信息。如果请求成功,它会返回页面的文本内容;如果请求失败,它会返回错误信息。这个例子演示了如何使用Python进行简单的HTTPS协议网页爬取。
评论已关闭