【Python3网络爬虫开发实战】 2.3-爬虫的基本原理
爬虫的基本原理是通过模拟人的网络行为(如打开链接、提交表单等),自动下载网络上的内容。以下是一个简单的爬虫示例,使用Python的requests库来下载网页内容。
import requests
def download_website_content(url):
try:
response = requests.get(url) # 发送HTTP GET请求
if response.status_code == 200: # 请求成功
return response.text # 返回网页内容
else:
return "Failed to retrieve the webpage"
except requests.exceptions.RequestException:
return "Failed to connect to the server"
url = "http://example.com" # 替换为你想爬取的网址
print(download_website_content(url))
这段代码定义了一个函数download_website_content
,它接受一个URL作为参数,使用requests库发送一个GET请求,并返回下载的内容。如果请求失败,它将打印出错误信息。这是爬虫最基本的工作方式。
评论已关闭