工具篇:01用python的request爬虫
warning:
这篇文章距离上次修改已过187天,其中的内容可能已经有所变动。
使用Python的requests库进行网络爬虫是一种常见的做法。以下是一个简单的例子,展示如何使用requests库来获取网页内容。
首先,你需要安装requests库(如果你还没有安装的话):
pip install requests
然后,你可以使用以下代码来爬取一个网页:
import requests
url = 'http://example.com' # 替换为你想爬取的网页地址
response = requests.get(url)
if response.status_code == 200:
print(response.text) # 打印网页内容
else:
print(f"Failed to retrieve the webpage: Status code {response.status_code}")
这段代码会发送一个HTTP GET请求到指定的URL,并打印出网页的内容。如果请求成功,response.text
将包含网页的HTML内容。如果请求失败,它会打印出HTTP状态码。
注意,过度频繁或者对某一服务器不断发起请求可能会触发反爬机制,导致被封禁IP。因此,爬虫应遵守相关法律法规,并尊重网站的robots.txt文件中的规定。
评论已关闭