探索Python Crawler:高效的数据抓取利器
import requests
from bs4 import BeautifulSoup
def crawl_data(url):
"""
从指定的url抓取数据
"""
response = requests.get(url)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
# 假设我们要抓取的数据在<div id="content"></div>内
content = soup.find('div', {'id': 'content'})
if content:
return content.get_text()
return "Failed to crawl data"
# 使用方法
url = "http://example.com"
print(crawl_data(url))
这段代码展示了如何使用Python的requests库和BeautifulSoup库来简单地抓取网页上的数据。函数crawl_data
接收一个URL,向该URL发送HTTP GET请求,并使用BeautifulSoup解析返回的页面。然后它会尝试找到一个特定的HTML元素(这里是一个id为"content"的div标签),并返回该元素的文本内容。如果抓取失败,则返回一个错误消息。
评论已关闭