001基于Python网站爬虫的设计与实现
import requests
from bs4 import BeautifulSoup
# 发送HTTP请求获取网页内容
def get_html(url):
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
return None
except requests.RequestException:
return None
# 解析网页并提取所需数据
def parse_html(html):
soup = BeautifulSoup(html, 'html.parser')
# 假设我们要提取所有的段落文本
paragraphs = soup.find_all('p')
return [p.get_text() for p in paragraphs]
# 主函数,组装URL并调用函数获取和解析数据
def main():
url = 'http://example.com' # 替换为你要爬取的网站
html = get_html(url)
if html:
paragraphs = parse_html(html)
for p in paragraphs:
print(p)
else:
print("Failed to retrieve the webpage content.")
if __name__ == '__main__':
main()
这个简单的Python爬虫示例展示了如何使用requests库获取网页内容,并使用BeautifulSoup进行解析。这个例子假设我们要提取段落文本,并打印输出。在实际应用中,你需要根据目标网站的结构和你需要抓取的数据进行相应的调整。
评论已关闭