python优雅地爬虫
import requests
from bs4 import BeautifulSoup
def get_soup(url):
"""
获取网页内容并返回BeautifulSoup对象
"""
response = requests.get(url)
if response.status_code == 200:
return BeautifulSoup(response.text, 'html.parser')
else:
return None
def extract_news(soup):
"""
从BeautifulSoup对象中提取新闻信息
"""
news_list = soup.find('ul', class_='news-list').find_all('li')
for news in news_list:
title = news.find('a').text
link = news.find('a')['href']
# 输出新闻标题和链接
print(f"标题: {title}\n链接: {link}\n")
url = 'https://www.example.com/news'
soup = get_soup(url)
if soup:
extract_news(soup)
else:
print("网页获取失败")
这个简单的示例展示了如何使用Python的requests库获取网页内容,并使用BeautifulSoup进行解析。然后从解析后的内容中提取新闻列表的标题和链接,并以一种优雅的方式输出。这个例子教会开发者如何结构化地进行网络爬虫,并在实践中展示了如何处理可能的错误。
评论已关闭