基于Python的网络爬虫设计与实现
warning:
这篇文章距离上次修改已过190天,其中的内容可能已经有所变动。
import requests
from bs4 import BeautifulSoup
def download_webpage(url):
"""下载指定URL的网页内容"""
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
return None
except requests.exceptions.RequestException:
return None
def parse_webpage(html_content):
"""解析网页内容,提取有效信息"""
soup = BeautifulSoup(html_content, 'html.parser')
# 假设我们要提取所有的段落文本
paragraphs = soup.find_all('p')
return [p.get_text() for p in paragraphs]
def main():
url = 'https://example.com' # 替换为你要爬取的网页地址
html_content = download_webpage(url)
if html_content:
parsed_data = parse_webpage(html_content)
for paragraph in parsed_data:
print(paragraph)
else:
print("Failed to download webpage")
if __name__ == '__main__':
main()
这段代码展示了如何使用Python的requests库下载网页内容,以及如何使用BeautifulSoup库解析HTML并提取所需信息。这是一个简单的网络爬虫示例,可以根据实际需求进行功能扩展和优化。
评论已关闭