Python-Web-爬虫实用指南
import requests
from bs4 import BeautifulSoup
# 发送HTTP请求
def fetch_url(url):
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
print(f"请求URL失败,状态码:{response.status_code}")
return None
except requests.exceptions.RequestException:
print("请求URL时发生错误")
return None
# 解析HTML内容
def parse_content(html_content):
soup = BeautifulSoup(html_content, 'html.parser')
# 假设我们要获取所有的段落文本
paragraphs = soup.find_all('p')
for p in paragraphs:
print(p.get_text())
# 主函数
def main():
url = "https://example.com"
html_content = fetch_url(url)
if html_content:
parse_content(html_content)
if __name__ == "__main__":
main()
这段代码展示了如何使用Python的requests库来发送HTTP请求,以及如何使用BeautifulSoup库来解析HTML内容。代码中定义了fetch_url
函数来发送请求,parse_content
函数来解析HTML,并在main
函数中调用这两个函数。这是一个简单的网络爬虫示例,展示了如何从一个给定的URL中提取数据。
评论已关闭