第-3章-python-爬虫抓包与数据解析
由于原代码已经比较完整,我们可以提供一个简化的示例来说明其核心功能。
import requests
from bs4 import BeautifulSoup
# 发送HTTP请求
def fetch_url(url):
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
return None
# 解析HTML内容,提取指定数据
def parse_html(html_content):
soup = BeautifulSoup(html_content, 'html.parser')
return soup.find('div', {'id': 'story'}).get_text()
# 主函数
def main():
url = 'http://example.com/story.html'
html_content = fetch_url(url)
if html_content:
story = parse_html(html_content)
print(story)
else:
print("Failed to fetch URL")
if __name__ == '__main__':
main()
这个示例代码定义了一个简单的网络爬虫,用于获取网页内容并解析出特定的数据。fetch_url
函数使用requests
库来发送HTTP GET请求,并返回页面内容。parse_html
函数使用BeautifulSoup
来解析HTML内容,并提取出需要的数据。最后,main
函数组合了这两个功能,展示了如何在实际应用中调用这些函数。
评论已关闭