Python 爬虫:深入技术细节,掌握数据获取利器
import requests
from bs4 import BeautifulSoup
def get_html(url):
"""发送HTTP请求,获取网页内容"""
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
return None
except requests.RequestException:
return None
def parse_html(html):
"""解析网页,提取有效数据"""
soup = BeautifulSoup(html, 'html.parser')
# 假设我们要提取所有的段落文本
paragraphs = soup.find_all('p')
return [p.get_text() for p in paragraphs]
def main():
url = 'http://example.com' # 替换为目标网站的URL
html = get_html(url)
if html:
parsed_data = parse_html(html)
for data in parsed_data:
print(data)
else:
print("Failed to retrieve the webpage content.")
if __name__ == '__main__':
main()
这段代码展示了如何使用Python的requests库发送HTTP请求,以及如何使用BeautifulSoup库解析HTML并提取数据。这是一个简单的网络爬虫示例,可以作为学习的起点。在实际应用中,你需要根据目标网站的结构调整解析代码。
评论已关闭