Python 爬虫常用库总结与进阶指南
import requests
from bs4 import BeautifulSoup
import re
import pandas as pd
# 获取网页内容
def get_html(url):
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
return None
except requests.RequestException:
return None
# 解析网页并提取数据
def parse_data(html):
soup = BeautifulSoup(html, 'html.parser')
data = []
for row in soup.find_all('tr')[1:]: # 假设表格的每一行是一个tr标签
cols = row.find_all('td')
data.append([col.text.strip() for col in cols])
return data
# 清洗数据并转换为DataFrame
def clean_data(rows):
cleaned_data = [[re.sub(r'\s+', '', col) for col in row] for row in rows]
return pd.DataFrame(cleaned_data)
# 示例使用
url = 'http://example.com/table'
html = get_html(url)
data = parse_data(html)
df = clean_data(data)
print(df)
这个代码示例展示了如何使用Python的requests库获取网页内容,使用BeautifulSoup进行网页解析,使用正则表达式(re)进行数据清洗,并使用pandas库将数据转换为DataFrame格式,方便进一步分析和处理。这个流程是编写爬虫常用的一些库,对于学习爬虫技术的开发者来说,这是一个很好的入门级例子。
评论已关闭