【爬虫实战】使用Python获取花粉俱乐部中Mate60系列的用户发帖数据
import requests
from lxml import etree
import pandas as pd
# 请求头部信息,模拟浏览器访问
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
'Referer': 'http://www.huaban.com/favorite/meinv/',
}
# 获取网页源代码的函数
def get_page_source(url):
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text
return None
# 解析网页源代码,提取数据的函数
def parse_data(html):
tree = etree.HTML(html)
post_titles = tree.xpath('//div[@class="photo-item-info"]/a/text()')
post_urls = tree.xpath('//div[@class="photo-item-info"]/a/@href')
post_authors = tree.xpath('//div[@class="author"]/a/text()')
post_times = tree.xpath('//div[@class="date"]/text()')
post_comments = tree.xpath('//div[@class="photo-item-bottom"]/div[@class="digg"]/span/text()')
data = {
'标题': post_titles,
'链接': post_urls,
'作者': post_authors,
'时间': post_times,
'点赞数': post_comments
}
return data
# 保存数据到CSV文件的函数
def save_to_csv(data, filename):
df = pd.DataFrame(data)
df.to_csv(filename + '.csv', index=False, encoding='utf-8')
# 主函数
def main():
# 请求的起始页
start_page = 1
# 总页数
total_page = 10
# 花粉俱乐部Mate60系列帖子的起始URL
base_url = 'http://www.huaban.com/favorite/meinv/board/20012266/?page='
# 存储数据的字典
all_data = {
'标题': [],
'链接': [],
'作者': [],
'时间': [],
'点赞数': []
}
# 循环遍历每一页
for page in range(start_page, total_page + 1):
print(f'正在抓取第{page}页的数据...')
url = base_url + str(page)
html = get_page_source(url)
if html:
data = parse_data(html)
for key in all_data.keys():
all_data[key].extend(data[key])
else:
print(f'第{page}页数据抓取失败。')
# 保存数据到CSV文件
save_to_csv(all_data, 'Mate60_Favorites')
if __name__ == '__main__':
main()
这段代码首先定义了请求花粉俱乐部时需要用到的请求头部信息,以及获取网页源代码和解析数据的函数。主函数中定义了起始页、总页数和起始URL,然后通过循环抓取每一页的数据,并将其保存到一个字典中。最后,将这个字典中的数据保存到CSV文件中。这个过程遵循了爬虫的基本步骤,并使用了请求库requests、lxml库来解析HTML、pandas库来保存数据。
评论已关闭