一个简单得爬虫小案例:获取西瓜网视频数据【python】
以下是一个简化的西瓜网视频数据爬虫示例,使用Python的requests和BeautifulSoup库。请注意,实际爬取数据时需遵守西瓜网的robots.txt协议及法律法规,此代码仅用于学习目的。
import requests
from bs4 import BeautifulSoup
import pandas as pd
def get_xibo_videos(url):
# 发送HTTP请求
response = requests.get(url)
response.raise_for_status()
soup = BeautifulSoup(response.text, 'lxml')
# 解析视频数据
videos = soup.find_all('div', class_='video-item')
data = []
for video in videos:
title = video.find('a', class_='video-title').text
play_url = video.find('a', class_='video-play')['href']
data.append({
'title': title,
'play_url': play_url
})
return data
def save_to_csv(data, filename):
df = pd.DataFrame(data)
df.to_csv(filename, index=False)
# 示例URL
base_url = 'https://www.xibo.org/videos/new-videos'
videos_data = get_xibo_videos(base_url)
save_to_csv(videos_data, 'xibo_videos.csv')
这段代码定义了两个函数:get_xibo_videos
用于获取西瓜网指定页面的视频数据,save_to_csv
用于将数据保存到CSV文件。首先通过requests库发送HTTP请求,然后使用BeautifulSoup解析页面数据,并提取视频标题和播放URL。最后,将数据保存到CSV文件中。
评论已关闭