一个简单得爬虫小案例：获取西瓜网视频数据【python】

作者：System 时间：2024年08月23日分类：所有,爬虫字数：1098

这篇文章距离上次修改已过488天，其中的内容可能已经有所变动。

以下是一个简化的西瓜网视频数据爬虫示例，使用Python的requests和BeautifulSoup库。请注意，实际爬取数据时需遵守西瓜网的robots.txt协议及法律法规，此代码仅用于学习目的。




import requests
from bs4 import BeautifulSoup
import pandas as pd
 
def get_xibo_videos(url):
    # 发送HTTP请求
    response = requests.get(url)
    response.raise_for_status()
    soup = BeautifulSoup(response.text, 'lxml')
 
    # 解析视频数据
    videos = soup.find_all('div', class_='video-item')
    data = []
    for video in videos:
        title = video.find('a', class_='video-title').text
        play_url = video.find('a', class_='video-play')['href']
        data.append({
            'title': title,
            'play_url': play_url
        })
    return data
 
def save_to_csv(data, filename):
    df = pd.DataFrame(data)
    df.to_csv(filename, index=False)
 
# 示例URL
base_url = 'https://www.xibo.org/videos/new-videos'
videos_data = get_xibo_videos(base_url)
save_to_csv(videos_data, 'xibo_videos.csv')

这段代码定义了两个函数：get_xibo_videos 用于获取西瓜网指定页面的视频数据，save_to_csv 用于将数据保存到CSV文件。首先通过requests库发送HTTP请求，然后使用BeautifulSoup解析页面数据，并提取视频标题和播放URL。最后，将数据保存到CSV文件中。

一个简单得爬虫小案例：获取西瓜网视频数据【python】

评论已关闭

推荐阅读