基于Python的旅游网站数据爬虫分析

作者：System 时间：2024年08月16日分类：所有,爬虫字数：1135

这篇文章距离上次修改已过495天，其中的内容可能已经有所变动。




import requests
from bs4 import BeautifulSoup
import pandas as pd
 
# 设置请求头，伪装为浏览器访问
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
 
# 目标URL
url = 'https://www.qunar.com/'
 
# 发送GET请求
response = requests.get(url, headers=headers)
 
# 检查请求是否成功
if response.status_code == 200:
    # 使用BeautifulSoup解析HTML内容
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 提取所需的数据，这里以主要城市为例
    cities = soup.find_all('a', {'class': 'nav-city-name'})
    city_names = [city.text for city in cities]
    city_urls = ['https://www.qunar.com' + city['href'] for city in cities]
    
    # 将数据存储在字典中
    data = {
        'City Name': city_names,
        'City URL': city_urls
    }
    
    # 将数据转换为DataFrame
    df = pd.DataFrame(data)
    
    # 打印前几行数据
    print(df.head())
 
else:
    print("请求失败，状态码:", response.status_code)

这段代码使用了requests库来发送HTTP GET请求，使用BeautifulSoup库来解析HTML内容，并使用pandas库来处理和存储数据。代码首先设置了请求头，伪装成了浏览器，然后发送请求，如果请求成功，它会解析HTML，提取旅游网站首页上的主要城市名称和对应的URL，并将这些数据存储在DataFrame中，最后打印出前几行数据。

基于Python的旅游网站数据爬虫分析

评论已关闭

推荐阅读