python 网络爬虫及可视化之实现引入库、Cookies使用、获取图书列表

这篇文章距离上次修改已过431天，其中的内容可能已经有所变动。




import requests
from bs4 import BeautifulSoup
import pandas as pd
import matplotlib.pyplot as plt
 
# 设置代理服务器
proxies = {
    'http': 'http://user:password@proxy.server.com:port',
    'https': 'https://user:password@proxy.server.com:port'
}
 
# 使用Cookies进行登录
session = requests.Session()
session.cookies.set('cookie-name', 'cookie-value')
 
# 获取图书列表页面
def get_book_list_page(url):
    response = session.get(url, proxies=proxies)
    return response.text
 
# 解析图书列表，提取书名和URL
def parse_book_list(html):
    soup = BeautifulSoup(html, 'html.parser')
    book_list = soup.find_all('div', class_='book-list-column')
    book_titles = [book.find('a') for book in book_list]
    book_titles = [(title.text, title['href']) for title in book_titles]
    return book_titles
 
# 获取并展示图书列表
def show_book_list(book_titles):
    book_titles_df = pd.DataFrame(book_titles, columns=['书名', 'URL'])
    book_titles_df['书名'] = book_titles_df['书名'].str.extract(r'(.+)\(', expand=False)
    book_titles_df.dropna(inplace=True)
    book_titles_df.sort_values('书名', inplace=True)
    book_titles_df.reset_index(drop=True, inplace=True)
    plt.figure(figsize=(20, 10))
    plt.xticks(rotation=90)
    plt.bar(book_titles_df['书名'], book_titles_df.index)
    plt.show()
 
# 示例URL
url = 'http://example.com/books'
html = get_book_list_page(url)
book_titles = parse_book_list(html)
show_book_list(book_titles)

这段代码首先导入了必要的库，并设置了代理服务器。然后使用带有Cookies的requests.Session来进行登录并获取网页内容。接着定义了获取图书列表页面、解析页面并提取书名和URL的函数。最后，通过一个示例URL获取页面内容，解析并展示了图书列表。

python 网络爬虫及可视化之实现引入库、Cookies使用、获取图书列表

评论已关闭

推荐阅读