python 网络爬虫及可视化之实现引入库、Cookies使用、获取图书列表
import requests
from bs4 import BeautifulSoup
import pandas as pd
import matplotlib.pyplot as plt
# 设置代理服务器
proxies = {
'http': 'http://user:password@proxy.server.com:port',
'https': 'https://user:password@proxy.server.com:port'
}
# 使用Cookies进行登录
session = requests.Session()
session.cookies.set('cookie-name', 'cookie-value')
# 获取图书列表页面
def get_book_list_page(url):
response = session.get(url, proxies=proxies)
return response.text
# 解析图书列表,提取书名和URL
def parse_book_list(html):
soup = BeautifulSoup(html, 'html.parser')
book_list = soup.find_all('div', class_='book-list-column')
book_titles = [book.find('a') for book in book_list]
book_titles = [(title.text, title['href']) for title in book_titles]
return book_titles
# 获取并展示图书列表
def show_book_list(book_titles):
book_titles_df = pd.DataFrame(book_titles, columns=['书名', 'URL'])
book_titles_df['书名'] = book_titles_df['书名'].str.extract(r'(.+)\(', expand=False)
book_titles_df.dropna(inplace=True)
book_titles_df.sort_values('书名', inplace=True)
book_titles_df.reset_index(drop=True, inplace=True)
plt.figure(figsize=(20, 10))
plt.xticks(rotation=90)
plt.bar(book_titles_df['书名'], book_titles_df.index)
plt.show()
# 示例URL
url = 'http://example.com/books'
html = get_book_list_page(url)
book_titles = parse_book_list(html)
show_book_list(book_titles)
这段代码首先导入了必要的库,并设置了代理服务器。然后使用带有Cookies的requests.Session
来进行登录并获取网页内容。接着定义了获取图书列表页面、解析页面并提取书名和URL的函数。最后,通过一个示例URL获取页面内容,解析并展示了图书列表。
评论已关闭