使用PyCharm编写爬虫程序，爬取当当网 Top 500 本五星好评书籍

作者：System 时间：2024年08月16日分类：所有,爬虫字数：1301

这篇文章距离上次修改已过690天，其中的内容可能已经有所变动。

以下是一个简单的Python爬虫示例，使用requests和BeautifulSoup库来爬取当当网Top 500书籍信息，并使用PyCharm作为IDE。

首先，确保安装了requests和beautifulsoup4库：




pip install requests beautifulsoup4

然后，在PyCharm中创建一个新的Python文件，并输入以下代码：




import requests
from bs4 import BeautifulSoup
 
def get_top_books(url):
    response = requests.get(url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
        books = soup.find_all('ul', class_='bang_list clearfix')
        for book in books:
            yield {
                'name': book.find('a', class_='name').text.strip(),
                'comment': book.find('p', class_='comment').text.strip(),
                'author': book.find('p', class_='author').text.strip(),
                'rating': book.find('p', class_='rating').text.strip(),
            }
 
def main():
    base_url = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-'
    for page in range(1, 11):  # 10 pages
        url = f'{base_url}{page}'
        for book in get_top_books(url):
            print(book)
 
if __name__ == '__main__':
    main()

这段代码定义了两个函数：get_top_books用于从指定URL获取书籍信息，main函数用于迭代10个页面，并打印每本书的信息。

请注意，对于爬取的数据，您需要遵守当当网的robots.txt协议，并尊重版权及隐私权利人的权益。此外，过度频繁的爬取可能会触犯法律，请合法使用爬虫，不进行数据挖掘或者用于商业目的。

使用PyCharm编写爬虫程序，爬取当当网 Top 500 本五星好评书籍

评论已关闭

推荐阅读