使用PyCharm编写爬虫程序,爬取当当网 Top 500 本五星好评书籍
以下是一个简单的Python爬虫示例,使用requests和BeautifulSoup库来爬取当当网Top 500书籍信息,并使用PyCharm作为IDE。
首先,确保安装了requests和beautifulsoup4库:
pip install requests beautifulsoup4
然后,在PyCharm中创建一个新的Python文件,并输入以下代码:
import requests
from bs4 import BeautifulSoup
def get_top_books(url):
response = requests.get(url)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
books = soup.find_all('ul', class_='bang_list clearfix')
for book in books:
yield {
'name': book.find('a', class_='name').text.strip(),
'comment': book.find('p', class_='comment').text.strip(),
'author': book.find('p', class_='author').text.strip(),
'rating': book.find('p', class_='rating').text.strip(),
}
def main():
base_url = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-'
for page in range(1, 11): # 10 pages
url = f'{base_url}{page}'
for book in get_top_books(url):
print(book)
if __name__ == '__main__':
main()
这段代码定义了两个函数:get_top_books
用于从指定URL获取书籍信息,main
函数用于迭代10个页面,并打印每本书的信息。
请注意,对于爬取的数据,您需要遵守当当网的robots.txt协议,并尊重版权及隐私权利人的权益。此外,过度频繁的爬取可能会触犯法律,请合法使用爬虫,不进行数据挖掘或者用于商业目的。
评论已关闭