爬虫3_爬取翻页URL不变的网站
import requests
from bs4 import BeautifulSoup
import re
def get_pages(url):
# 获取页面内容
response = requests.get(url)
if response.status_code == 200:
return response.text
return None
def parse_page(html):
# 解析页面,提取所需信息
soup = BeautifulSoup(html, 'html.parser')
titles = soup.find_all('h2', class_='post-title')
for title in titles:
print(title.a.text)
# 提取详细链接
detail_url = title.a['href']
print(detail_url)
def main():
# 主函数,控制爬取流程
base_url = 'http://example.com/page/'
for page in range(1, 11): # 假设网站只有10页
url = base_url + str(page)
html = get_pages(url)
if html:
parse_page(html)
if __name__ == '__main__':
main()
这个示例代码展示了如何爬取一个URL模式不变的网站的多个页面。在这个例子中,我们假设网站只有10页,因此我们爬取页码从1到10的页面。代码中的get_pages
函数负责获取页面内容,parse_page
函数负责解析页面并提取信息,最后在main
函数中控制爬取流程。
评论已关闭