增量式爬虫是一种爬虫设计方式,它会记录每次爬取的信息,并在下一次爬取时只处理新产生的或者有更新的信息。这样可以减少重复爬取,节约时间和资源。
以下是一个简单的示例,使用BeautifulSoup和requests库来实现一个增量式的新闻网站爬虫。
import requests
from bs4 import BeautifulSoup
import sqlite3
import datetime
# 数据库连接
conn = sqlite3.connect('news.db')
cur = conn.cursor()
# 创建数据库表
cur.execute('''
CREATE TABLE IF NOT EXISTS news (
id INTEGER PRIMARY KEY,
title TEXT,
url TEXT,
published_at DATE,
crawled_at DATE
)
''')
conn.commit()
# 获取最后一次爬取的时间
cur.execute('SELECT MAX(crawled_at) FROM news')
last_crawled_at = cur.fetchone()[0]
if last_crawled_at is None:
last_crawled_at = datetime.date(2020, 1, 1) # 设定一个初始的时间
# 目标网页
url = 'https://news.example.com/news'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 解析新闻
for article in soup.select('.article'):
title = article.select_one('.title').text
url = article.select_one('.title a')['href']
published_at = datetime.datetime.strptime(article.select_one('.published-at').text, '%Y-%m-%d')
# 只抓取从last_crawled_at以后的新闻或更新的新闻
if published_at.date() > last_crawled_at:
# 插入数据库
cur.execute('''
INSERT INTO news (title, url, published_at, crawled_at)
VALUES (?, ?, ?, ?)
''', (title, url, published_at.date(), datetime.date.today()))
conn.commit()
# 关闭数据库连接
conn.close()
这个例子中,我们使用了一个SQLite数据库来记录每篇新闻的爬取时间。在每次爬取新闻前,我们会查询数据库中最后一次的爬取时间,并只抓取自那以后发布的或更新的新闻。这样就实现了一个增量式的爬虫。