爬虫(没)入门:用 node-crawler 爬取 blog
const Crawler = require("crawler");
// 创建爬虫实例
const crawler = new Crawler({
maxConnections: 10,
callback: function (error, res, done) {
if (error) {
console.error(error);
} else {
const $ = res.$;
// 假设我们只关心<h2>标签内的文章标题和链接
$('h2.title a').each(function() {
const title = $(this).text();
const link = $(this).attr('href');
console.log('标题: ' + title + ' - 链接: ' + link);
});
}
done();
}
});
// 定义爬取的URL和选择器
const crawlConfig = {
uri: 'http://example.com/blog',
jQuery: 'h2.title a@href',
callback: function (err, res) {
if (err) {
console.error(err);
} else {
res.forEach(link => {
console.log('爬取到的文章链接: ' + link);
// 将文章链接加入爬虫队列
crawler.queue({
uri: link,
jQuery: 'h2.title'
});
});
}
}
};
// 开始爬取
crawler.queue(crawlConfig);
这段代码使用了node-crawler
库来爬取指定的博客首页,并获取文章链接,然后爬取每篇文章的标题。这个例子展示了如何使用node-crawler
库的基本用法,并且如何通过回调函数处理爬取的数据。
评论已关闭