使用puppeteer实现一个简单的爬虫
以下是一个使用Puppeteer实现的简单爬虫示例,它将爬取指定网页上的所有链接,并将它们输出到控制台:
const puppeteer = require('puppeteer');
async function crawlLinks(url) {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto(url);
// 获取页面上所有的链接
const links = await page.$$eval('a', links => links.map(link => link.href));
// 输出链接
console.log(links);
await browser.close();
}
// 使用方法:crawlLinks('https://example.com');
确保你已经安装了Puppeteer依赖:
npm install puppeteer
在运行这个脚本之前,请确保你理解和遵守网站的robots.txt
规则,以及你有权限抓取这个网站的数据。不要进行任何可能违反条款的爬虫行为。
评论已关闭