使用puppeteer实现一个简单的爬虫

作者：System 时间：2024年08月09日分类：所有,爬虫字数：612

这篇文章距离上次修改已过716天，其中的内容可能已经有所变动。

以下是一个使用Puppeteer实现的简单爬虫示例，它将爬取指定网页上的所有链接，并将它们输出到控制台：




const puppeteer = require('puppeteer');
 
async function crawlLinks(url) {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto(url);
 
  // 获取页面上所有的链接
  const links = await page.$$eval('a', links => links.map(link => link.href));
 
  // 输出链接
  console.log(links);
 
  await browser.close();
}
 
// 使用方法：crawlLinks('https://example.com');

确保你已经安装了Puppeteer依赖：




npm install puppeteer

在运行这个脚本之前，请确保你理解和遵守网站的robots.txt规则，以及你有权限抓取这个网站的数据。不要进行任何可能违反条款的爬虫行为。

使用puppeteer实现一个简单的爬虫

评论已关闭

推荐阅读