如何结合Node和Puppeteer做网络爬虫

作者：System 时间：2024年08月16日分类：所有,爬虫字数：626

这篇文章距离上次修改已过716天，其中的内容可能已经有所变动。




const puppeteer = require('puppeteer');
 
async function crawlWithPuppeteer(url) {
    // 启动浏览器
    const browser = await puppeteer.launch();
    // 打开新页面
    const page = await browser.newPage();
    // 导航到URL
    await page.goto(url);
    // 等待内容加载完成
    await page.waitForSelector('body');
 
    // 提取页面标题
    const title = await page.title();
    console.log('页面标题:', title);
 
    // 关闭浏览器
    await browser.close();
}
 
// 使用方法: crawlWithPuppeteer('https://example.com');

这段代码演示了如何使用Puppeteer启动一个浏览器实例，打开一个新页面，导航到指定的URL，并等待页面加载。然后它提取页面标题并在控制台输出，最后关闭浏览器。这是爬虫过程中的一个基本步骤，可以扩展以抓取更多的数据。

如何结合Node和Puppeteer做网络爬虫

评论已关闭

推荐阅读