Puppeteer！程序员还不会爬虫？

作者：System 时间：2024年08月16日分类：所有,爬虫字数：663

这篇文章距离上次修改已过717天，其中的内容可能已经有所变动。

Puppeteer 是一个 Node 库，它提供了高级 API 来控制 Chrome 或 Chromium。如果你能用 Puppeteer 做爬虫，说明你已经掌握了这个工具的基本使用。

以下是一个简单的使用 Puppeteer 进行网页抓取的例子：




const puppeteer = require('puppeteer');
 
async function fetchHTML(url) {
    const browser = await puppeteer.launch();
    const page = await browser.newPage();
    await page.goto(url);
    const html = await page.evaluate(() => document.body.innerHTML);
    browser.close();
    return html;
}
 
// 使用方法:
fetchHTML('https://example.com').then(html => console.log(html));

这段代码会启动一个新的浏览器实例，打开一个新页面，访问指定的 URL，然后获取页面的 HTML 内容，并在浏览器实例关闭后返回。这是一个非常基础的爬虫示例，实际的爬虫可能需要处理更复杂的情况，比如需要登录、处理 AJAX 请求、应对反爬虫策略等。

Puppeteer！程序员还不会爬虫？

评论已关闭

推荐阅读