Puppeteer!程序员还不会爬虫?
Puppeteer 是一个 Node 库,它提供了高级 API 来控制 Chrome 或 Chromium。如果你能用 Puppeteer 做爬虫,说明你已经掌握了这个工具的基本使用。
以下是一个简单的使用 Puppeteer 进行网页抓取的例子:
const puppeteer = require('puppeteer');
async function fetchHTML(url) {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto(url);
const html = await page.evaluate(() => document.body.innerHTML);
browser.close();
return html;
}
// 使用方法:
fetchHTML('https://example.com').then(html => console.log(html));
这段代码会启动一个新的浏览器实例,打开一个新页面,访问指定的 URL,然后获取页面的 HTML 内容,并在浏览器实例关闭后返回。这是一个非常基础的爬虫示例,实际的爬虫可能需要处理更复杂的情况,比如需要登录、处理 AJAX 请求、应对反爬虫策略等。
评论已关闭